Nghiên cứu cải tiến phân lớp đa nhãn văn bản trong luận văn thạc sĩ công nghệ thông tin

Luận văn thạc sĩ công nghệ thông tin nghiên cứu cải tiến phân lớp đa nhãn văn bản, ứng dụng hiệu quả trong xử lý dữ liệu và trí tuệ nhân tạo.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận án tiến sĩ

2017

152

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TIẾP CẬN GIẢM CHIỀU KHÔNG GIAN ĐẶC TRƯNG ĐẦU VÀO

1.1. Tiếp cận giảm chiều không gian nhãn đầu ra

1.2. Học bán giám sát cho phân lớp đa nhãn

1.3. Kết luận chương 1

2. CHƯƠNG 2: HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG VIỆT

2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều kiện và tiêu chuẩn kỳ vọng tổng quát

2.2. Nhận diện thực thể có tên

2.3. Mô hình đề xuất

2.4. Sử dụng tiêu chuẩn kỳ vọng tổng quát vào mô hình trường ngẫu nhiên có điều kiện CRFs

2.5. Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát

2.6. Mô hình đề xuất cho bài toán nhận diện thực thể có tên

2.7. Ứng dụng mô hình

2.8. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội

2.9. Sơ bộ về tư vấn xã hội

2.10. Mô hình đề xuất

2.11. Ứng dụng mô hình

2.12. Kết luận chương 2

3. CHƯƠNG 3: PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN

3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn

3.2. Biểu diễn dữ liệu theo chủ đề ẩn

3.3. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn

3.4. Pha 1 – Huấn luyện mô hình

3.5. Pha 2 – Đánh giá mô hình huấn luyện

3.6. Ứng dụng phân lớp đa nhãn đánh giá khách sạn

3.7. Xây dựng tập dữ liệu thực nghiệm

3.8. Kết quả thực nghiệm

3.9. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn

3.10. Mô hình biểu diễn văn bản theo đồ thị khoảng cách

3.11. Biểu diễn dữ liệu theo đồ thị khoảng cách

3.12. Mô hình đồ thị khoảng cách và mô hình n-gram

3.13. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách chủ đề ẩn

3.14. Pha huấn luyện mô hình

3.15. Pha phân lớp sử dụng mô hình huấn luyện

3.16. Ứng dụng phân lớp đa nhãn đánh giá khách sạn

3.17. Kết luận chương 3

4. CHƯƠNG 4: KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT

4.1. Tiếp cận phân cụm bán giám sát

4.2. Tiếp cận dựa trên ràng buộc

4.3. Tiếp cận dựa trên khoảng cách

4.4. Mô hình phân lớp đa nhãn bán giám sát

4.5. Phát biểu bài toán phân lớp đa nhãn bán giám sát

4.6. Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát

4.7. Thuật toán TESC và LIFT

4.8. Thuật toán phân lớp đa nhãn bán giám sát

4.9. Mô hình phân lớp đa nhãn bán giám sát đề xuất

4.10. Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát

4.11. Mô hình đề xuất

4.12. Huấn luyện mô hình

4.13. Phân lớp sử dụng mô hình huấn luyện

4.14. Ứng dụng phân lớp đa nhãn sử dụng mô hình đề xuất

4.15. Kết luận chương 4

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu về phân lớp đa nhãn văn bản

Phân lớp đa nhãn văn bản là một lĩnh vực quan trọng trong công nghệ thông tin. Nó cho phép một đối tượng dữ liệu có thể được gán nhiều nhãn khác nhau, điều này rất cần thiết trong bối cảnh dữ liệu ngày càng phong phú và đa dạng. Phân lớp văn bản không chỉ đơn thuần là gán một nhãn cho một tài liệu mà còn phải xem xét mối quan hệ giữa các nhãn. Việc áp dụng học máy trong phân lớp đa nhãn giúp cải thiện độ chính xác và hiệu quả của các mô hình phân lớp. Theo nghiên cứu, thuật toán học sâu đã chứng minh được khả năng xử lý tốt các bài toán phân lớp đa nhãn, đặc biệt là trong các lĩnh vực như phân tích dữ liệu đa phương tiện và khai phá mạng xã hội. Một trong những thách thức lớn nhất trong phân lớp đa nhãn là mất cân bằng nhãn, nơi một số nhãn xuất hiện nhiều hơn so với các nhãn khác. Điều này đòi hỏi các phương pháp mới để cải thiện độ chính xác của mô hình.

1.1. Tính cấp thiết của phân lớp đa nhãn

Với sự bùng nổ của dữ liệu, việc phân lớp tự động trở nên cần thiết hơn bao giờ hết. Phân lớp đa nhãn cho phép các ứng dụng như tìm kiếm thông tin, phân tích cảm xúc và phân loại tài liệu hoạt động hiệu quả hơn. Các nghiên cứu đã chỉ ra rằng, việc áp dụng công nghệ thông tin trong phân lớp đa nhãn không chỉ giúp tiết kiệm thời gian mà còn nâng cao độ chính xác trong việc gán nhãn. Hơn nữa, hệ thống thông tin hiện đại yêu cầu khả năng xử lý và phân tích dữ liệu lớn, điều này càng làm nổi bật vai trò của phân lớp đa nhãn trong việc tối ưu hóa quy trình xử lý dữ liệu.

II. Kỹ thuật và thuật toán trong phân lớp đa nhãn

Các kỹ thuật phân lớp đa nhãn hiện nay rất đa dạng, bao gồm các phương pháp như Binary Relevance, Classifier Chains, và Ensemble Methods. Mỗi phương pháp có những ưu điểm và nhược điểm riêng. Binary Relevance là phương pháp đơn giản nhất, trong đó mỗi nhãn được xử lý độc lập. Tuy nhiên, phương pháp này không khai thác được mối quan hệ giữa các nhãn. Ngược lại, Classifier Chains cho phép các nhãn tương tác với nhau, từ đó cải thiện độ chính xác. Ensemble Methods kết hợp nhiều mô hình để tạo ra một mô hình mạnh mẽ hơn. Việc áp dụng thuật toán học sâu như mạng nơ-ron cũng đã cho thấy hiệu quả cao trong việc xử lý các bài toán phân lớp đa nhãn, đặc biệt là trong các lĩnh vực như nhận diện thực thể và phân tích ngữ nghĩa.

2.1. Đánh giá và cải tiến thuật toán

Đánh giá hiệu quả của các thuật toán phân lớp đa nhãn là rất quan trọng. Các chỉ số như độ chính xác, độ phủ và F1-score thường được sử dụng để đo lường hiệu suất. Việc cải tiến thuật toán có thể thông qua việc tối ưu hóa các tham số hoặc áp dụng các kỹ thuật học bán giám sát. Học bán giám sát cho phép sử dụng cả dữ liệu có nhãn và không có nhãn, từ đó nâng cao khả năng phân lớp. Nghiên cứu cho thấy rằng việc kết hợp các phương pháp khác nhau có thể tạo ra những cải tiến đáng kể trong hiệu suất phân lớp.

III. Ứng dụng thực tiễn của phân lớp đa nhãn

Phân lớp đa nhãn có nhiều ứng dụng thực tiễn trong các lĩnh vực như phân tích dữ liệu, khai phá mạng xã hội, và hệ thống tư vấn. Trong lĩnh vực phân tích dữ liệu, phân lớp đa nhãn giúp phân loại tài liệu theo nhiều chủ đề khác nhau, từ đó cung cấp thông tin chi tiết hơn cho người dùng. Trong khai phá mạng xã hội, nó cho phép phân tích cảm xúc và xu hướng của người dùng một cách hiệu quả. Hệ thống tư vấn cũng có thể sử dụng phân lớp đa nhãn để gán nhãn cho các câu hỏi và câu trả lời, từ đó cải thiện trải nghiệm người dùng. Những ứng dụng này không chỉ nâng cao hiệu quả công việc mà còn mở ra nhiều cơ hội mới trong việc phát triển các sản phẩm và dịch vụ dựa trên dữ liệu.

3.1. Tương lai của phân lớp đa nhãn

Tương lai của phân lớp đa nhãn hứa hẹn sẽ có nhiều tiến bộ với sự phát triển của trí tuệ nhân tạo và học máy. Các nghiên cứu hiện tại đang tập trung vào việc cải thiện khả năng xử lý dữ liệu lớn và phát triển các mô hình phân lớp mạnh mẽ hơn. Việc áp dụng các công nghệ mới như trí tuệ nhân tạo và học sâu sẽ giúp nâng cao độ chính xác và hiệu quả của các mô hình phân lớp đa nhãn. Hơn nữa, sự phát triển của các công cụ và nền tảng hỗ trợ sẽ giúp các nhà nghiên cứu và phát triển dễ dàng hơn trong việc triển khai các giải pháp phân lớp đa nhãn.

06/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh bùng nổ dữ liệu về dung lượng và chủng loại, phân lớp dữ liệu tự động trở thành một lĩnh vực nghiên cứu trọng điểm trong khai phá dữ liệu. Theo ước tính, trong mười thuật toán khai phá dữ liệu điển hình nhất, có tới bảy thuật toán liên quan trực tiếp đến bài toán phân lớp như C4.5, SVM, k-NN, Naïve Bayes, Adaboost, EM và CART. Bài toán phân lớp đa nhãn (Multi-Label Classification - MLC) là một sự tiến hóa quan trọng từ phân lớp đơn nhãn truyền thống, cho phép mỗi đối tượng dữ liệu có thể được gán nhiều nhãn cùng lúc, phù hợp với thực tế như phân lớp văn bản, phân tích dữ liệu đa phương tiện, sinh học, khai phá mạng xã hội và nhiều lĩnh vực khác.

Luận văn tập trung nghiên cứu cải tiến phân lớp đa nhãn văn bản tiếng Việt, với phạm vi nghiên cứu chủ yếu trong lĩnh vực công nghệ thông tin, đặc biệt là hệ thống thông tin và học máy. Nghiên cứu được thực hiện trong giai đoạn đến năm 2017 tại Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội, với ứng dụng thực tiễn trong phân tích nhận xét đánh giá khách sạn tại Việt Nam. Mục tiêu chính của luận văn là đề xuất các mô hình biểu diễn dữ liệu và thuật toán phân lớp đa nhãn bán giám sát nhằm nâng cao hiệu quả phân lớp, đồng thời xây dựng phần mềm thử nghiệm để kiểm chứng tính khả thi và hiệu quả của các giải pháp đề xuất.

Ý nghĩa của nghiên cứu được thể hiện qua việc giải quyết các thách thức trong phân lớp đa nhãn như mối quan hệ phức tạp giữa các nhãn, chi phí tính toán cao, mất cân bằng nhãn và đa chiều dữ liệu. Các kết quả nghiên cứu góp phần nâng cao độ chính xác và hiệu quả tính toán trong phân lớp đa nhãn văn bản tiếng Việt, mở rộng khả năng ứng dụng trong các hệ thống khai thác thông tin và xử lý ngôn ngữ tự nhiên.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình học máy đa nhãn hiện đại, trong đó có hai khung lý thuyết chính:

Tiếp cận chuyển đổi bài toán (Problem Transformation): Phương pháp này chuyển bài toán phân lớp đa nhãn thành nhiều bài toán phân lớp đơn nhãn hoặc đa lớp, ví dụ như thuật toán Binary Relevance (BR), Classifier Chains (CC), Random k-Labelsets (RakEL). Các thuật toán này tận dụng các bộ phân lớp nhị phân hoặc đa lớp truyền thống để giải quyết bài toán đa nhãn.
Tiếp cận thích nghi thuật toán (Algorithm Adaptation): Phương pháp này mở rộng trực tiếp các thuật toán phân lớp đơn nhãn để xử lý dữ liệu đa nhãn, như Multi-Label k Nearest Neighbour (ML-kNN), Multi-Label Decision Tree (ML-DT), Rank-SVM, Collective Multi-Label Classifier (CML). Các thuật toán này khai thác mối quan hệ giữa các nhãn và đặc trưng dữ liệu đa nhãn để nâng cao hiệu quả phân lớp.

Các khái niệm chuyên ngành quan trọng được sử dụng trong luận văn bao gồm:

Phân lớp đa nhãn (Multi-Label Classification): Mỗi đối tượng dữ liệu có thể thuộc về nhiều nhãn khác nhau.
Biểu diễn dữ liệu theo chủ đề ẩn (Latent Topic Representation): Khai thác thông tin ngữ nghĩa ẩn trong văn bản để làm giàu đặc trưng.
Biểu diễn dữ liệu theo đồ thị khoảng cách chủ đề (Graph-based Topic Distance Representation): Mô hình hóa mối quan hệ giữa các chủ đề ẩn dưới dạng đồ thị để cải thiện phân lớp.
Phân lớp bán giám sát (Semi-Supervised Classification): Sử dụng cả dữ liệu có nhãn và chưa có nhãn để huấn luyện mô hình, giúp tận dụng nguồn dữ liệu phong phú chưa gán nhãn.
Lựa chọn đặc trưng (Feature Selection): Chọn ra các đặc trưng quan trọng, loại bỏ đặc trưng dư thừa để giảm chiều dữ liệu và tăng hiệu quả phân lớp.

Phương pháp nghiên cứu

Luận văn sử dụng phương pháp nghiên cứu kết hợp giữa lý thuyết và thực nghiệm:

Nguồn dữ liệu: Tập dữ liệu thực nghiệm gồm khoảng 1000 khách sạn Việt Nam với các nhận xét đánh giá tiếng Việt được thu thập và gán nhãn đa nhãn. Dữ liệu bao gồm cả văn bản có nhãn và dữ liệu chưa gán nhãn để áp dụng phương pháp bán giám sát.
Phương pháp phân tích:
- Xây dựng và cải tiến các mô hình biểu diễn dữ liệu đa nhãn dựa trên chủ đề ẩn và đồ thị khoảng cách chủ đề.
- Phát triển thuật toán phân lớp đa nhãn bán giám sát MULTICS dựa trên mở rộng thuật toán phân cụm bán giám sát đơn nhãn TESC.
- Áp dụng các thuật toán phân lớp đa nhãn hiện đại như BR, CC, ML-kNN, ML-DT để so sánh và đánh giá hiệu quả.
- Sử dụng các độ đo đánh giá đa nhãn như độ chính xác tập con, hamming loss, average precision, one-error, coverage và ranking loss để đánh giá mô hình.
Timeline nghiên cứu: Quá trình nghiên cứu kéo dài trong nhiều năm, với các giai đoạn chính gồm khảo sát tổng quan, đề xuất mô hình, phát triển thuật toán, xây dựng phần mềm thử nghiệm và thực hiện các thực nghiệm đánh giá từ năm 2014 đến 2017.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Đề xuất hai mô hình biểu diễn dữ liệu đa nhãn mới:
- Mô hình biểu diễn theo chủ đề ẩn giúp khai thác thông tin ngữ nghĩa ẩn trong văn bản, làm giàu đặc trưng và loại bỏ các đặc trưng không quan trọng dựa trên thông tin tương hỗ.
- Mô hình biểu diễn theo đồ thị khoảng cách chủ đề ẩn mô hình hóa mối quan hệ giữa các chủ đề dưới dạng đồ thị, nâng cao hiệu quả phân lớp.
  Kết quả thực nghiệm trên tập dữ liệu 1000 khách sạn cho thấy mô hình đồ thị khoảng cách chủ đề cải thiện độ chính xác phân lớp lên khoảng 5-7% so với mô hình chủ đề ẩn truyền thống.
Phát triển thuật toán phân lớp đa nhãn bán giám sát MULTICS:
Thuật toán MULTICS mở rộng từ thuật toán phân cụm bán giám sát đơn nhãn TESC, sử dụng chiến thuật “tham lam” khai thác đặc trưng riêng biệt của các nhãn. Kết quả thực nghiệm cho thấy MULTICS đạt độ chính xác cao hơn khoảng 8% so với các thuật toán phân lớp đa nhãn giám sát truyền thống khi sử dụng dữ liệu có nhãn hạn chế và dữ liệu chưa gán nhãn phong phú.
Ứng dụng mô hình phân lớp đơn nhãn trong nhận diện thực thể có tên và hệ tư vấn xã hội:
Hai mô hình đơn nhãn dựa trên trường ngẫu nhiên có điều kiện (CRFs) và lọc cộng tác kết hợp thông tin bổ sung từ mạng xã hội đã được xây dựng và thử nghiệm, cho thấy hiệu quả trong việc gán nhãn thực thể và cải thiện chất lượng tư vấn xã hội.
Đánh giá hiệu quả các thuật toán phân lớp đa nhãn:
So sánh các thuật toán BR, CC, ML-kNN, ML-DT, Rank-SVM và CML trên các độ đo đa nhãn cho thấy thuật toán CC và MULTICS có hiệu quả vượt trội trong việc khai thác mối quan hệ giữa các nhãn và xử lý dữ liệu chưa gán nhãn.

Thảo luận kết quả

Nguyên nhân chính của sự cải tiến hiệu quả phân lớp đa nhãn đến từ việc khai thác tốt hơn mối quan hệ giữa các nhãn và biểu diễn dữ liệu giàu thông tin ngữ nghĩa. Mô hình biểu diễn theo chủ đề ẩn giúp giảm chiều dữ liệu và tập trung vào các đặc trưng quan trọng, trong khi mô hình đồ thị khoảng cách chủ đề ẩn mô hình hóa mối quan hệ phức tạp giữa các chủ đề, từ đó nâng cao khả năng phân biệt các nhãn đa nhãn.

Thuật toán bán giám sát MULTICS tận dụng hiệu quả nguồn dữ liệu chưa gán nhãn phong phú, giảm chi phí gán nhãn thủ công và cải thiện độ chính xác mô hình. Kết quả này phù hợp với các nghiên cứu quốc tế về học bán giám sát đa nhãn, đồng thời mở ra hướng phát triển mới cho phân lớp đa nhãn văn bản tiếng Việt.

Các kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác, hamming loss và average precision giữa các mô hình, cũng như bảng tổng hợp các độ đo đánh giá trên tập dữ liệu thực nghiệm. So sánh với các nghiên cứu trước đây, luận văn đã đóng góp các mô hình và thuật toán mới phù hợp với đặc thù dữ liệu tiếng Việt và ứng dụng thực tế.

Đề xuất và khuyến nghị

Triển khai rộng rãi mô hình biểu diễn dữ liệu theo chủ đề ẩn và đồ thị khoảng cách chủ đề:
Đề nghị các tổ chức nghiên cứu và doanh nghiệp ứng dụng mô hình này trong các hệ thống phân tích văn bản, đặc biệt trong lĩnh vực đánh giá khách sạn, thương mại điện tử và truyền thông xã hội. Thời gian triển khai dự kiến trong 6-12 tháng.
Phát triển và ứng dụng thuật toán phân lớp đa nhãn bán giám sát MULTICS:
Khuyến nghị sử dụng MULTICS trong các hệ thống phân lớp văn bản có nguồn dữ liệu chưa gán nhãn lớn nhằm giảm chi phí gán nhãn thủ công và nâng cao độ chính xác. Chủ thể thực hiện là các nhóm nghiên cứu và doanh nghiệp công nghệ thông tin, với lộ trình 12 tháng để tích hợp và tối ưu.
Tăng cường nghiên cứu và phát triển các thuật toán phân lớp đa nhãn phù hợp với tiếng Việt:
Đề xuất các viện nghiên cứu và trường đại học tiếp tục đầu tư nghiên cứu sâu về học máy đa nhãn, đặc biệt là các phương pháp bán giám sát và biểu diễn dữ liệu đặc thù cho tiếng Việt. Thời gian nghiên cứu dài hạn từ 2-3 năm.
Xây dựng bộ dữ liệu đa nhãn tiếng Việt chuẩn và công khai:
Khuyến nghị xây dựng và chia sẻ các bộ dữ liệu đa nhãn tiếng Việt chuẩn để thúc đẩy nghiên cứu và phát triển các thuật toán phân lớp đa nhãn. Chủ thể thực hiện là các tổ chức nghiên cứu và nhà nước, với kế hoạch trong 1-2 năm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành công nghệ thông tin, học máy:
Luận văn cung cấp kiến thức nền tảng và các phương pháp tiên tiến về phân lớp đa nhãn, đặc biệt là ứng dụng trong xử lý văn bản tiếng Việt, hỗ trợ nghiên cứu và phát triển đề tài.
Doanh nghiệp phát triển phần mềm xử lý ngôn ngữ tự nhiên và khai phá dữ liệu:
Các giải pháp và thuật toán đề xuất trong luận văn có thể được ứng dụng để nâng cao hiệu quả các sản phẩm phân tích văn bản, đánh giá khách hàng, hệ thống tư vấn tự động.
Cơ quan quản lý và tổ chức giáo dục:
Tham khảo để xây dựng các chương trình đào tạo, nghiên cứu về học máy đa nhãn và ứng dụng trong thực tế, đồng thời hỗ trợ phát triển nguồn nhân lực chất lượng cao.
Nhà phát triển hệ thống đánh giá và phân tích dữ liệu xã hội:
Các mô hình và thuật toán bán giám sát giúp tận dụng dữ liệu chưa gán nhãn phong phú từ mạng xã hội, cải thiện độ chính xác và hiệu quả phân tích, phù hợp với các hệ thống đánh giá danh tiếng, phản hồi khách hàng.

Câu hỏi thường gặp

Phân lớp đa nhãn khác gì so với phân lớp đơn nhãn?
Phân lớp đa nhãn cho phép mỗi đối tượng dữ liệu được gán nhiều nhãn cùng lúc, trong khi phân lớp đơn nhãn chỉ gán một nhãn duy nhất. Ví dụ, một bài báo có thể thuộc cả hai chủ đề kinh tế và thể thao.
Tại sao cần sử dụng phương pháp bán giám sát trong phân lớp đa nhãn?
Vì việc gán nhãn cho dữ liệu đa nhãn rất tốn kém và mất thời gian, phương pháp bán giám sát tận dụng cả dữ liệu có nhãn và chưa có nhãn để cải thiện hiệu quả học và giảm chi phí gán nhãn.
Mô hình biểu diễn dữ liệu theo chủ đề ẩn có ưu điểm gì?
Mô hình này khai thác thông tin ngữ nghĩa ẩn trong văn bản, giúp làm giàu đặc trưng, giảm chiều dữ liệu và tăng độ chính xác phân lớp so với biểu diễn truyền thống dựa trên từ khóa.
Thuật toán MULTICS hoạt động như thế nào?
MULTICS là thuật toán phân lớp đa nhãn bán giám sát dựa trên phân cụm, sử dụng chiến thuật “tham lam” để khai thác đặc trưng riêng biệt của từng nhãn, tận dụng dữ liệu chưa gán nhãn để nâng cao độ chính xác.
Các độ đo nào được sử dụng để đánh giá hiệu quả phân lớp đa nhãn?
Các độ đo phổ biến gồm độ chính xác tập con, hamming loss, average precision, one-error, coverage và ranking loss, giúp đánh giá toàn diện hiệu quả phân lớp trên từng mẫu và từng nhãn.

Kết luận

Luận văn đã cung cấp một khảo sát toàn diện về phân lớp đa nhãn, từ lý thuyết đến ứng dụng thực tiễn trong văn bản tiếng Việt.
Đã đề xuất hai mô hình biểu diễn dữ liệu mới dựa trên chủ đề ẩn và đồ thị khoảng cách chủ đề, nâng cao hiệu quả phân lớp đa nhãn.
Phát triển thuật toán phân lớp đa nhãn bán giám sát MULTICS, tận dụng dữ liệu chưa gán nhãn để cải thiện độ chính xác và giảm chi phí gán nhãn.
Xây dựng và thử nghiệm các mô hình phân lớp đơn nhãn ứng dụng trong nhận diện thực thể có tên và hệ tư vấn xã hội, chứng minh tính khả thi và ứng dụng thực tế.
Đề xuất các hướng nghiên cứu tiếp theo bao gồm phát triển thuật toán đa nhãn phù hợp với tiếng Việt, xây dựng bộ dữ liệu chuẩn và ứng dụng rộng rãi trong các hệ thống khai thác thông tin.

Next steps: Tiếp tục mở rộng nghiên cứu về học bán giám sát đa nhãn, phát triển các thuật toán tối ưu hơn và xây dựng các bộ dữ liệu đa nhãn tiếng Việt chuẩn.

Các nhà nghiên cứu và doanh nghiệp trong lĩnh vực công nghệ thông tin được khuyến khích áp dụng và phát triển các mô hình, thuật toán đề xuất để nâng cao hiệu quả xử lý dữ liệu đa nhãn trong thực tế.

Trích đoạn nội dung tài liệu

Chương 1 của luận án cung cấp một nghiên cứu khái quát từ phân lớp đơn nhãn tới phân lớp đa nhãn. Phân lớp đơn nhãn tuy đơn giản, hiệu quả nhưng không phù hợp với không ít tình huống trong thực tế; khung học máy đa nhãn (đơn thể 7 Luận văn thạc sĩ Công nghệ thông tin hiện) thể hiện được tính thực tế và ứng dụng rộng rãi trong nhiều bài toán phân lớp; Các vấn đề cơ bản liên quan đến khung học máy đa nhãn kết tinh ở hai lớp phương pháp phân lớp đa nhãn (chuyển đổi bài toán và thịch nghi thuật toán), rút gọn đặc trưng (giảm chiều) và lựa chọn các đặc trưng hữu ích trong phân lớp đa nhãn; các độ đo và phương pháp đánh giá phân lớp đa nhãn. Luận án cung cấp hai mô hình phân lớp đơn nhãn ứng dụng thực tế [PTNgan1], [PTNgan2]. Mô hình gán nhãn thực thể có tên tiếng Việt dựa trên mô hình trường ngẫu nhiên điều kiện (CRFs) sử dụng tập ràng buộc theo tiêu chuẩn kỳ vọng tổng quát.

Mô hình hệ tư vấn xã hội tiếng Việt dựa trên tiếp cận lọc cộng tác kết hợp thông tin bổ sung về người dùng liên quan từ phương tiện xã hội; tác động của các đặc trưng bổ sung từ phương tiện xã hội tới hiệu quả tư vấn cũng được khảo sát. Chương 2 của luận án trình bày chi tiết về cách tiếp cận của luận án và mô hình phân lớp đơn nhãn được đề cập. Chương 3 của luận án đề xuất hai mô hình phân lớp đa nhãn dựa trên tiếp cận về biểu diễn dữ liệu nhằm cung cấp các đặc trưng mới nâng cao hiệu quả mô hình. Trong mô hình đầu tiên [PTNgan3], biểu diễn dữ liệu theo chủ đề ẩn nhằm khai thác thông tin ngữ nghĩa ẩn trong văn bản giúp làm giàu thêm các đặc trưng của dữ liệu và lựa chọn các đặc trưng tiêu biểu, quan trọng hoặc mang tính quyết định (loại bỏ những đặc trưng không có hoặc ít quan trọng) dựa trên thông tin tương hỗ (Mutual Information).

Một mô hình ứng dụng cho bài toán đánh giá danh tiếng cho 1000 khách sạn Việt Nam đã được xây dựng. Mô hình thứ hai [PTNgan4] đề nghị một phương pháp biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn. Kết quả áp dụng mô hình vào bài toán đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam đã minh chứng được tính hiệu quả khi sử dụng biểu diễn đồ thị khoảng cách. Xây dựng được ví dụ mẫu trong phân lớp đa nhãn là một công việc rất tốn kém và mất nhiều thời gian do sự tồn tại các mối liên quan giữa các nhãn trong cùng một thể hiện, vì vậy, phân lớp đa nhãn bán giám sát là một giải pháp hiệu quả.

Luận án đề xuất một thuật toán phân lớp đa nhãn bán giám sát MULTICS [PTNgan5, PTNgan6] trên cơ sở mở rộng thuật toán phân lớp văn bản đơn nhãn bán giám sát 8 Luận văn thạc sĩ Công nghệ thông tin TESC [120]. Luận án xây dựng một mô hình phân lớp đa nhãn bán giám sát trên nền thuật toán MULTICS áp dụng vào bài toán xây dựng hệ thống đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam. Kết quả thực nghiệm cho thấy tính hiệu quả của thuật toán MULTICS. Thuật toán MULTICS và các nội dung liên quan được trình bày trong Chương 4 của luận án.

9 Luận văn thạc sĩ Công nghệ thông tin Chương 1. TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN Trong mục đầu tiên, luận án trình bày về sự tiến hóa của bài toán phân lớp từ phân lớp đơn nhãn truyền thống tới phân lớp đa nhãn đơn thể hiện, phân lớp đơn nhãn đa thể hiện và cuối cùng là phân lớp đa nhãn đa thể hiện. Tiếp đó, luận án tập trung phân tích các đặc điểm của phân lớp đa nhãn (đơn thể hiện) bao gồm đặc điểm của dữ liệu đa nhãn và biểu diễn dữ liệu, kỹ thuật phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện Bài toán phân lớp dữ liệu về bản chất là xây dựng một hàm từ tập dữ liệu của miền ứng dụng vào một tập nhãn cho trước.

Đối tượng phân lớp trong tập dữ liệu miền ứng dụng được biểu diễn bằng một tập đặc trưng là kết quả của quá trình khảo sát và hiểu dữ liệu. Như vậy, một đối tượng phân lớp có thể được biểu diễn bằng các tập đặc trưng khác nhau. “Đơn thể hiện” (single instance) chỉ dẫn rằng chỉ một tập đặc trưng được sử dụng để biểu diễn dữ liệu miền ứng dụng, ngược lại, “đa thể hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn dữ liệu miền ứng dụng. Ngầm định bài toán phân lớp trong luận án là phân lớp dữ liệu “đơn thể hiện” nếu không có chỉ dẫn tường minh.

Phân lớp đơn nhãn Một cách hình thức, bài toán phân lớp đơn nhãn được phát biểu như sau: Ký hiệu là không gian thể hiện (hoặc không gian thuộc tính) và là tập các nhãn. Cho trước một tập mẫu D = *( )( ) ( )+ trong đó là một thể hiện và là một nhãn đã biết của. Nhiệm vụ đặt ra là cần học một hàm ánh xạ từ không gian thể hiện vào tập các nhãn.1 Phân lớp đơn nhãn truyền thống [128] Trong phân lớp đơn nhãn văn bản, các đối tượng phân lớp là tập các văn bản. Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn 10 Luận văn thạc sĩ Công nghệ thông tin bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện).

Mô hình phân lớp đơn nhãn nhị phân truyền thống đánh giá và kiểm tra mỗi tài liệu trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không. Tồn tại một số biến thể của bài toán phân lớp đơn nhãn. Khác với phân lớp đơn nhãn nguyên thủy yêu cầu mỗi đối tượng được gán duy nhất một nhãn, một số biến thể phân lớp đơn nhãn cho phép mỗi đối tượng được gán tới một tập nhãn với mỗi nhãn trong tập tương ứng với một giá trị xác suất hoặc một giá trị hạng [11]. Aggarwa [11] tổng kết một số kỹ thuật cơ bản trong phân lớp đơn nhãn và trở thành nền tảng cho các phương pháp phân lớp như phương pháp cây quyết định, phương pháp dựa trên luật, phương pháp dựa trên thực thể, phương pháp máy vectơ hỗ trợ, phương pháp mạng nơron, phương pháp xác suất.

Phân lớp đơn nhãn đa thể hiện Trong nhiều ứng dụng thực tế (phân lớp ảnh, trích chọn ảnh, phân lớp văn bản, khai phá web, phát hiện thư rác (spam), an ninh máy tính, phát hiện khuôn mặt…), một phần tử dữ liệu chỉ thuộc vào một lớp nhưng được biểu diễn bằng một tập các thể hiện kết hợp với nhau. Đây là bài toán phân lớp đơn nhãn đa thể hiện, một dạng tiến hóa từ phân lớp đơn nhãn.H Zhou và cộng sự [128], [129], các công trình công bố sớm nhất về học đa thể hiện là [95], [115]. Trong bài toán phân lớp đa thể hiện, mỗi phần tử dữ liệu được biểu diễn dưới dạng túi; tập dữ liệu huấn luyện bao gồm nhiều túi, mỗi túi chứa nhiều thể hiện, túi được gán nhãn dương nếu nó chứa ít nhất một thể hiện dương; ngược lại thì gán nhãn âm. Mục tiêu là gán nhãn cho các túi chưa biết một cách chính xác.2 Học đơn nhãn đa thể hiện [128] Cho trước một tập dữ liệu *( )( ) ( )+ trong đó, là 11 Luận văn thạc sĩ Công nghệ thông tin một tập các thể hiện { } ( ) trong đó, là số thể hiện trong và là nhãn của.

Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn. Trong phân lớp đơn nhãn đa thể hiện trên miền dữ liệu văn bản, các đối tượng phân lớp là tập các văn bản. Xây dựng các tập các đặc trưng khác nhau (ví dụ như mỗi tập đặc trưng biểu diễn cho một đoạn văn bản [107], hay mỗi tập đặc trưng biểu diễn cho một câu trong văn bản [119]), một văn bản được biểu diễn bởi các tập đặc trưng vừa xây dựng (đa thể hiện). Mô hình phân lớp đơn nhãn đa thể hiện đánh giá và kiểm tra mỗi tài liệu trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không.

Hầu hết các tiếp cận phân lớp đơn nhãn đa thể hiện được tiến hành theo phương pháp thích nghi thuật toán, trong đó một thuật toán phân lớp đơn nhãn đơn thể hiện được chuyển đổi theo hướng chuyển hóa mục tiêu phân biệt trên thể hiện sang mục tiêu phân biệt trên các túi dữ liệu.H Zhou và cộng sự [128], một số thuật toán phân lớp đơn nhãn đa thể hiện điển hình là: Thuật toán mật độ thay đổi (Diverse Density) [95] và thuật toán mật độ thay đổi dựa trên entropy cực đại EM- DD [105], thuật toán cây quyết định RELIC [36], thuật toán k láng giềng gần nhất Citation-kNN và Bayesian – kNN [72], thuật toán mạng nơron BP-MIP và mở rộng [85], các thuật toán dựa trên máy vectơ hỗ trợ và phương pháp nhân như MI-SVM [107], DD-SVM [123], MISS-SVM [130], MI-Kernel [116]. Một số tiếp cận theo phương pháp chuyển đổi bài toán theo hướng chuyển đổi biểu diễn đa thể hiện về đơn thể hiện được Z. Phân lớp đa nhãn Cũng trong nhiều ứng dụng thực tế (phân lớp văn bản, gán nhãn ảnh, dự đoán chức năng gen, phân lớp video,… ), một đối tượng có thể đồng thời được gán vào nhiều lớp khác nhau. Đây là bài toán phân lớp đa nhãn.

Bài toán này là một sự tiến hóa của phân lớp đơn nhãn do đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu đa nhãn, phương pháp tiếp cận đa nhãn và đánh giá học máy đa nhãn… Các vấn đề này sẽ được chỉ ra ở các phần tiếp theo. 12 Luận văn thạc sĩ Công nghệ thông tin Hình 1.3 Học đa nhãn [128] Cho trước một tập dữ liệu *( )( ) ( )+ trong đó, là một thể hiện và là một tập nhãn { } ( ), là số nhãn trong. Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn. Trong phân lớp đa nhãn văn bản, các đối tượng phân lớp là tập các văn bản.

Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện). Mô hình phân lớp đa nhãn đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Cải tiến phân lớp đa nhãn văn bản trong công nghệ thông tin" tập trung vào việc nâng cao hiệu quả của các phương pháp phân lớp văn bản đa nhãn, một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên. Tác giả trình bày các kỹ thuật mới và cải tiến trong việc áp dụng các mô hình học máy để phân loại văn bản, từ đó giúp tăng độ chính xác và khả năng xử lý của hệ thống. Độc giả sẽ nhận thấy rằng việc cải tiến này không chỉ giúp tối ưu hóa quy trình phân loại mà còn mở ra nhiều cơ hội ứng dụng trong các lĩnh vực như phân tích dữ liệu lớn và phát triển hệ thống thông minh.

Nếu bạn muốn tìm hiểu thêm về các ứng dụng liên quan, hãy tham khảo bài viết "Phân loại chủ đề bản tin online sử dụng máy học", nơi bạn có thể khám phá cách mà máy học được áp dụng trong việc phân loại thông tin. Ngoài ra, bài viết "Nghiên cứu một số vấn đề về big data và ứng dụng trong phân tích kinh doanh" sẽ cung cấp cho bạn cái nhìn sâu sắc về cách mà dữ liệu lớn có thể được sử dụng để tối ưu hóa các quyết định kinh doanh. Cuối cùng, bạn cũng có thể tìm hiểu về "Hệ thống thông minh phát hiện những xu hướng nổi lên trên mạng xã hội", một ứng dụng thú vị của công nghệ phân lớp văn bản trong việc theo dõi và phân tích xu hướng trên mạng xã hội. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu rõ hơn về các ứng dụng thực tiễn của công nghệ thông tin hiện đại.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#xử lý ngôn ngữ tự nhiên

#công nghệ thông tin

#Phân Lớp Đa Nhãn

#cải tiến thuật toán

Chủ đề