Luận án tiến sĩ: Cải tiến phân lớp đa nhãn văn bản và ứng dụng trong công nghệ thông tin

Luận án tiến sĩ công nghệ thông tin tập trung nghiên cứu cải tiến phương pháp phân lớp đa nhãn văn bản, ứng dụng hiệu quả trong xử lý dữ liệu.

Trường đại học

Đại học Công nghệ - Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

Luận án tiến sĩ

2017

151

Phí lưu trữ

45 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Từ phân lớp đơn nhãn tới phân lớp đa nhãn

1.2. Giới thiệu chung về phân lớp đa nhãn

1.3. Kỹ thuật phân lớp đa nhãn

1.3.1. Tiếp cận chuyển đổi bài toán

1.3.2. Tiếp cận thích nghi thuật toán

1.3.3. Tóm tắt về các thuật toán được giới thiệu

1.4. Dữ liệu đa nhãn

1.4.1. Các độ đo dữ liệu đa nhãn

1.4.2. Phân bố nhãn

1.4.3. Mối quan hệ giữa các nhãn

1.5. Đánh giá phân lớp đa nhãn

1.5.1. Các độ đo dựa trên mẫu

1.5.2. Các độ đo dựa trên nhãn

1.6. Giảm chiều dữ liệu trong phân lớp đa nhãn

1.6.1. Tiếp cận giảm chiều không gian đặc trưng đầu vào

1.6.2. Tiếp cận giảm chiều không gian nhãn đầu ra

1.7. Học bán giám sát cho phân lớp đa nhãn

1.8. Kết luận chương 1

2. CHƯƠNG 2: HAI MÔ HÌNH PHÂN LỚP ĐƠN NHÃN VĂN BẢN TIẾNG VIỆT

2.1. Mô hình nhận diện thực thể có tên dựa trên trường ngẫu nhiên có điều kiện và tiêu chuẩn kỳ vọng tổng quát

2.2. Nhận diện thực thể có tên

2.3. Mô hình đề xuất

2.4. Sử dụng tiêu chuẩn kỳ vọng tổng quát vào mô hình trường ngẫu nhiên có điều kiện CRFs

2.5. Xây dựng tập ràng buộc cho tiêu chuẩn kỳ vọng tổng quát

2.6. Mô hình đề xuất cho bài toán nhận diện thực thể có tên

2.7. Ứng dụng mô hình

2.8. Một mô hình phân lớp đơn nhãn trong hệ tư vấn xã hội

2.9. Sơ bộ về tư vấn xã hội

2.10. Mô hình đề xuất

2.11. Ứng dụng mô hình

2.12. Kết luận chương 2

3. CHƯƠNG 3: PHÂN LỚP ĐA NHÃN VĂN BẢN DỰA TRÊN BIỂU DIỄN DỮ LIỆU THEO CHỦ ĐỀ ẨN

3.1. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn

3.2. Biểu diễn dữ liệu theo chủ đề ẩn

3.3. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo chủ đề ẩn

3.4. Pha 1 – Huấn luyện mô hình

3.5. Pha 2 – Đánh giá mô hình huấn luyện

3.6. Ứng dụng phân lớp đa nhãn đánh giá khách sạn

3.7. Xây dựng tập dữ liệu thực nghiệm

3.8. Kết quả thực nghiệm

3.9. Phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn

3.10. Mô hình biểu diễn văn bản theo đồ thị khoảng cách

3.11. Biểu diễn dữ liệu theo đồ thị khoảng cách

3.12. Mô hình đồ thị khoảng cách và mô hình n-gram

3.13. Mô hình phân lớp đa nhãn văn bản dựa trên biểu diễn dữ liệu theo đồ thị khoảng cách chủ đề ẩn

3.14. Pha huấn luyện mô hình

3.15. Pha phân lớp sử dụng mô hình huấn luyện

3.16. Ứng dụng phân lớp đa nhãn đánh giá khách sạn

3.17. Kết luận chương 3

4. CHƯƠNG 4: KỸ THUẬT BÁN GIÁM SÁT PHÂN LỚP ĐA NHÃN VĂN BẢN TIẾNG VIỆT

4.1. Tiếp cận phân cụm bán giám sát

4.2. Tiếp cận dựa trên ràng buộc

4.3. Tiếp cận dựa trên khoảng cách

4.4. Mô hình phân lớp đa nhãn bán giám sát

4.5. Phát biểu bài toán phân lớp đa nhãn bán giám sát

4.6. Thuật toán phân lớp đa nhãn dựa trên kỹ thuật phân cụm bán giám sát

4.7. Thuật toán TESC và LIFT

4.8. Thuật toán phân lớp đa nhãn bán giám sát

4.9. Mô hình phân lớp đa nhãn bán giám sát đề xuất

4.10. Một mô hình ứng dụng phân lớp đa nhãn văn bản bán giám sát

4.11. Mô hình đề xuất

4.12. Huấn luyện mô hình

4.13. Phân lớp sử dụng mô hình huấn luyện

4.14. Ứng dụng phân lớp đa nhãn sử dụng mô hình đề xuất

4.15. Kết luận chương 4

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN TỚI LUẬN ÁN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Cải tiến phân lớp đa nhãn văn bản

Luận án tập trung vào cải tiến phân lớp đa nhãn văn bản, một lĩnh vực quan trọng trong học máy và xử lý ngôn ngữ tự nhiên. Phân lớp đa nhãn cho phép một văn bản được gán nhiều nhãn cùng lúc, phản ánh tính đa dạng và phức tạp của dữ liệu thực tế. Các phương pháp truyền thống như phân lớp đơn nhãn không đủ để xử lý các bài toán này. Luận án đề xuất các kỹ thuật mới để nâng cao hiệu quả của phân lớp đa nhãn, bao gồm việc tối ưu hóa các thuật toán và cải thiện độ chính xác trong việc gán nhãn.

1.1. Phân lớp đa nhãn và thách thức

Phân lớp đa nhãn đối mặt với nhiều thách thức như mối quan hệ giữa các nhãn, chi phí tính toán, và sự mất cân bằng nhãn. Các phương pháp truyền thống như phân lớp nhị phân hoặc phân lớp đơn nhãn không thể giải quyết hiệu quả các vấn đề này. Luận án đề xuất các giải pháp như tiếp cận chuyển đổi bài toán và tiếp cận thích nghi thuật toán để cải thiện hiệu quả phân lớp.

1.2. Kỹ thuật phân lớp đa nhãn

Các kỹ thuật phân lớp đa nhãn được đề xuất bao gồm phân tích dữ liệu và học bán giám sát. Các phương pháp này giúp tận dụng dữ liệu chưa được gán nhãn để cải thiện độ chính xác của mô hình. Luận án cũng đề cập đến việc sử dụng trí tuệ nhân tạo và học máy để tự động hóa quá trình phân lớp.

II. Ứng dụng trong công nghệ thông tin

Luận án không chỉ tập trung vào lý thuyết mà còn đề cập đến ứng dụng công nghệ thông tin của các kỹ thuật phân lớp đa nhãn. Các ứng dụng bao gồm phân tích dữ liệu trong các hệ thống thông tin, xử lý ngôn ngữ tự nhiên, và tối ưu hóa nội dung. Các kết quả nghiên cứu có thể được áp dụng trong nhiều lĩnh vực như khai phá dữ liệu, hệ thống tư vấn, và phân loại văn bản tự động.

2.1. Phân tích dữ liệu đa nhãn

Phân tích dữ liệu đa nhãn giúp xử lý các tập dữ liệu phức tạp với nhiều nhãn khác nhau. Luận án đề xuất các phương pháp như giảm chiều dữ liệu và phân bố nhãn để cải thiện hiệu quả phân tích. Các kỹ thuật này có thể được áp dụng trong các hệ thống thông tin lớn để tối ưu hóa quá trình xử lý dữ liệu.

2.2. Ứng dụng trong xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên là một lĩnh vực quan trọng trong công nghệ thông tin. Luận án đề xuất các kỹ thuật phân lớp đa nhãn để cải thiện độ chính xác trong việc phân loại văn bản và nhận dạng thực thể. Các ứng dụng này có thể được sử dụng trong các hệ thống dịch tự động, tìm kiếm thông tin, và phân tích cảm xúc.

III. Đánh giá và kết quả thực nghiệm

Luận án đưa ra các kết quả thực nghiệm để đánh giá hiệu quả của các phương pháp đề xuất. Các thí nghiệm được thực hiện trên các tập dữ liệu đa nhãn, bao gồm dữ liệu văn bản và dữ liệu đa phương tiện. Kết quả cho thấy các phương pháp đề xuất đạt được độ chính xác cao hơn so với các phương pháp truyền thống.

3.1. Độ đo đánh giá

Các độ đo đánh giá được sử dụng bao gồm độ đo dựa trên mẫu và độ đo dựa trên nhãn. Các độ đo này giúp đánh giá toàn diện hiệu quả của các phương pháp phân lớp đa nhãn. Luận án cũng đề xuất các độ đo mới để phản ánh chính xác hơn chất lượng của mô hình.

3.2. Kết quả thực nghiệm

Kết quả thực nghiệm cho thấy các phương pháp đề xuất đạt được độ chính xác cao hơn so với các phương pháp truyền thống. Các kết quả này được minh họa qua các bảng và biểu đồ, giúp người đọc dễ dàng so sánh và đánh giá hiệu quả của các phương pháp.

01/03/2025

Bạn đang xem trước tài liệu:

Luận án tiến sĩ công nghệ thông tin nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1 của luận án cung cấp một nghiên cứu khái quát từ phân lớp đơn nhãn tới phân lớp đa nhãn. Phân lớp đơn nhãn tuy đơn giản, hiệu quả nhưng không phù hợp với không ít tình huống trong thực tế; khung học máy đa nhãn (đơn thể 7 hiện) thể hiện được tính thực tế và ứng dụng rộng rãi trong nhiều bài toán phân lớp; Các vấn đề cơ bản liên quan đến khung học máy đa nhãn kết tinh ở hai lớp phương pháp phân lớp đa nhãn (chuyển đổi bài toán và thịch nghi thuật toán), rút gọn đặc trưng (giảm chiều) và lựa chọn các đặc trưng hữu ích trong phân lớp đa nhãn; các độ đo và phương pháp đánh giá phân lớp đa nhãn. Luận án cung cấp hai mô hình phân lớp đơn nhãn ứng dụng thực tế [PTNgan1], [PTNgan2]. Mô hình gán nhãn thực thể có tên tiếng Việt dựa trên mô hình trường ngẫu nhiên điều kiện (CRFs) sử dụng tập ràng buộc theo tiêu chuẩn kỳ vọng tổng quát.

Mô hình hệ tư vấn xã hội tiếng Việt dựa trên tiếp cận lọc cộng tác kết hợp thông tin bổ sung về người dùng liên quan từ phương tiện xã hội; tác động của các đặc trưng bổ sung từ phương tiện xã hội tới hiệu quả tư vấn cũng được khảo sát. Chương 2 của luận án trình bày chi tiết về cách tiếp cận của luận án và mô hình phân lớp đơn nhãn được đề cập. Chương 3 của luận án đề xuất hai mô hình phân lớp đa nhãn dựa trên tiếp cận về biểu diễn dữ liệu nhằm cung cấp các đặc trưng mới nâng cao hiệu quả mô hình. Trong mô hình đầu tiên [PTNgan3], biểu diễn dữ liệu theo chủ đề ẩn nhằm khai thác thông tin ngữ nghĩa ẩn trong văn bản giúp làm giàu thêm các đặc trưng của dữ liệu và lựa chọn các đặc trưng tiêu biểu, quan trọng hoặc mang tính quyết định (loại bỏ những đặc trưng không có hoặc ít quan trọng) dựa trên thông tin tương hỗ (Mutual Information).

Một mô hình ứng dụng cho bài toán đánh giá danh tiếng cho 1000 khách sạn Việt Nam đã được xây dựng. Mô hình thứ hai [PTNgan4] đề nghị một phương pháp biểu diễn dữ liệu theo đồ thị khoảng cách các chủ đề ẩn. Kết quả áp dụng mô hình vào bài toán đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam đã minh chứng được tính hiệu quả khi sử dụng biểu diễn đồ thị khoảng cách. Xây dựng được ví dụ mẫu trong phân lớp đa nhãn là một công việc rất tốn kém và mất nhiều thời gian do sự tồn tại các mối liên quan giữa các nhãn trong cùng một thể hiện, vì vậy, phân lớp đa nhãn bán giám sát là một giải pháp hiệu quả.

Luận án đề xuất một thuật toán phân lớp đa nhãn bán giám sát MULTICS [PTNgan5, PTNgan6] trên cơ sở mở rộng thuật toán phân lớp văn bản đơn nhãn bán giám sát 8 TESC [120]. Luận án xây dựng một mô hình phân lớp đa nhãn bán giám sát trên nền thuật toán MULTICS áp dụng vào bài toán xây dựng hệ thống đánh giá danh tiếng cho 1000 khách sạn ở Việt Nam. Kết quả thực nghiệm cho thấy tính hiệu quả của thuật toán MULTICS. Thuật toán MULTICS và các nội dung liên quan được trình bày trong Chương 4 của luận án.

TỪ PHÂN LỚP ĐƠN NHÃN TỚI PHÂN LỚP ĐA NHÃN Trong mục đầu tiên, luận án trình bày về sự tiến hóa của bài toán phân lớp từ phân lớp đơn nhãn truyền thống tới phân lớp đa nhãn đơn thể hiện, phân lớp đơn nhãn đa thể hiện và cuối cùng là phân lớp đa nhãn đa thể hiện. Tiếp đó, luận án tập trung phân tích các đặc điểm của phân lớp đa nhãn (đơn thể hiện) bao gồm đặc điểm của dữ liệu đa nhãn và biểu diễn dữ liệu, kỹ thuật phân lớp đa nhãn và phương pháp đánh giá phân lớp đa nhãn. Từ phân lớp đơn nhãn đơn thể hiện tới phân lớp đa nhãn đa thể hiện Bài toán phân lớp dữ liệu về bản chất là xây dựng một hàm từ tập dữ liệu của miền ứng dụng vào một tập nhãn cho trước. Đối tượng phân lớp trong tập dữ liệu miền ứng dụng được biểu diễn bằng một tập đặc trưng là kết quả của quá trình khảo sát và hiểu dữ liệu.

Như vậy, một đối tượng phân lớp có thể được biểu diễn bằng các tập đặc trưng khác nhau. “Đơn thể hiện” (single instance) chỉ dẫn rằng chỉ một tập đặc trưng được sử dụng để biểu diễn dữ liệu miền ứng dụng, ngược lại, “đa thể hiện” (multi-instance) chỉ dẫn rằng một vài tập đặc trưng được sử dụng để biểu diễn dữ liệu miền ứng dụng. Ngầm định bài toán phân lớp trong luận án là phân lớp dữ liệu “đơn thể hiện” nếu không có chỉ dẫn tường minh. Phân lớp đơn nhãn Một cách hình thức, bài toán phân lớp đơn nhãn được phát biểu như sau: Ký hiệu là không gian thể hiện (hoặc không gian thuộc tính) và là tập các nhãn.

Cho trước một tập mẫu D = *( )( ) ( )+ trong đó là một thể hiện và là một nhãn đã biết của. Nhiệm vụ đặt ra là cần học một hàm ánh xạ từ không gian thể hiện vào tập các nhãn.1 Phân lớp đơn nhãn truyền thống [128] Trong phân lớp đơn nhãn văn bản, các đối tượng phân lớp là tập các văn bản. Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn 10 bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện). Mô hình phân lớp đơn nhãn nhị phân truyền thống đánh giá và kiểm tra mỗi tài liệu trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không.

Tồn tại một số biến thể của bài toán phân lớp đơn nhãn. Khác với phân lớp đơn nhãn nguyên thủy yêu cầu mỗi đối tượng được gán duy nhất một nhãn, một số biến thể phân lớp đơn nhãn cho phép mỗi đối tượng được gán tới một tập nhãn với mỗi nhãn trong tập tương ứng với một giá trị xác suất hoặc một giá trị hạng [11]. Aggarwa [11] tổng kết một số kỹ thuật cơ bản trong phân lớp đơn nhãn và trở thành nền tảng cho các phương pháp phân lớp như phương pháp cây quyết định, phương pháp dựa trên luật, phương pháp dựa trên thực thể, phương pháp máy vectơ hỗ trợ, phương pháp mạng nơron, phương pháp xác suất. Phân lớp đơn nhãn đa thể hiện Trong nhiều ứng dụng thực tế (phân lớp ảnh, trích chọn ảnh, phân lớp văn bản, khai phá web, phát hiện thư rác (spam), an ninh máy tính, phát hiện khuôn mặt…), một phần tử dữ liệu chỉ thuộc vào một lớp nhưng được biểu diễn bằng một tập các thể hiện kết hợp với nhau.

Đây là bài toán phân lớp đơn nhãn đa thể hiện, một dạng tiến hóa từ phân lớp đơn nhãn.H Zhou và cộng sự [128], [129], các công trình công bố sớm nhất về học đa thể hiện là [95], [115]. Trong bài toán phân lớp đa thể hiện, mỗi phần tử dữ liệu được biểu diễn dưới dạng túi; tập dữ liệu huấn luyện bao gồm nhiều túi, mỗi túi chứa nhiều thể hiện, túi được gán nhãn dương nếu nó chứa ít nhất một thể hiện dương; ngược lại thì gán nhãn âm. Mục tiêu là gán nhãn cho các túi chưa biết một cách chính xác.2 Học đơn nhãn đa thể hiện [128] Cho trước một tập dữ liệu *( )( ) ( )+ trong đó, là 11 một tập các thể hiện { } ( ) trong đó, là số thể hiện trong và là nhãn của. Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn.

Trong phân lớp đơn nhãn đa thể hiện trên miền dữ liệu văn bản, các đối tượng phân lớp là tập các văn bản. Xây dựng các tập các đặc trưng khác nhau (ví dụ như mỗi tập đặc trưng biểu diễn cho một đoạn văn bản [107], hay mỗi tập đặc trưng biểu diễn cho một câu trong văn bản [119]), một văn bản được biểu diễn bởi các tập đặc trưng vừa xây dựng (đa thể hiện). Mô hình phân lớp đơn nhãn đa thể hiện đánh giá và kiểm tra mỗi tài liệu trong tập dữ liệu phân lớp có thuộc vào lớp đang xét hay không. Hầu hết các tiếp cận phân lớp đơn nhãn đa thể hiện được tiến hành theo phương pháp thích nghi thuật toán, trong đó một thuật toán phân lớp đơn nhãn đơn thể hiện được chuyển đổi theo hướng chuyển hóa mục tiêu phân biệt trên thể hiện sang mục tiêu phân biệt trên các túi dữ liệu.H Zhou và cộng sự [128], một số thuật toán phân lớp đơn nhãn đa thể hiện điển hình là: Thuật toán mật độ thay đổi (Diverse Density) [95] và thuật toán mật độ thay đổi dựa trên entropy cực đại EM- DD [105], thuật toán cây quyết định RELIC [36], thuật toán k láng giềng gần nhất Citation-kNN và Bayesian – kNN [72], thuật toán mạng nơron BP-MIP và mở rộng [85], các thuật toán dựa trên máy vectơ hỗ trợ và phương pháp nhân như MI-SVM [107], DD-SVM [123], MISS-SVM [130], MI-Kernel [116].

Một số tiếp cận theo phương pháp chuyển đổi bài toán theo hướng chuyển đổi biểu diễn đa thể hiện về đơn thể hiện được Z. Phân lớp đa nhãn Cũng trong nhiều ứng dụng thực tế (phân lớp văn bản, gán nhãn ảnh, dự đoán chức năng gen, phân lớp video,… ), một đối tượng có thể đồng thời được gán vào nhiều lớp khác nhau. Đây là bài toán phân lớp đa nhãn. Bài toán này là một sự tiến hóa của phân lớp đơn nhãn do đó nó tồn tại nhiều đặc trưng phức tạp hơn về dữ liệu đa nhãn, phương pháp tiếp cận đa nhãn và đánh giá học máy đa nhãn… Các vấn đề này sẽ được chỉ ra ở các phần tiếp theo.3 Học đa nhãn [128] Cho trước một tập dữ liệu *( )( ) ( )+ trong đó, là một thể hiện và là một tập nhãn { } ( ), là số nhãn trong.

Khung học máy này học một hàm ánh xạ từ không gian thể hiện vào tập nhãn. Trong phân lớp đa nhãn văn bản, các đối tượng phân lớp là tập các văn bản. Xây dựng một tập các đặc trưng (ví dụ như tập tất cả các từ xuất hiện trong tập văn bản), mỗi văn bản được biểu diễn bởi tập đặc trưng vừa xây dựng (đơn thể hiện). Mô hình phân lớp đa nhãn đánh giá và gán cho văn bản phân lớp đồng thời vào nhiều lớp khác nhau.

Các thách thức về dữ liệu đa nhãn, về mối quan hệ nhãn và đưa phân lớp đa nhãn vào ứng dụng thực tế tạo nên các chủ đề nghiên cứu thời sự và nhiều giải pháp kết quả đã và đang được công bố.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Nghiên cứu cải tiến phân lớp đa nhãn văn bản và ứng dụng trong công nghệ thông tin" trình bày những phương pháp mới trong việc phân lớp văn bản với nhiều nhãn, giúp nâng cao độ chính xác và hiệu quả trong việc xử lý dữ liệu lớn. Nghiên cứu này không chỉ mang lại cái nhìn sâu sắc về các kỹ thuật hiện đại trong lĩnh vực học máy mà còn mở ra cơ hội ứng dụng trong nhiều lĩnh vực khác nhau của công nghệ thông tin, từ phân tích dữ liệu đến phát triển ứng dụng.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ thông tin, bạn có thể tham khảo tài liệu Luận văn tốt nghiệp ứng dụng công nghệ tin học trong thành lập bản đồ địa chính, nơi nghiên cứu ứng dụng công nghệ trong việc tạo lập bản đồ địa chính. Ngoài ra, tài liệu Luận văn thạc sĩ nghiên cứu ứng dụng IoT vào hệ thống quản lý trạm BTS sẽ giúp bạn hiểu rõ hơn về việc ứng dụng công nghệ IoT trong quản lý hạ tầng viễn thông. Cuối cùng, tài liệu Luận văn thạc sĩ nghiên cứu phối hợp hai phương pháp nén và mã hóa thông tin sẽ cung cấp cái nhìn sâu sắc về các phương pháp tối ưu hóa dữ liệu, rất phù hợp với những ai quan tâm đến việc cải tiến quy trình xử lý thông tin.

Những tài liệu này không chỉ bổ sung kiến thức mà còn mở ra nhiều hướng nghiên cứu và ứng dụng mới trong lĩnh vực công nghệ thông tin.

#xử lý ngôn ngữ tự nhiên