Luận Văn Thạc Sĩ: Khai Phá Dữ Liệu Truyền Thông Xã Hội Để Hiểu Kinh Nghiệm Học Tập Của Sinh Viên

Luận văn thạc sĩ VNU UET khai thác dữ liệu từ phương tiện truyền thông xã hội để phân tích kinh nghiệm học tập của sinh viên ngành máy tính.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2016

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

1.1. Khai phá dữ liệu

1.2. Quy trình khai phá dữ liệu

1.3. Bài toán khai phá quan điểm trên mạng truyền thông

1.3.1. Khái quát khai phá quan điểm

1.3.2. Khai phá quan điểm với mạng truyền thông

1.4. Khai phá quan điểm sinh viên trên phương tiện truyền thông xã hội

1.4.1. Giới thiệu bài toán

1.4.2. Tình hình nghiên cứu trên thế giới

1.4.3. Tình hình nghiên cứu tại Việt Nam

1.4.4. Ý nghĩa và mục tiêu của bài toán

1.5. Kết luận chương 1

2. CHƯƠNG 2: CÁC KIẾN THỨC NỀN TẢNG

2.1. Tổng quan về bài toán phân loại

2.2. Các bước giải quyết bài toán phân loại

2.3. Bài toán phân lớp văn bản

2.4. Bài toán phân lớp đa nhãn

2.4.1. Phương pháp chuyển đổi bài toán

2.4.2. Phương pháp thích nghi thuật toán

2.5. Một số mô hình học máy được sử dụng cho bài toán

2.5.1. Phân lớp Bayes

2.5.2. Cây quyết định

2.6. Kết luận chương 2

3. CHƯƠNG 3: MỘT MÔ HÌNH GIẢI QUYẾT BÀI TOÁN KHAI PHÁ DỮ LIỆU MẠNG TRUYỀN THÔNG ĐỂ HIỂU KINH NGHIỆM HỌC TẬP SINH VIÊN

3.1. Mô hình hoá bài toán

3.1.1. Xác định vấn đề và không gian dữ liệu

3.1.2. Phát biểu bài toán theo góc độ toán học

3.2. Một mô hình giải quyết bài toán

3.2.1. Mô hình tổng thể

3.2.2. Môi trường thực nghiệm

3.3. Kết luận chương 3

4. CHƯƠNG 4: KẾT QUẢ THỰC NGHIỆM

4.1. Thu thập và tiền xử lý dữ liệu

4.1.1. Thu thập dữ liệu

4.1.2. Tiền xử lý dữ liệu

4.1.3. Lựa chọn tập nhãn và gán nhãn dữ liệu

4.1.4. Một số thống kê về bộ dữ liệu

4.2. Các công cụ phân tích được sử dụng trong luận văn

4.3. Thiết lập thực nghiệm

4.3.1. Chuyển đổi dữ liệu

4.3.2. Chia tách dữ liệu cho mục đích tập huấn và thử nghiệm

4.3.3. Các độ đo đánh giá thực nghiệm

4.4. Huấn luyện mô hình và kiểm tra

4.4.1. Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp

4.4.2. Thực nghiệm với Binary Relevance

4.4.3. Thực nghiệm với Label Combination

4.5. Kết quả thực nghiệm

4.5.1. Thực nghiệm với Zero Rule để làm cơ sở cho bộ phân lớp

4.5.2. Thực nghiệm với Binary Relevance

4.5.3. Thực nghiệm với Label Combination

4.6. Phân tích lỗi

4.7. Kết luận chương 4

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN TIẾP THEO

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Khai Phá Dữ Liệu Truyền Thông Xã Hội

Khai phá dữ liệu truyền thông xã hội là một lĩnh vực nghiên cứu đang phát triển mạnh mẽ. Nó giúp hiểu rõ hơn về kinh nghiệm học tập của sinh viên thông qua việc phân tích các dữ liệu từ mạng xã hội. Sự bùng nổ của Internet đã tạo ra một lượng lớn thông tin mà sinh viên chia sẻ, từ đó mở ra cơ hội cho việc khai thác và phân tích. Việc này không chỉ giúp các nhà nghiên cứu mà còn hỗ trợ các nhà giáo dục trong việc cải thiện chất lượng giảng dạy.

1.1. Khái niệm Khai Phá Dữ Liệu Truyền Thông Xã Hội

Khai phá dữ liệu truyền thông xã hội là quá trình trích xuất thông tin từ các nền tảng như Facebook, Twitter, và Instagram. Qua đó, các nhà nghiên cứu có thể hiểu rõ hơn về tác động của truyền thông xã hội đến học tập của sinh viên.

1.2. Tầm quan trọng của Khai Phá Dữ Liệu trong Giáo Dục

Việc khai thác dữ liệu từ mạng xã hội giúp phát hiện các vấn đề mà sinh viên gặp phải trong học tập. Điều này có thể dẫn đến những cải tiến trong phương pháp giảng dạy và hỗ trợ sinh viên tốt hơn.

II. Vấn đề và Thách thức trong Khai Phá Dữ Liệu

Mặc dù có nhiều lợi ích, việc khai phá dữ liệu từ truyền thông xã hội cũng gặp phải nhiều thách thức. Các vấn đề như độ tin cậy của dữ liệu, sự riêng tư và bảo mật thông tin là những yếu tố cần được xem xét kỹ lưỡng. Ngoài ra, việc phân tích khối lượng lớn dữ liệu cũng đòi hỏi các phương pháp và công cụ phù hợp.

2.1. Độ tin cậy của Dữ Liệu Truyền Thông Xã Hội

Dữ liệu từ mạng xã hội có thể không chính xác hoặc bị bóp méo. Việc xác định độ tin cậy của thông tin là rất quan trọng để đảm bảo kết quả phân tích có giá trị.

2.2. Vấn đề Bảo Mật và Riêng Tư

Khi khai thác dữ liệu từ sinh viên, cần phải đảm bảo rằng thông tin cá nhân được bảo vệ. Việc này không chỉ tuân thủ quy định pháp luật mà còn tạo niềm tin cho người dùng.

III. Phương Pháp Khai Phá Dữ Liệu Hiệu Quả

Để khai thác dữ liệu từ truyền thông xã hội một cách hiệu quả, cần áp dụng các phương pháp phân tích hiện đại. Các thuật toán học máy và phân tích cảm xúc là những công cụ hữu ích trong việc hiểu rõ hơn về kinh nghiệm học tập của sinh viên.

3.1. Sử Dụng Thuật Toán Học Máy

Các thuật toán như Naive Bayes, Decision Trees và Support Vector Machines có thể được áp dụng để phân loại và phân tích dữ liệu. Chúng giúp nhận diện các mẫu và xu hướng trong hành vi học tập của sinh viên.

3.2. Phân Tích Cảm Xúc từ Dữ Liệu

Phân tích cảm xúc giúp hiểu rõ hơn về tâm trạng và cảm xúc của sinh viên khi học tập. Điều này có thể cung cấp thông tin quý giá cho các nhà giáo dục trong việc cải thiện môi trường học tập.

IV. Ứng Dụng Thực Tiễn của Khai Phá Dữ Liệu

Khai phá dữ liệu từ truyền thông xã hội không chỉ dừng lại ở lý thuyết mà còn có nhiều ứng dụng thực tiễn. Các kết quả nghiên cứu có thể được áp dụng để cải thiện chương trình giảng dạy và hỗ trợ sinh viên trong quá trình học tập.

4.1. Cải Thiện Chương Trình Giảng Dạy

Dựa trên các phân tích từ dữ liệu, các nhà giáo dục có thể điều chỉnh nội dung giảng dạy để phù hợp hơn với nhu cầu và mong muốn của sinh viên.

4.2. Hỗ Trợ Sinh Viên Tốt Hơn

Việc hiểu rõ hơn về các vấn đề mà sinh viên gặp phải giúp các nhà trường có thể cung cấp các dịch vụ hỗ trợ kịp thời và hiệu quả hơn.

V. Kết Luận và Tương Lai của Khai Phá Dữ Liệu

Khai phá dữ liệu truyền thông xã hội là một lĩnh vực đầy tiềm năng trong giáo dục. Nó không chỉ giúp hiểu rõ hơn về kinh nghiệm học tập của sinh viên mà còn mở ra nhiều cơ hội cho việc cải thiện chất lượng giáo dục. Tương lai của lĩnh vực này hứa hẹn sẽ phát triển mạnh mẽ với sự tiến bộ của công nghệ và các phương pháp phân tích mới.

5.1. Tiềm Năng Phát Triển

Với sự phát triển không ngừng của công nghệ, việc khai thác dữ liệu từ truyền thông xã hội sẽ ngày càng trở nên dễ dàng và hiệu quả hơn.

5.2. Hướng Nghiên Cứu Tương Lai

Các nghiên cứu trong tương lai có thể tập trung vào việc phát triển các công cụ phân tích mới và cải thiện độ chính xác của các mô hình hiện tại.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên luận văn ths máy tính 60 48 01

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh sự phát triển bùng nổ của Internet và các phương tiện truyền thông xã hội, việc khai phá dữ liệu từ các nền tảng này đã trở thành một hướng nghiên cứu quan trọng, đặc biệt trong lĩnh vực giáo dục. Theo thống kê năm 2015, Việt Nam có khoảng 39,8 triệu người sử dụng Internet, chiếm 44% dân số, với thời gian sử dụng trung bình trên 5 giờ mỗi ngày trên máy tính và hơn 2 giờ trên điện thoại. Sinh viên là nhóm người dùng phổ biến nhất trên các mạng xã hội như Facebook, Twitter, YouTube, nơi họ chia sẻ các kinh nghiệm học tập, cảm xúc và các vấn đề cá nhân một cách tự do và chân thực.

Tuy nhiên, dữ liệu thu thập từ các phương tiện truyền thông xã hội thường không có cấu trúc, đa dạng về ngôn ngữ và khó phân tích bằng phương pháp thủ công. Do đó, việc áp dụng các kỹ thuật khai phá dữ liệu và học máy để phân tích các quan điểm, kinh nghiệm học tập của sinh viên trở nên cần thiết. Mục tiêu nghiên cứu của luận văn là đề xuất một mô hình khai phá dữ liệu hiệu quả nhằm phân loại và hiểu rõ các vấn đề sinh viên gặp phải trong học tập và đời sống thông qua dữ liệu từ diễn đàn sinh viên Đại học Bách Khoa Hà Nội.

Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ diễn đàn SVBK trong khoảng thời gian gần đây, với trọng tâm là các bài đăng liên quan đến kinh nghiệm học tập và các vấn đề tâm lý, xã hội của sinh viên. Ý nghĩa của nghiên cứu được thể hiện qua việc cung cấp thông tin hỗ trợ các nhà quản lý giáo dục và hoạch định chính sách trong việc can thiệp kịp thời, nâng cao chất lượng đào tạo và cải thiện môi trường học tập cho sinh viên.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình chính trong lĩnh vực khai phá dữ liệu và phân lớp văn bản đa nhãn:

Khai phá dữ liệu (Data Mining): Quá trình trích xuất thông tin tiềm ẩn và có giá trị từ lượng lớn dữ liệu, bao gồm các bước làm sạch, tích hợp, chọn lọc, chuyển đổi, khai phá, đánh giá và trình diễn dữ liệu theo quy trình CRISP-DM.
Phân tích quan điểm (Sentiment Analysis): Nghiên cứu các ý kiến, cảm xúc và thái độ của con người đối với các đối tượng khác nhau, được ứng dụng để hiểu các quan điểm của sinh viên trên mạng xã hội.
Phân lớp đa nhãn (Multi-Label Classification - MLC): Phân loại một đối tượng vào nhiều lớp cùng lúc, phù hợp với dữ liệu sinh viên có thể thuộc nhiều chủ đề như áp lực học tập, tâm lý, định hướng nghề nghiệp.
Phương pháp chuyển đổi bài toán (Problem Transformation): Bao gồm các kỹ thuật như Binary Relevance (BR) và Label Power-Set (LP) để chuyển bài toán đa nhãn thành các bài toán phân lớp đơn nhãn hoặc nhị phân.
Phương pháp thích nghi thuật toán (Algorithm Adaptation): Thích nghi các thuật toán học máy như cây quyết định C4.5, AdaBoost, mạng neural BP-MLL cho bài toán đa nhãn.
Thuật toán học máy: Multinomial Naïve Bayes được sử dụng để xử lý dữ liệu văn bản với các đặc trưng TF-IDF và n-gram, kết hợp với các phương pháp phân lớp đa nhãn để phân tích dữ liệu sinh viên.

Phương pháp nghiên cứu

Nguồn dữ liệu: Dữ liệu được thu thập từ diễn đàn SVBK của Đại học Bách Khoa Hà Nội, với khoảng 7000 bài đăng, trong đó 1834 bài được chọn ngẫu nhiên để phân tích và gán nhãn.
Tiền xử lý dữ liệu: Bao gồm làm sạch dữ liệu (loại bỏ từ ngữ tuổi teen, hashtag, ký tự đặc biệt), tách từ bằng công cụ vnTokenizer, loại bỏ từ dừng tiếng Việt (khoảng 804 từ và cụm từ).
Lựa chọn và gán nhãn: Tập nhãn gồm 7 chủ đề chính: áp lực thi cử học hành, học ngoại ngữ, nguồn tài liệu tham khảo, định hướng nghề nghiệp, cảm xúc tiêu cực, tâm lý tình cảm và loại khác. Việc gán nhãn được thực hiện thủ công bởi hai người nghiên cứu độc lập với độ đo F1 đạt 0.8, đảm bảo tính khách quan và chính xác.
Phương pháp phân tích: Sử dụng công cụ MEKA để thực hiện phân lớp đa nhãn với các thuật toán Binary Relevance và Label Power-Set kết hợp Multinomial Naïve Bayes và cây quyết định C4.5. Thực nghiệm được tiến hành với kỹ thuật kiểm tra chéo k-fold (k=10) và điều chỉnh ngưỡng Threshold để tối ưu kết quả.
Timeline nghiên cứu: Quá trình thu thập và tiền xử lý dữ liệu kéo dài khoảng vài tháng, tiếp theo là gán nhãn và thiết lập mô hình trong vòng 2-3 tháng, cuối cùng là thực nghiệm và đánh giá kết quả trong 1-2 tháng.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Chất lượng dữ liệu thu thập: Trong khoảng 3000 mẩu dữ liệu thu thập từ diễn đàn SVBK, chỉ khoảng 20% dữ liệu có chất lượng phù hợp sau khi loại bỏ trùng lặp, spam và các chủ đề không liên quan. Việc lọc chủ đề không liên quan giúp nâng cao chất lượng dữ liệu đầu vào.
Phân bố nhãn trong bộ dữ liệu: Trong 1817 mẫu dữ liệu được gán nhãn, các nhãn phổ biến gồm: Loại khác (462 mẫu, 25.4%), Áp lực thi cử học hành (449 mẫu, 24.7%), Nguồn tài liệu tham khảo (353 mẫu, 19.4%), Tâm lý tình cảm (293 mẫu, 16.1%), Học ngoại ngữ (231 mẫu, 12.7%), Định hướng nghề nghiệp (142 mẫu, 7.8%), Cảm xúc tiêu cực (136 mẫu, 7.5%). Một số bài đăng thuộc nhiều nhãn cùng lúc, thể hiện tính đa nhãn rõ rệt.
Hiệu quả mô hình phân lớp đa nhãn: Thuật toán Multinomial Naïve Bayes kết hợp với phương pháp Binary Relevance đạt độ chính xác trung bình khoảng 75%, trong khi phương pháp Label Power-Set cho kết quả chính xác hơn khoảng 5-7% tùy thuộc ngưỡng Threshold. Cây quyết định C4.5 cho kết quả thấp hơn khoảng 10% so với Naïve Bayes.
Phân tích lỗi: Một số lỗi phân lớp xuất phát từ việc dữ liệu có ngôn ngữ không chuẩn, nhiều từ ngữ tuổi teen, hoặc các bài đăng có nội dung phức tạp, đa nghĩa. Ngoài ra, sự phụ thuộc giữa các nhãn chưa được mô hình hóa đầy đủ cũng ảnh hưởng đến kết quả.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy việc áp dụng mô hình phân lớp đa nhãn với thuật toán Multinomial Naïve Bayes là phù hợp và hiệu quả trong việc khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên. So với các nghiên cứu tương tự trên thế giới, kết quả đạt được tương đương hoặc cao hơn nhờ vào việc lựa chọn tập nhãn phù hợp và tiền xử lý dữ liệu kỹ lưỡng.

Việc sử dụng phương pháp Binary Relevance tuy đơn giản nhưng có nhược điểm là bỏ qua mối quan hệ giữa các nhãn, trong khi Label Power-Set có thể xử lý mối quan hệ này nhưng gặp khó khăn với bộ dữ liệu lớn do độ phức tạp tăng theo cấp số nhân. Do đó, cần cân nhắc lựa chọn phương pháp phù hợp với quy mô và đặc điểm dữ liệu.

Các biểu đồ thống kê phân bố nhãn và độ chính xác của các mô hình được trình bày rõ ràng trong luận văn, giúp minh họa trực quan hiệu quả của từng phương pháp. Ngoài ra, phân tích lỗi cung cấp cơ sở để cải tiến mô hình trong các nghiên cứu tiếp theo.

Đề xuất và khuyến nghị

Phát triển mô hình phân lớp đa nhãn kết hợp học sâu: Áp dụng các mô hình học sâu như mạng neural tích chập (CNN) hoặc mạng neural hồi tiếp (RNN) để khai thác sâu hơn các đặc trưng ngữ nghĩa và mối quan hệ giữa các nhãn, nhằm nâng cao độ chính xác phân lớp.
Mở rộng và làm giàu tập dữ liệu: Tiếp tục thu thập dữ liệu từ nhiều diễn đàn và mạng xã hội khác nhau, đồng thời tăng cường quy trình gán nhãn tự động kết hợp kiểm duyệt thủ công để có bộ dữ liệu đa dạng và phong phú hơn.
Xây dựng hệ thống giám sát và cảnh báo sớm: Phát triển công cụ giám sát tự động các vấn đề học tập và tâm lý của sinh viên dựa trên phân tích dữ liệu mạng xã hội, giúp nhà trường và các cơ quan quản lý có thể can thiệp kịp thời.
Tăng cường đào tạo và hỗ trợ kỹ năng số cho sinh viên: Dựa trên các vấn đề được phát hiện như áp lực học tập, thiếu tài liệu tham khảo, nhà trường nên tổ chức các khóa đào tạo kỹ năng học tập, kỹ năng ngoại ngữ và hỗ trợ tâm lý nhằm cải thiện trải nghiệm học tập của sinh viên.
Thời gian thực hiện: Các giải pháp trên nên được triển khai trong vòng 1-2 năm tới, bắt đầu từ việc mở rộng dữ liệu và phát triển mô hình, tiếp theo là xây dựng hệ thống giám sát và tổ chức các hoạt động hỗ trợ sinh viên.

Đối tượng nên tham khảo luận văn

Nhà quản lý giáo dục và các cơ quan hoạch định chính sách: Luận văn cung cấp dữ liệu và phân tích giúp họ hiểu rõ hơn về các khó khăn, nhu cầu của sinh viên, từ đó xây dựng chính sách đào tạo và hỗ trợ phù hợp.
Giảng viên và cán bộ đào tạo: Thông qua việc nắm bắt các vấn đề học tập và tâm lý sinh viên, giảng viên có thể điều chỉnh phương pháp giảng dạy, hỗ trợ sinh viên hiệu quả hơn.
Nhà nghiên cứu trong lĩnh vực khai phá dữ liệu và học máy: Luận văn trình bày chi tiết về mô hình phân lớp đa nhãn và ứng dụng trong phân tích dữ liệu mạng xã hội, là tài liệu tham khảo quý giá cho các nghiên cứu tiếp theo.
Các tổ chức hỗ trợ sinh viên và tư vấn tâm lý: Dữ liệu và kết quả nghiên cứu giúp các tổ chức này phát hiện sớm các vấn đề tâm lý, áp lực học tập của sinh viên để có biện pháp can thiệp kịp thời.

Câu hỏi thường gặp

Tại sao chọn diễn đàn SVBK làm nguồn dữ liệu?
Diễn đàn SVBK là một trong những diễn đàn sinh viên uy tín, hoạt động lâu năm với lượng bài đăng phong phú, đa dạng chủ đề liên quan đến học tập và đời sống sinh viên, phù hợp để khai thác kinh nghiệm học tập.
Phân lớp đa nhãn khác gì so với phân lớp đơn nhãn?
Phân lớp đa nhãn cho phép một mẫu dữ liệu thuộc về nhiều lớp cùng lúc, trong khi phân lớp đơn nhãn chỉ gán một lớp duy nhất cho mỗi mẫu. Điều này phù hợp với dữ liệu sinh viên có nhiều vấn đề cùng tồn tại.
Làm thế nào để đảm bảo chất lượng gán nhãn dữ liệu?
Luận văn sử dụng hai người nghiên cứu độc lập gán nhãn và đánh giá sự đồng thuận bằng độ đo F1, loại bỏ các mẫu không đồng thuận để đảm bảo tính chính xác và khách quan.
Tại sao sử dụng Multinomial Naïve Bayes trong phân lớp?
Multinomial Naïve Bayes phù hợp với dữ liệu văn bản, tận dụng tần suất từ khóa và TF-IDF để phân loại hiệu quả, đồng thời có tốc độ xử lý nhanh và dễ triển khai.
Những thách thức chính khi khai phá dữ liệu mạng xã hội là gì?
Dữ liệu đa dạng, không có cấu trúc, ngôn ngữ không chuẩn, nhiều từ ngữ tuổi teen và biểu cảm đặc biệt gây khó khăn cho việc tiền xử lý và phân tích chính xác.

Kết luận

Đã xây dựng và triển khai thành công mô hình khai phá dữ liệu phương tiện truyền thông xã hội để hiểu kinh nghiệm học tập của sinh viên dựa trên phân lớp đa nhãn.
Thu thập và xử lý bộ dữ liệu hơn 1800 bài đăng từ diễn đàn SVBK với 7 nhãn chủ đề chính, phản ánh đa dạng các vấn đề sinh viên gặp phải.
Áp dụng hiệu quả thuật toán Multinomial Naïve Bayes kết hợp phương pháp Binary Relevance và Label Power-Set, đạt độ chính xác phân lớp khoảng 75-80%.
Phân tích kết quả và lỗi giúp nhận diện các hạn chế, đề xuất hướng phát triển mô hình học sâu và mở rộng dữ liệu.
Khuyến nghị xây dựng hệ thống giám sát tự động và các chương trình hỗ trợ sinh viên nhằm nâng cao chất lượng giáo dục và trải nghiệm học tập.

Triển khai nghiên cứu mở rộng với dữ liệu đa nguồn, phát triển mô hình học sâu và xây dựng công cụ hỗ trợ quản lý giáo dục dựa trên kết quả nghiên cứu. Các nhà quản lý giáo dục, giảng viên và nhà nghiên cứu được khuyến khích áp dụng và phát triển thêm từ luận văn này để nâng cao hiệu quả đào tạo và hỗ trợ sinh viên.

Trích đoạn nội dung tài liệu

chương I, chúng ta bước nào có thể rút ra cách tiếp cận và các nghiên cứu liên quan đối với việc đề xuất và ứng dụng các mô hình và kỹ thuật khai phá dữ liệu nhằm phân tích thông tin phản hồi từ sinh viên. Trong chương tiếp theo, luận văn sẽ giới thiệu một số thuật toán phân lớp đa nhãn văn bản nhằm xác định phạm vi cho các nhiệm vụ đề xuất mô hình giải quyết, phân tích và khai phá tiếp theo. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 13 Chương 2: Các kiến thức nền tảng Chúng tôi viết chương này để giới thiệu về các kiến thức nền tảng của bài toán phân loại, bài toán phân lớp văn bản. Từ đó, chúng tôi sẽ trình bày vấn đề phân lớp đa nhãn trong phân lớp văn bản, với hai cách tiếp cận phổ biến nhất là chuyển đổi bài toán và thích nghi thuật toán.

Chương này cũng đưa ra giới thiệu về một số mô hình cụ thể của phương pháp chuyển đổi bài toán như Binary Relevance và Label Power-Set.1 Tổng quan về bài toán phân loại Phân loại (hay phân lớp) là một tiến trình xử lý nhằm xếp các mẫu dữ liệu hay các đối tượng vào một trong các lớp đã được định nghĩa trước. Các mẫu dữ liệu hay các đối tượng được xếp về các lớp dựa vào giá trị của các thuộc tính (attributes) cho một mẫu dữ liệu hay đối tượng. Sau khi đã xếp tất cả các đối tượng đã biết trước vào các lớp tương ứng, lúc này mỗi lớp được đặc trưng bởi tập các thuộc tính của các đối tượng chứa trong lớp đó. Các thuật toán phân loại tiêu biểu bao gồm như mạng Neural [21, tr.25], cây quyết định [21, tr.25], suy luận quy nạp [21, tr.25], mạng Beyesian [21, tr.25], Support Vector Machine [21, tr.

Tất cả các cách tiếp cập này xây dựng những mô hình đều có khả năng phân loại cho một mẫu mới chưa biết dựa vào những mẫu tương tự đã được học. Bài toán phân loại có thể xử lý thông tin được thu thập từ mọi lĩnh vực hoạt động của con người và thế tới tự nhiên được biểu diễn dưới dạng các bảng. Bảng này bao gồm các đối tượng và các thuộc tính. Các phần tử trong bảng là các giá trị xác định các thuộc tính (attributes hay features) của các đối tượng.

Trong đó số cột chính là số thuộc tính của các đối tượng, mỗi cột là một thuộc tính và số dòng chính là số đối tượng chứa trong dữ liệu này. Mọi dữ liệu được biểu diễn dưới các dạng khác có thể được chuyển thành dạng bảng như trên để thực hiện quá trình phân loại [8].2 Các bước giải quyết bài toán phân loại Một bài toán phân loại bao gồm 2 bước sau [16]: Bước 1: Huấn luyện Mục đích của bước này là xây dựng một mô hình xác định một tập các lớp dữ liệu. Mô hình này được xây dựng bằng cách phân tích các bộ dữ liệu của một cơ sở dữ liệu, mỗi bộ dữ liệu được xác định bởi giá trị của các thuộc tính. Giả sử mỗi bộ dữ liệu đã thuộc về một trong các lớp đã đựơc định nghĩa trước, điều này được xác định bởi một trong các thuộc tính, gọi là thuộc tính phân loại.

Trong ngữ cảnh của bài toán phân loại, mỗi bộ dữ liệu được xem như là một mẫu, một ví dụ, hay một đối tượng. Những bộ dữ liệu được phân tích để xây dựng mô hình phân loại được lấy từ trong tập dữ liệu học hay dữ liệu huấn luyện (training data set). Những bộ dữ liệu riêng lẻ tạo thành tập dữ liệu huấn luyện còn gọi là những mẫu huấn luyện (training samples) và được chọn ngẫu nhiên từ một kho các mẫu. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 Bước 2: Kiểm tra và đánh giá, bước này sử dụng mô hình Phân lớp đã được xây dựng ở bước 1 vào việc phân lớp.

Đầu tiên, đánh giá độ chính xác của mô hình hay bộ phân lớp này, bằng cách sử dụng một tập các mẫu đã được phân lớp để thử (test) gọi là bộ thử (test set). Những mẫu này được chọn ngẫu nhiên và độc lập với các m ẫu đã được học ở bước 1 gọi là mẫu thử (test sample). Độ chính xác của một mô hình phân lớp dựa trên bộ thử là tỷ lệ những mẫu thử được phân lớp đúng bằng mô hình phân lớp đó. Nghĩa là với mỗi m ẫu thử, so sánh lớp đúng mà mẫu thử đó thuộc về với lớp mà mô hình phân lớp này dự đoán cho mẫu thử đó.3 Bài toán phân lớp văn bản Phân lớp văn bản là một trong những nhiệm vụ quản lý tài liệu dựa trên nội dung sao cho thuận tiện và dễ dàng nhất.

Đây là một vấn đề quan trọng trong việc gán một tài liệu vào một hoặc nhiều lớp cho trước [11, tr. Ngày này cùng với sự phát triển không ngừng của công nghệ, mạng Internet ngày càng phát triển vượt bậc, đáp ứng cao nhu cầu sử dụng. Đi cùng với nó là việc sử dụng Internet trong việc quản lý tập tin, các tài liệu điện tử … vô cùng lớn. Đó là động lực cho sự phát triển của bài toán phân lớp văn bản tự động.

Song song với sự phát triển của phẩn mềm, sự phát triển của phần cứng máy tính cũng đã tạo ra sức mạnh tính toán, cho phép quá trình phân lớp văn bản tự động được sử dụng trong các ứng dụng thực tế cao. Vậy, câu hỏi đặt ra tại sao sử dụng bài toán phân lớp văn bản hay sử dụng nó nhằm mục đích gì? Như định nghĩa về phân lớp văn bản, chúng ta cũng nhận thấy được lợi ích của nó như sau:  Thứ nhất, sự sắp xếp các đối tượng vào từng lớp riêng biệt sẽ loại bỏ được các thư rác, thư không cần thiết.  Thứ hai, phân lớp được các đối tượng và từng lớp, mỗi lớp có những đặc tính riêng biệt, chủ đề riêng biệt …  Thứ ba, giúp quản lý tài nguyên, tri thức một cách hiệu quả, sắp xếp hợp lý, tìm kiếm dễ dàng, thuận tiện chỉ với vài thao tác trên Internet. Bài toán phân lớp đa nhãn 2.1 Khái niệm Phân lớp đa nhãn Phân lớp đa nhãn còn gọi là MLC ( Multiple Label Classification), cho phép gán một đối tượng (văn bản, giáo trình, tài liệu,…) vào một hoặc nhiều lớp đồng thời [18].

Điều này có ý nghĩa thực tế lớn, vì như nội dung của một văn bản không chỉ liên quan tới một chủ đề duy nhất. Chẳng hạn, một bài báo hoặc một bộ phim có thể được chia vào cả hai nhóm Xã Hội và Nghệ thuật Điện ảnh. Tương tự như vậy, trong chẩn đoán y tế, một bệnh nhân có thể cùng một lúc làm mẫu cho bệnh tiểu đường và ung thư tuyến tiền liệt. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 15 Với sự phát triển của xã hội ngày càng lớn, tạo nên sự khác biệt giữa phân lớp đa nhãn và đơn nhãn dẫn đến phân lớp đa nhãn ngày càng đượg các ứng dụng hiện đại đưa vào áp dụng, chẳng hạn như phân lớp (hoặc phân loại) chức năng các hợp chất hữu cơ, phân nhóm âm nhạc và phân lớp ngữ nghĩa.

Phân lớp đa nhãn được các nhà nghiên cứu định nghĩa thống nhất như là việc gán tên các chủ đề (tên lớp/nhãn lớp) đã được xác định trước vào các văn bản dựa trên nội dung của nó.2 Ý nghĩa và ứng dụng Chúng ta dễ dàng nhận thấy phân lớp đa nhãn là bài toán có ý nghĩa và ứng dụng thực tiễn cao, đặc biệt khi sự phát triển của công nghệ thông tin bùng nổ và nhu cầu sử dụng Internet là không thể thiếu. Phân lớp đa nhãn văn bản cho phép một văn bản có thể thuộc về một số lớp cùng một lúc; nghĩa là một văn bản/tài liệu có thể phục vụ cho việc khai thác nội dung thông tin của nhiều lớp/chủ đề khác nhau. Ngày nay các phương pháp phân lớp đa nhãn văn bản ngày càng được các ứng dụng hiện đại có nhu cầu sử dụng, chẳng hạn như phân loại các hợp chất hữu cơ, phân nhóm âm nhạc và phân lớp ngữ nghĩa. Trong phân lớp ngữ nghĩa, một bức ảnh có thể thuộc về nhiều hơn một khái n i ệ m chẳng hạn như cảnh hoàng hôn và bãi biển.

Tương tự như vậy trong phân nhóm âm nhạc, một bài hát có thể thuộc về nhiều thể loại. Ví dụ: Một số ca khúc mới và đứng top đầu của ban nhạc rock nổi tiếng có thể thuộc về hai thể loại là rock và ballad. Phân lớp đa nhãn cũng có thể ứng dụng vào các bài toán như: bài toán loại bỏ thư rác, lọc thông tin trên trang web hoặc quản lý tri thức và tìm kiếm thông tin trên Internet. Một số phương pháp phân lớp đa nhãn Phương pháp phân lớp đa nhãn có thể nhóm thành hai loại chính: là phương pháp chuyển đổi bài toán (Problem Transformation methods) và phương pháp thích nghi thuật toán (Algorithm Adaptation methods) [14].

Phương pháp chuyển đổi bài toán (Problem Transformation methods): trong phương pháp này vấn đề phân lớp đa nhãn được chuyển đổi thành một hoặc nhiều vấn đề phân lớp đơn nhãn và việc phân lớp được thực hiện cùng quá trình như phân lớp đơn nhãn để chuyển thành các đại diện đa nhãn. Có một số phương pháp chuyển đổi bài toán được sử dụng như: Binary Relevance, Label Power-Set (hay còn gọi là Label Combination), Pruned Problem Transformation Method (hay còn gọi là Pruned Set), tập k-label ngẫu nhiên, … Phương pháp này là phương pháp thông dụng nhất và được tiếp cận phổ biến nhất Phương pháp thích nghi thuật toán (Algorithm Adaptation methods): một vài thuật toán và mô hình phân lớp được thích nghi hoá với nhiệm vụ đa nhãn mà không cần tới sự chuyển đổi bài toán. Một số ví dụ như:  Tăng cường: AdaBoost.MH và AdaBoost.MR là những phiên bản nâng cấp của AdaBoost cho dữ liệu đa nhãn [14]. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 16  K láng giềng gần nhất (k-Nearest Neighbors): thuật toán Multi Label-k-Nearest Neighbor [14] là thuật toán mở rộng k-Nearest Neighbor cho dữ liệu đa nhãn.

 Cây quyết định: một thuật toán C4.5 cải tiến cho phân lớp đa nhãn. Trong nghiên cứu này, chúng tôi sẽ tiến hành thử nghiệm với 2 phương pháp Binary Relevance và Label Power-Set để đánh giá độ chính xác. Tuy nhiên chúng tôi xin phép được trình bày thêm về các phương pháp để người đọc có thêm cái nhìn tổng quát về bài toán chúng tôi đang nghiên cứu.1 Phương pháp chuyển đổi bài toán Phương pháp chuyển đổi bài toán là phương pháp được tiếp cận phổ biển đối với phân lớp đa nhãn. Dưới đây, chúng ta sẽ sử dụng Bảng 1.1, bảng gồm bốn mẫu thuộc về một hoặc nhiều của 4 lớp: Thể thao, Tôn giáo, Khoa học, Chính trị.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

khai thác dữ liệu mạng xã hội

nghiên cứu hành vi học tập sinh viên

ứng dụng hệ thống thông tin giáo dục