Luận văn thạc sĩ về truy hồi ý kiến trên báo điện tử tiếng Việt

Luận văn thạc sĩ khoa học máy tính phân tích ý kiến trên báo điện tử tiếng Việt, khám phá xu hướng và ứng dụng công nghệ trong truyền thông.

Trường đại học

Đại học Bách Khoa

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2014

Phí lưu trữ

30 Point

Tóm tắt

I. Giới thiệu

Trong bối cảnh hiện đại, truy hồi ý kiến trên các báo điện tử tiếng Việt đang trở thành một lĩnh vực nghiên cứu quan trọng. Luận văn này nhằm mục tiêu xây dựng một hệ thống truy hồi ý kiến để thu thập và phân tích các ý kiến của độc giả về các vấn đề xã hội được nêu trên các báo điện tử. Hệ thống này không chỉ giúp người dùng dễ dàng tìm kiếm thông tin mà còn góp phần vào việc cải thiện chất lượng nội dung trên các nền tảng trực tuyến. Theo đó, một văn bản được coi là liên quan nếu nó đáp ứng hai tiêu chí: liên quan đến câu truy vấn và chứa đựng ý kiến về câu truy vấn, bất kể ý kiến đó là tích cực hay tiêu cực. Hệ thống được xây dựng dựa trên phương pháp phân loại sử dụng bộ phân loại SVM, cho thấy tính khả thi của việc áp dụng công nghệ khoa học máy tính trong việc phân tích dữ liệu.

II. Cơ sở lý thuyết

Hệ thống truy hồi ý kiến dựa trên nền tảng lý thuyết của truy hồi thông tin và các phương pháp học máy. Truy hồi thông tin được định nghĩa là quá trình cấu trúc, phân tích và tổ chức thông tin để tìm kiếm và truy hồi các tài liệu phù hợp với yêu cầu của người dùng. Trong bối cảnh này, việc áp dụng các mô hình như mô hình không gian vector và mô hình xác suất là rất quan trọng. Mô hình không gian vector cho phép so trùng một cách chính xác giữa câu truy vấn và văn bản, trong khi mô hình xác suất giúp ước lượng khả năng liên quan của một văn bản với câu truy vấn. Điều này tạo ra một nền tảng vững chắc để xây dựng hệ thống truy hồi ý kiến hiệu quả, đồng thời mở ra hướng phát triển mới cho các ứng dụng trong lĩnh vực công nghệ thông tin.

III. Các công trình liên quan

Nghiên cứu về truy hồi ý kiến đã được thực hiện rộng rãi trong lĩnh vực tiếng Anh, nhưng còn hạn chế trong tiếng Việt. Các công trình trước đây chủ yếu tập trung vào việc phát triển các phương pháp truy hồi dựa vào phân loại và từ vựng. Tuy nhiên, chưa có công trình nào nghiên cứu sâu về việc áp dụng các phương pháp này cho ngôn ngữ tiếng Việt. Luận văn này không chỉ đóng góp vào kho tàng tri thức về truy hồi ý kiến mà còn mở ra hướng nghiên cứu mới cho các nhà khoa học trong lĩnh vực khoa học máy tính và công nghệ thông tin tại Việt Nam. Việc xây dựng hệ thống này sẽ giúp nâng cao khả năng truy xuất thông tin từ các nguồn dữ liệu lớn, đồng thời hỗ trợ người dùng trong việc tìm kiếm và phân tích ý kiến của cộng đồng.

IV. Phương pháp nghiên cứu

Luận văn áp dụng phương pháp phân tích dữ liệu và truy xuất thông tin để xây dựng hệ thống truy hồi ý kiến. Hệ thống được thiết kế để nhận diện các văn bản chứa đựng ý kiến từ một tập dữ liệu lớn các báo điện tử tiếng Việt. Phương pháp này bao gồm việc thu thập dữ liệu, tiền xử lý văn bản, xây dựng mô hình phân loại và đánh giá hiệu quả của hệ thống. Kết quả thực nghiệm cho thấy độ chính xác và độ đầy đủ của hệ thống đạt được mức tương đối khả quan, cho thấy tính khả thi của phương pháp áp dụng trong thực tế. Điều này không chỉ mang lại giá trị cho nghiên cứu mà còn có thể ứng dụng trong các lĩnh vực khác như marketing, phân tích thị trường và nghiên cứu xã hội.

V. Kết quả và thảo luận

Kết quả thực nghiệm cho thấy hệ thống truy hồi ý kiến đạt độ chính xác 61,26% và độ đầy đủ 44,20%. Điều này chứng tỏ rằng phương pháp phân loại SVM có thể được áp dụng hiệu quả trong việc truy hồi ý kiến từ các nguồn dữ liệu tiếng Việt. Bên cạnh đó, việc xây dựng một tập dữ liệu phong phú và đa dạng là rất quan trọng để cải thiện chất lượng hệ thống. Các kết quả này không chỉ có giá trị trong nghiên cứu mà còn có thể được áp dụng trong thực tiễn, giúp các tổ chức, doanh nghiệp có thể lắng nghe ý kiến của khách hàng và cải thiện dịch vụ của mình.

VI. Tổng kết

Luận văn đã xây dựng một hệ thống truy hồi ý kiến trên báo điện tử tiếng Việt, góp phần vào việc phát triển lĩnh vực khoa học máy tính tại Việt Nam. Hệ thống này không chỉ giúp người dùng tìm kiếm ý kiến về các vấn đề xã hội mà còn mở ra hướng nghiên cứu mới cho các nhà khoa học trong lĩnh vực này. Tương lai, cần tiếp tục nghiên cứu để cải thiện độ chính xác và khả năng mở rộng của hệ thống, đồng thời tìm kiếm các ứng dụng mới trong các lĩnh vực khác nhau như phân tích dữ liệu lớn và trí tuệ nhân tạo.

07/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính truy hồi ý kiến trên báo điện tử tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

ĐẠI HỌC QUỐC GIA TP. HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA --------------------------------------- BÙI NGUYỄN TÂY NGUYÊN TRUY HỒI Ý KIẾN TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT Chuyên ngành: Khoa Học Máy Tính Mã số: 60.01 LUẬN VĂN THẠC SĨ TP. HỒ CHÍ MINH, tháng 7 năm 2014 Công trình đƣợc hoàn thành tại: Trƣờng Đại Học Bách Khoa – ĐHQG-HCM Cán bộ hƣớng dẫn khoa học: GS. Cao Hoàng Trụ.

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 1: TS. Võ Thị Ngọc Châu. (Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 2: TS. Hồ Bảo Quốc ….

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn thạc sĩ đƣợc bảo vệ tại: Trƣờng Đại Học Bách Khoa, ĐHQG TP. HCM ngày 17 tháng 07 năm 2014 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1. Nguyễn Đức Thái 2. Nguyễn Văn Minh Mẫn 3.

Võ Thị Ngọc Châu 4. Hồ Bảo Quốc 5. Cao Hoàng Trụ Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trƣởng Khoa quản lý chuyên ngành sau khi luận văn đã đƣợc sửa chữa (nếu có). CHỦ TỊCH HỘI ĐỒNG TRƢỞNG KHOA………… ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƢỜNG ĐẠI HỌC BÁCH KHOA Độc lập -Tự do -Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên: BÙI NGUYỄN TÂY NGUYÊN.

Ngày, tháng, năm sinh: 14/06/1981. Nơi sinh: BÌNH THUẬN. Chuyên ngành: KHOA HỌC MÁY TÍNH. TÊN ĐỀ TÀI: TRUY HỒI Ý KIẾN TRÊN BÁO ĐIỆN TỬ TIẾNG VIỆT.

NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu đề xuất các phƣơng pháp truy hồi các trang tin có chứa ý kiến của độc giả về các vấn đề đƣợc nêu lên trên các báo điện tử tiếng Việt. NGÀY GIAO NHIỆM VỤ: 20/01/2014……………. NGÀY HOÀN THÀNH NHIỆM VỤ: 20/06/2014. CÁN BỘ HƢỚNG DẪN: GS.

CAO HOÀNG TRỤ TP. năm 20… CÁN BỘ HƢỚNG DẪN TRƢỞNG KHOA…. CAO HOÀNG TRỤ LỜI CẢM ƠN Đầu tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến GS. Cao Hoàng Trụ, ngƣời đã luôn tận tình chỉ dẫn, động viên, khích lệ tôi trong suốt quá trình làm luận văn này.

Sự hƣớng dẫn tận tình, những lời khuyên quý báu cũng nhƣ những sự động viên, khích lệ từ thầy là động lực để tôi có thể hoàn thành đƣợc luận văn này. Tôi cũng xin gửi lời cảm ơn chân thành đến nhóm sinh viên kỹ sƣ tài năng K2010 và bạn bè đã giúp đỡ tôi thu thập dữ liệu kiểm tra. Tôi xin gửi lời cảm ơn đến gia đình tôi, những ngƣời luôn ủng hộ, cổ vũ và tạo điều kiện tốt nhất cho tôi trong công việc học tập và nghiên cứu. Và cuối cùng, xin chân thành biết ơn sự tận tình giảng dạy và giúp đỡ của tất cả quý thầy cô tại trƣờng Đại học Bách khoa, đặc biệt là các thầy cô trong khoa Khoa học và Kỹ thuật Máy tính.

TÓM TẮT Truy hồi ý kiến là một quá trình truy hồi văn bản, trong đó yêu cầu các văn bản đƣợc truy hồi và xếp hạng theo mức diễn đạt ý kiến của chúng đối với một câu truy vấn. Một văn bản liên quan phải thỏa hai điều kiện: liên quan tới câu truy vấn, và chứa ý kiến về câu truy vấn bất kể nó đồng ý (positive) hay không đồng ý (negative). Trong luận văn này, một hệ thống truy hồi ý kiến trên tiếng Việt đƣợc xây dựng theo phƣơng pháp dựa vào phân loại sử dụng bộ phân loại SVM. Hệ thống đã đƣợc thực nghiệm trên tập dữ liệu tiếng Việt đƣợc chúng tôi tự xây dựng bao gồm 10 câu truy vấn và 7.

Kết quả thực nghiệm tƣơng đối khả quan: độ chính xác đạt 61,26%, độ đầy đủ đạt 44,20%, và MAP đạt 0,4326. ABSTRACT Opinion retrieval is a document retrieval process, which requires documents to be retrieved and ranked according to their opinions about a query topic. A relevant document must satisfy two criteria: relevant to the query topic, and contains opinions about the query, no matter if they are positive or negative. In this thesis, an opinion retrieval system in Vietnamese was built based on the classification-based approach using SVM classifier.

The system was tested using a Vietnamese data collection built on our own which consists of 10 queries and 7,500 documents. The experiment result is promised: a precision of 61.20%, and a MAP of 0. LỜI CAM ĐOAN Tôi xin cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác nhƣ đã ghi rõ trong luận văn, các nội dung trình bày trong luận văn này là do chính tôi thực hiện và chƣa có phần nội dung nào của luận văn này đƣợc nộp để lấy bằng cấp ở một trƣờng khác. Bùi Nguyễn Tây Nguyên MỤC LỤC MỤC LỤC.

i DANH MỤC HÌNH. ii DANH MỤC BẢNG. iii CHƢƠNG 1 GIỚI THIỆU. Mục tiêu của luận văn.

1 CHƢƠNG 2 CƠ SỞ LÝ THUYẾT. Truy hồi thông tin. Học máy và truy hồi thông tin. Lịch sử của truy hồi ý kiến.

TREC Blog Track. 15 CHƢƠNG 3 CÁC CÔNG TRÌNH LIÊN QUAN. Truy hồi ý kiến dựa vào phân loại. Truy hồi ý kiến dựa vào từ vựng.

20 CHƢƠNG 4 TRUY HỒI Ý KIẾN TRÊN TIẾNG VIỆT. Phƣơng pháp nền trên tiếng Anh. Hiện thực phƣơng pháp nền trên tiếng Việt. 30 CHƢƠNG 5 ĐÁNH GIÁ.

Tập dữ liệu. Kết quả thí nghiệm. 39 CHƢƠNG 6 TỔNG KẾT. Hƣớng phát triển.

45 TÀI LIỆU THAM KHẢO. 47 i DANH MỤC HÌNH Hình 2. Mặt siêu phẳng lề tối ƣu trong SVM. Mô hình truy hồi ý kiến tổng quát.

Cách lấy mẫu dƣơng bƣớc 1. Cách lấy mẫu dƣơng bƣớc 2. Cách lấy mẫu âm bƣớc 1. Cách lấy mẫu âm ở bƣớc 2.

36 ii DANH MỤC BẢNG Bảng 4. Bảng contingency cho Pearsons chi-square. Một số điểm khác biệt cần lƣu ý giữa tiếng Anh và tiếng Việt. Tập dữ liệu đã xây dựng.

Tập dữ liệu chạy thí nghiệm. Kết quả thí nghiệm chỉ với thành phần IR. Ví dụ AP thấp nhiều so với độ chính xác P và độ đầy đủ R. Kết quả thí nghiệm của toàn hệ thống.

42 iii CHƢƠNG 1 GIỚI THIỆU 1. Tổng quan Hiện nay mạng Internet đã trở nên phổ cập và cho phép ngƣời sử dụng dễ dàng trình bày quan điểm của mình về một vấn đề nào đó thuộc một chủ đề bất kì nhƣ chính trị, xã hội, kinh tế thông qua các bài viết, ý kiến phản hồi trên các diễn đàn, trang cá nhân (blog), các báo điện tử. Với một lƣợng thông tin khổng lồ và nhiều nguồn nhƣ vậy, câu hỏi đặt ra là làm sao để biết đƣợc ý kiến của đại đa số ngƣời sử dụng về một vấn đề đƣợc đƣa ra nhƣ thế nào? Ví dụ, một vấn đề xã hội hiện tại đang nhận đƣợc sự quan tâm của nhiều ngƣời là “bỏ thi tốt nghiệp phổ thông trung học, nên hay không?”; câu hỏi là làm sao để truy hồi đƣợc các ý kiến của ngƣời sử dụng đã đăng trên Internet có liên quan tới vấn đề này? Các công cụ tìm kiếm hiện tại nhƣ Google chỉ cung cấp dịch vụ truy hồi thông tin ở mức độ văn bản là các sự kiện, mô tả, định nghĩa liên quan đến truy vấn chứ chƣa cung cấp dịch vụ chỉ truy hồi các ý kiến bình luận liên quan truy vấn. Do đó ý tƣởng xây dựng một hệ thống truy hồi ý kiến là có cơ sở và là động lực thúc đẩy chúng tôi nghiên cứu và thực hiện luận văn này.

Mục tiêu của luận văn Mục tiêu của luận văn này là xây dựng một hệ thống truy hồi ý kiến (opinion retrieval) bình luận về các vấn đề xã hội đƣợc đăng trên các báo điện tử tiếng Việt. Nhập vào một câu truy vấn bằng tiếng Việt của vấn đề cần truy hồi ý kiến, ví dụ “bỏ thi tốt nghiệp phổ thông trung học”, hệ thống sẽ đƣa ra danh sách các văn bản có chứa ý kiến bình luận liên quan đến câu truy vấn và đƣợc sắp xếp theo mức độ liên quan. 1 Truy hồi ý kiến là một quá trình truy hồi văn bản, trong đó yêu cầu các văn bản đƣợc truy hồi và xếp hạng theo mức diễn đạt ý kiến của chúng đối với một câu truy vấn. Một văn bản liên quan phải thỏa hai điều kiện: liên quan tới câu truy vấn, và chứa ý kiến về câu truy vấn, bất kể nó đồng ý (positive) hay không đồng ý (negative) [29].

Truy hồi ý kiến khác với truy hồi thông tin (information retrieval). Truy hồi ý kiến trả về những văn bản chứa đựng ý kiến bình luận có liên quan đến câu truy vấn, trong khi truy hồi thông tin trả về những văn bản liên quan đến câu truy vấn có chứa hoặc không chứa ý kiến bình luận. Ví dụ, với câu truy vấn “iPhone5”, truy hồi ý kiến chỉ lấy những văn bản có chứa ý kiến về iPhone5 nhƣ “Tôi thích iPhone5”, trong khi đó những văn bản nói về đặc tính kỹ thuật của iPhone5 sẽ đƣợc coi là không liên quan. Truy hồi ý kiến khác với phân tích ý kiến (sentiment analysis hay opinion mining).

Truy hồi ý kiến đi tìm những văn bản chứa đựng ý kiến bình luận, trong khi phân tích ý kiến thực hiện công việc trên những văn bản chứa đựng ý kiến bình luận sẵn có và cho biết ý kiến này đồng ý hay không đồng ý với vấn đề đƣợc đƣa ra. Cho đến nay có khá nhiều công trình nghiên cứu về lĩnh vực truy hồi ý kiến cho tiếng Anh mà tiêu biểu nhƣ [25] [28] [29] nhƣng chƣa có công trình nào thực hiện cho tiếng Việt. Đó là lí do đề tài đƣợc chọn thực hiện với tiếng Việt. 2 CHƢƠNG 2 CƠ SỞ LÝ THUYẾT 2.

Truy hồi thông tin Gerard Salton, ngƣời tiên phong trong lĩnh vực truy hồi thông tin, định nghĩa truy hồi thông tin nhƣ sau [22]. “Truy hồi thông tin là một lĩnh vực liên quan đến việc cấu trúc, phân tích, tổ chức, lưu trữ, tìm kiếm, và truy hồi của thông tin.” Lĩnh vực truy hồi thông tin làm việc với các ứng dụng khác nhau liên quan đến việc tìm kiếm nhiều loại thông tin khác nhau nhƣ văn bản, hình ảnh, phim, âm thanh, và âm nhạc. Ứng dụng thông thƣờng nhất của truy hồi thông tin là tìm kiếm web trong đó ngƣời ứng dụng gõ câu truy vấn vào một công cụ tìm kiếm và nhận về một danh sách văn bản đƣợc xếp hạng đƣợc trình bày trên web. Một số ứng dụng ví dụ khác là tìm kiếm chiều dọc (Vertical search), tìm kiếm xí nghiệp (Enterprise search), tìm kiếm để bàn (Desktop search), và tìm kiếm ngang hàng (Peer-to-peer search).

- Tìm kiếm chiều dọc là một dạng đặc biệt của tìm kiếm web, tập trung vào một loại nội dung online nhƣ tin tức, mua sắm, du lịch.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề Luận văn thạc sĩ về truy hồi ý kiến trên báo điện tử tiếng Việt của tác giả Bùi Nguyễn Tây Nguyên, dưới sự hướng dẫn của GS. Cao Hoàng Trụ tại Đại học Bách Khoa, TP. Hồ Chí Minh, năm 2014, khám phá các phương pháp truy hồi ý kiến từ người đọc trên các nền tảng báo điện tử tiếng Việt. Bài viết không chỉ cung cấp cái nhìn sâu sắc về cách thức thu thập và xử lý phản hồi của độc giả mà còn đề xuất các giải pháp cải thiện tương tác giữa báo chí và công chúng. Độc giả sẽ tìm thấy những thông tin hữu ích về cách tối ưu hóa quy trình truy hồi ý kiến, từ đó nâng cao chất lượng nội dung báo chí và sự hài lòng của người đọc.

Nếu bạn quan tâm đến các ứng dụng công nghệ thông tin trong giáo dục, hãy tham khảo bài viết Quản lý ứng dụng công nghệ thông tin trong dạy học ở trường trung học cơ sở Hoằng Hóa, Thanh Hóa. Bài viết này cũng đề cập đến việc ứng dụng công nghệ để cải thiện trải nghiệm học tập, tương tự như cách mà bài luận văn của Bùi Nguyễn Tây Nguyên nghiên cứu về tương tác độc giả.

Ngoài ra, bạn cũng có thể tìm hiểu thêm về Nghiên cứu ứng dụng học sâu vào dịch từ vựng mà không cần dữ liệu song ngữ, một bài viết khác trong lĩnh vực khoa học máy tính, nơi mà công nghệ và dữ liệu được khai thác để nâng cao hiệu quả trong việc truyền tải thông tin và ý kiến.

Những tài liệu này sẽ giúp bạn mở rộng kiến thức về cách mà công nghệ có thể cải thiện sự giao tiếp và tương tác trong nhiều lĩnh vực khác nhau.

#Luận văn Thạc sĩ

#Phân tích dữ liệu

#nghiên cứu khoa học

#khoa học máy tính

#báo điện tử

#truyền thông trực tuyến

Chủ đề

Công nghệ thông tin và truyền thông

Giáo dục và nghiên cứu khoa học

Nghiên cứu về truyền thông

Phân tích dữ liệu trong báo chí

Luận văn thạc sĩ về truy hồi ý kiến trên báo điện tử tiếng Việt

I. Giới thiệu

II. Cơ sở lý thuyết

III. Các công trình liên quan

IV. Phương pháp nghiên cứu

V. Kết quả và thảo luận

VI. Tổng kết

THÔNG TIN CHI TIẾT

Tác giả: Bùi Nguyễn Tây Nguyên

Người hướng dẫn: GS. Cao Hoàng Trụ

Trường học: Đại học Bách Khoa

Chuyên ngành: Khoa học máy tính

Đề tài: Truy hồi ý kiến trên báo điện tử tiếng Việt

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2014

Địa điểm: TP. Hồ Chí Minh

Luận văn thạc sĩ về truy hồi ý kiến trên báo điện tử tiếng Việt

I. Giới thiệu

II. Cơ sở lý thuyết

III. Các công trình liên quan

IV. Phương pháp nghiên cứu

V. Kết quả và thảo luận

VI. Tổng kết

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Bùi Nguyễn Tây Nguyên

Người hướng dẫn: GS. Cao Hoàng Trụ

Trường học: Đại học Bách Khoa

Chuyên ngành: Khoa học máy tính

Đề tài: Truy hồi ý kiến trên báo điện tử tiếng Việt

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2014

Địa điểm: TP. Hồ Chí Minh

Có thể bạn quan tâm