1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ HẢI YẾN XÂY DỰNG HỆ TÓM TẮT Ý KIẾN VỀ CÁC SẢN PHẨM TỪ NHIỀU NGƯỜI DÙNG CHO VĂN BẢN TIẾNG VIỆT LUẬN VĂN THẠC SĨ Hà Nội – 2011 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN THỊ HẢI YẾN XÂY DỰNG HỆ TÓM TẮT Ý KIẾN VỀ CÁC SẢN PHẨM TỪ NHIỀU NGƯỜI DÙNG CHO VĂN BẢN TIẾNG VIỆT LUẬN VĂN THẠC SĨ Ngành: Công nghệ thông tin Chuyên ngành: Hệ thống thông tin Mã số: 60 48 05 Người hướng dẫn khoa học: TS. Nguyễn Lê Minh Hà Nội - 2011 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4 MỤC LỤC LỜI CAM ĐOAN . 4 DANH MỤC HÌNH VẼ . 6 KÝ TỰ VIẾT TẮT . 9 Chƣơng 1- GIỚI THIỆU BÀI TOÁN TÓM TẮT VĂN BẢN . Định nghĩa tóm tắt văn bản . Quy trình tóm tắt tự động văn bản. Một số ứng dụng của tóm tắt văn bản . Sự phân loại các phƣơng pháp tóm tắt. Tiêu chuẩn về chất lƣợng của tóm tắt đa văn bản . Các yêu cầu của tóm tắt đa văn bản: . Bài toán tóm tắt ý kiến đánh giá về sản phẩm từ nhiều ngƣời dùng. 17 Chƣơng 2 - KIẾN THỨC CƠ SỞ . Khai thác ý kiến . Bối cảnh lịch sử . Các cơ sở khoa học . Khai phá luật kết hợp (Assocition Rules) . Các bƣớc để tìm ra luật kết hợp . Phƣơng pháp tính độ tƣơng đồng câu sử dụng độ đo Cosine. Kỹ thuật tối đa biên liên quan – MMR . 30 Chƣơng 3 - SỬ DỤNG KỸ THUẬT TÓM TẮT ĐA VĂN BẢN CHO BÀI TOÁN TÓM TẮT Ý KIẾN ĐÁNH GIÁ VỀ SẢN PHẨM TỪ NHIỀU NGƢỜI DÙNG. Xử lý các đánh giá trực tuyến của khách hàng. Tóm tắt văn bản tự động. Tóm tắt dựa trên cấu trúc chủ đề . Quá trình tiền xử lý dữ liệu (Pre-processing) . Trích chọn các câu ứng cử viên (Candidate sentence extraction) . Bƣớc xử lý cuối cùng và trình bày bản tóm tắt . 39 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 5 Chƣơng 4 - THỬ NGHIỆM VÀ ĐÁNH GIÁ . Môi trƣờng thử nghiệm . Dữ liệu thử nghiệm . Quá trình thử nghiệm . Kết quả thử nghiệm . Kết quả xác định danh sách các mục từ chính: . Bản tóm tắt cuối cùng . Đánh giá thử nghiệm . 50 TÀI LIỆU THAM KHẢO . 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6 DANH MỤC HÌNH VẼ Hình 1: Một ví dụ về tóm tắt ý kiến dựa trên thuộc tính . 24 Hình 2: Tóm tắt các ý kiến dựa vào thuộc tính của máy ảnh kỹ thuật số . 24 Hình 3: So sánh các ý kiến đánh giá về 2 máy ảnh kỹ thuật số. 24 Hình 4: Xếp hạng các chủ đề dựa vào tập các đánh giá về điện thoại Nokia . 38 Hình 5: Bản tóm tắt cuối cùng . 40 Hình 6: Kết quả thử nghiệm xác định danh sách các mục từ chính. 45 Hình 7: Kết quả thử nghiệm của bản tóm tắt . 46 Hình 8: Bản tóm tắt được tạo ra bằng phương pháp tóm tắt dựa vào phân cụm trên tập các đánh giá về điện thoại Nokia. 47 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 KÝ TỰ VIẾT TẮT CRF Conditional Random Field FS Frequent Word Sequences HMM Hidden Markov Model IR Information retrieval MMR Maximal Marginal Relevance NLP Natural Language Processing PDA Personal Digital Assistant SMS Short Message Services TF Term frequency TID Transaction Identifier WAP Wireless Application Protocol LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 9 MỞ ĐẦU Với việc phát triển nhanh chóng của thương mại điện tử, ngày càng có nhiều các sản phẩm được rao bán trên mạng và cũng ngày càng nhiều người mua sản phẩm trực tuyến. Để tăng cường sự hài lòng của khách hàng và kinh nghiệm mua sắm, một thực tế phổ biến cho các nhà kinh doanh trực tuyến là cho phép khách hàng của họ có thể đánh giá hoặc phát biểu ý kiến về các sản phẩm mà họ đã mua. Với việc ngày càng nhiều người dùng sử dụng mua bán trực tuyến thì số lượng người đánh giá về sản phẩm ngày càng tăng lên. Kết quả là, số lượng ý kiến mà một sản phẩm nhận được tăng lên nhanh chóng. Hơn nữa, rất nhiều ý kiến đánh giá là dài nhưng chỉ có một vài câu có nội dung về đánh giá sản phẩm. Điều này thực sự khó khăn cho một khách hàng tiềm năng có thể đọc chúng để thực hiện một quyết định đúng đắn về việc có nên mua sản phẩm hay không. Nếu anh/cô ấy chỉ đọc một vài ý kiến thì có thể nhận được một cái nhìn không đúng đắn về sản phẩm. Số lượng lớn các ý kiến cũng gây ra khó khăn cho các nhà sản xuất để theo dõi ý kiến khách hàng đối với các sản phẩm của họ. Đối với một nhà sản xuất, đó là những khó khăn truyền thống vì rất nhiều các trang web kinh doanh có thể bán cùng một sản phẩm và các nhà sản xuất có thể (hầu như) sản xuất rất nhiều loại sản phẩm. Bằng cách dựa vào những lợi thế của công nghệ thông tin, các công ty sản xuất có thể thu thập thông tin khách hàng trong một quy mô lớn để cung cấp chiến lược cũng như hỗ trợ kỹ thuật cho sản phẩm của họ phục vụ cho việc thiết kế, phát triển sản phẩm và tiếp thị bán hàng. Khảo sát thống kê là một phương pháp tiếp cận chung được áp dụng rộng rãi để thu thập thông tin của khách hàng và hành vi của khách hàng. Tuy nhiên, các nghiên cứu trước đây sử dụng thông tin của khách hàng chủ yếu tập trung vào tính toán và phân tích dữ liệu cho mục đích giới thiệu sản phẩm, cá nhân hoá, và phân tích các nhân tố làm tăng cường lòng trung thành của khách hàng. Tuy nhiên, dữ liệu văn bản chiếm một phần đáng kể của thông tin khách hàng đã phần nào bị bỏ qua. Trong khi đó, tính toán và phân tích dữ liệu được cấu trúc và tổ chức tốt với các ứng dụng cơ sở dữ liệu, điều này làm cho họ xử lý tương đối dễ dàng. Một vài kỹ thuật được thành lập để phân tích và quản lý những dữ liệu này. Ví dụ: phân tích xử lý trực tuyến (OLAP) và khai thác dữ liệu. Ngược lại, dữ liệu văn bản viết bằng ngôn ngữ tự nhiên lại thường được lưu trữ dưới dạng văn bản không có cấu trúc hoặc bán cấu trúc. Xử lý dữ liệu văn bản yêu cầu không thể thiếu kiến thức từ các lĩnh vực khác nhau như: cơ sở dữ liệu, truy vấn thông tin, học máy và xử lý ngôn ngữ tự nhiên. Vì vậy, tồn tại một mức độ khó khăn hơn trong xử lý thông tin văn bản. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 Tương tự như các dữ liệu số, dữ liệu văn bản cung cấp thông tin phong phú trong việc thúc đẩy sự thu thập thông tin về kinh doanh cũng như thông tin về sự cạnh tranh, đặc biệt là với sự phát triển bùng nổ của trang web dựa trên các ứng dụng kinh doanh. Hiện nay, nhu cầu về kỹ thuật tiên tiến đã tăng lên rất nhiều để giảm thời gian cần thiết để có được các thông tin và tri thức hữu ích từ tập hợp dữ liệu lớn văn bản như email, bản ghi nhớ, các trang web và thậm chí cả tin nhắn. Khách hàng là những người được mời hoặc tự phát tham gia đánh giá bằng văn bản để chia sẻ kinh nghiệm của họ, ý kiến và khuyến nghị đối với các sản phẩm khác nhau. Một số người tiêu dùng hành động một cách chuyên nghiệp bằng những phương pháp khác nhau để so sánh các sản phẩm tương tự từ sự khác nhau về thương hiệu và đưa ra ý kiến ủng hộ hoặc phản đối. Những đánh giá sản phẩm là rất cần thiết đối với việc thiết kế và sản xuất sản phẩm của nhà sản xuất, nhà sản xuất có thể hiểu rõ hơn những điều khách hàng quan tâm và cải tiến sản phẩm cho phù hợp. Tuy nhiên, việc xử lý thông tin quan trọng như vậy không phải là một nhiệm vụ nhỏ. Số lượng đánh giá một cách trực tiếp của khách hàng có thể phát triển rất nhanh chóng và nó là tốn thời gian để thực sự đọc qua tất cả chúng bằng “tay”. Làm thế nào để đối phó với các số lượng lớn khách hàng đánh giá và lựa chọn thông tin hữu ích từ họ đã trở thành một nhiệm vụ quan trọng nhưng đầy thách thức. Với thực tế ở trên, luận văn tiến hành nghiên cứu, giải quyết và đề xuất phương pháp tập hợp mối quan tâm của khách hàng từ việc đánh giá sản phẩm trực tuyến bằng cách sử dụng tóm tắt văn bản tự động. Cơ sở của đề tài là các kết quả nghiên cứu đã được công bố trên thế giới về bài toán tóm tắt văn bản tự động. Luận văn cũng tiến hành thử nghiệm tóm tắt trên một tập các đánh giá về một sản phẩm cụ thể. Ngoài phần mở đầu và kết luận, kết cấu của luận văn bao gồm 4 chương: - Chương 1: “Giới thiệu bài toán tóm tắt văn bản” tóm tắt một số các ứng dụng của tóm tắt văn bản, phát biểu bài toán tóm tắt ý kiến về sản phẩm từ nhiều người dùng. - Chương 2: “Kiến thức cơ sở” trình bày một số thuật toán, phương pháp sử dụng trong quá trình tóm tắt. - Chương 3: “Sử dụng kỹ thuật tóm tắt đa văn bản cho bài toán tóm tắt” sẽ đi sâu vào phương pháp tóm tắt cụ thể để giải quyết bài toán chính của luận văn. - Chương 4: “Thử nghiệm và đánh giá” sẽ trình bày quá trình thử nghiệm của luận văn và các kết quả đạt được trong quá trình thử nghiệm. Đồng thời cũng đưa ra các phân tích và đánh giá về kết quả đạt được. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 Chƣơng 1- GIỚI THIỆU BÀI TOÁN TÓM TẮT VĂN BẢN 1. Định nghĩa tóm tắt văn bản Tóm tắt được định nghĩa là một văn bản được tạo ra từ một hoặc nhiều văn bản mà văn bản này chứa đựng các thông tin quan trọng trong văn bản gốc đồng thời ngắn gọn hơn văn bản gốc. Như vậy, tóm tắt văn bản là một quá trình chắt lọc hầu hết các thông tin quan trọng từ một hay nhiều văn bản nguồn để tạo ra một bản tóm tắt ngắn gọn, cô đọng cho những người dùng hay nhiệm vụ cụ thể. Khi việc tóm tắt được thực hiện bằng khả năng của một máy tính, nghĩa là tự động, thì gọi là tóm tắt văn bản tự động.
Xây Dựng Hệ Tóm Tắt Ý Kiến Về Các Sản Phẩm Từ Nhiều Người Dùng Cho Văn Bản Tiếng Việt
Luận văn thạc sĩ VNU UET nghiên cứu xây dựng hệ thống tóm tắt ý kiến người dùng cho văn bản tiếng Việt, nâng cao hiệu quả xử lý ngôn ngữ.
Trường đại học
Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà NộiChuyên ngành
Công nghệ thông tinNgười đăng
Ẩn danhThể loại
Luận văn thạc sĩPhí lưu trữ
30 PointMục lục chi tiết
THÔNG TIN CHI TIẾT
Tác giả: Trần Thị Hải Yến
Người hướng dẫn: TS. Nguyễn Lê Minh
Trường học: Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội
Chuyên ngành: Công nghệ thông tin
Đề tài: Xây Dựng Hệ Tóm Tắt Ý Kiến Về Các Sản Phẩm Từ Nhiều Người Dùng Cho Văn Bản Tiếng Việt
Loại tài liệu: Luận văn thạc sĩ
Năm xuất bản: 2011
Địa điểm: Hà Nội
Trích đoạn nội dung tài liệu
Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ