Luận văn thạc sĩ: Hệ thống tự động tổng hợp ý kiến góp ý trong hội nghị - VNU UET

Luận văn thạc sĩ nghiên cứu vnu uet hệ thống tự động tổng hợp ý kiến góp ý trong hội nghị 04, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực tiễn.

Trường đại học

Đại học Quốc gia Hà Nội - Trường Đại học Công nghệ

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2014

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM

1.1. Giới thiệu

1.2. Các khái niệm trong khai phá quan điểm

1.3. Các thách thức trong khai phá quan điểm

1.4. Các bài toán trong khai phá quan điểm

2. CHƯƠNG 2: CÁC PHƯƠNG PHÁP TỔNG HỢP Ý KIẾN

2.1. Các nghiên cứu liên quan đến tổng hợp ý kiến

2.2. Phân loại tổng hợp ý kiến

2.3. Tổng hợp ý kiến dựa trên đặc trưng

2.4. Nhận diện đặc trưng

2.5. Dự đoán chiều hướng quan điểm

2.6. Sinh bản tổng hợp

2.7. Tổng hợp ý kiến không dựa trên đặc trưng

2.8. Tổng hợp cơ bản

2.9. Tổng hợp văn bản

2.10. Tổng hợp dựa trên thực thể

3. CHƯƠNG 3: BÀI TOÁN TỔNG HỢP Ý KIẾN GÓP Ý TRONG HỘI NGHỊ

3.1. Chức năng mong muốn của hệ thống

3.2. Thu thập ý kiến

3.3. Tổng hợp ý kiến

3.4. Gợi ý cho ban thư ký

3.5. Mô hình đề xuất

3.5.1. Pha thu thập dữ liệu

3.5.2. Pha tiền xử lý dữ liệu

3.5.3. Pha xác định chủ đề của ý kiến

3.5.4. Pha gom nhóm ý kiến

3.5.5. Pha phân lớp ý kiến

3.5.6. Pha sinh bản tóm tắt

3.6. Phương pháp đánh giá

3.6.1. Đánh giá pha xác định chủ đề

3.6.2. Đánh giá pha phân lớp ý kiến

4. CHƯƠNG 4: THỰC NGHIỆM VÀ ĐÁNH GIÁ

4.1. Môi trường thực nghiệm

4.2. Công cụ phần mềm

4.3. Dữ liệu thực nghiệm

4.4. Chương trình thực nghiệm

4.5. Kết quả thực nghiệm

4.5.1. Kết quả đánh giá bước xác định chủ đề

4.5.2. Kết quả đánh giá bộ phân lớp NaiveBayes tự xây dựng

4.5.3. Kết quả đánh giá bộ phân lớp sử dụng mã nguồn mở Weka

4.6. Một số giao diện minh họa

4.6.1. Giao diện chính

4.6.2. Giao diện thêm mới ý kiến

4.6.3. Giao diện tổng hợp ý kiến

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về hệ thống tự động tổng hợp ý kiến góp ý trong hội nghị

Hệ thống tự động tổng hợp ý kiến góp ý trong hội nghị là một công nghệ tiên tiến, giúp thu thập và xử lý ý kiến từ nhiều đại biểu tham gia. Với sự phát triển của công nghệ thông tin, việc ứng dụng hệ thống này trở nên cần thiết hơn bao giờ hết. Luận văn thạc sĩ VNU UET đã chỉ ra rằng, việc tổng hợp ý kiến một cách tự động không chỉ tiết kiệm thời gian mà còn nâng cao độ chính xác trong việc ghi nhận ý kiến của các đại biểu.

1.1. Khái niệm về hệ thống tự động tổng hợp ý kiến

Hệ thống tự động tổng hợp ý kiến là công cụ giúp thu thập và phân tích ý kiến từ nhiều nguồn khác nhau. Nó sử dụng các thuật toán xử lý ngôn ngữ tự nhiên để hiểu và tổng hợp thông tin một cách hiệu quả.

1.2. Lợi ích của hệ thống trong hội nghị

Hệ thống này giúp giảm thiểu gánh nặng cho ban thư ký, đồng thời đảm bảo rằng mọi ý kiến đều được ghi nhận và phân tích một cách chính xác. Điều này tạo ra một môi trường hội nghị hiệu quả hơn.

II. Vấn đề và thách thức trong việc tổng hợp ý kiến góp ý

Mặc dù hệ thống tự động tổng hợp ý kiến mang lại nhiều lợi ích, nhưng vẫn tồn tại nhiều thách thức trong quá trình triển khai. Các vấn đề như độ chính xác của dữ liệu, sự đa dạng trong cách diễn đạt ý kiến và khả năng xử lý ngôn ngữ tự nhiên là những yếu tố cần được xem xét kỹ lưỡng.

2.1. Độ chính xác của dữ liệu thu thập

Độ chính xác của dữ liệu là yếu tố quan trọng trong việc tổng hợp ý kiến. Nếu dữ liệu không chính xác, kết quả tổng hợp sẽ bị sai lệch, ảnh hưởng đến quyết định cuối cùng.

2.2. Sự đa dạng trong cách diễn đạt ý kiến

Mỗi người có cách diễn đạt khác nhau, điều này tạo ra khó khăn trong việc phân tích và tổng hợp ý kiến. Hệ thống cần phải có khả năng nhận diện và xử lý các cách diễn đạt khác nhau.

III. Phương pháp tổng hợp ý kiến trong hệ thống tự động

Để xây dựng một hệ thống tự động tổng hợp ý kiến hiệu quả, cần áp dụng các phương pháp hiện đại trong xử lý ngôn ngữ tự nhiên và học máy. Các phương pháp này giúp hệ thống hiểu và phân tích ý kiến một cách chính xác.

3.1. Các thuật toán xử lý ngôn ngữ tự nhiên

Các thuật toán như phân tích cú pháp, nhận diện thực thể và phân loại văn bản là những công cụ quan trọng giúp hệ thống hiểu được ngữ nghĩa của ý kiến.

3.2. Ứng dụng học máy trong tổng hợp ý kiến

Học máy giúp hệ thống cải thiện khả năng phân tích và tổng hợp ý kiến theo thời gian. Các mô hình học sâu có thể được áp dụng để nâng cao độ chính xác của hệ thống.

IV. Ứng dụng thực tiễn của hệ thống tổng hợp ý kiến trong hội nghị

Hệ thống tự động tổng hợp ý kiến đã được áp dụng trong nhiều hội nghị lớn, giúp cải thiện quy trình thu thập và phân tích ý kiến. Kết quả cho thấy, việc sử dụng hệ thống này không chỉ tiết kiệm thời gian mà còn nâng cao chất lượng tổng hợp ý kiến.

4.1. Kết quả nghiên cứu từ các hội nghị

Nghiên cứu cho thấy rằng, việc áp dụng hệ thống tự động giúp tăng cường sự tham gia của đại biểu và cải thiện chất lượng ý kiến được tổng hợp.

4.2. Các ví dụ thành công trong ứng dụng

Nhiều hội nghị đã thành công trong việc sử dụng hệ thống này, từ đó tạo ra những bản tổng hợp ý kiến chất lượng cao, phục vụ cho việc ra quyết định.

V. Kết luận và định hướng tương lai cho hệ thống tổng hợp ý kiến

Hệ thống tự động tổng hợp ý kiến góp ý trong hội nghị là một bước tiến quan trọng trong việc ứng dụng công nghệ thông tin vào quản lý ý kiến. Tương lai của hệ thống này hứa hẹn sẽ còn phát triển mạnh mẽ hơn nữa với sự tiến bộ của công nghệ.

5.1. Tương lai của hệ thống tổng hợp ý kiến

Với sự phát triển không ngừng của công nghệ, hệ thống tổng hợp ý kiến sẽ ngày càng hoàn thiện hơn, đáp ứng tốt hơn nhu cầu của người dùng.

5.2. Các nghiên cứu tiếp theo cần thực hiện

Cần tiếp tục nghiên cứu và phát triển các phương pháp mới để nâng cao độ chính xác và hiệu quả của hệ thống tổng hợp ý kiến trong tương lai.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet hệ thống tự động tổng hợp ý kiến góp ý trong hội nghị 04

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh sự phát triển mạnh mẽ của nền tảng Web 2.0 như blog, diễn đàn, mạng xã hội, việc khai thác và tổng hợp ý kiến đóng góp từ người dùng trở thành một lĩnh vực nghiên cứu quan trọng trong ngành Công nghệ Thông tin, đặc biệt là trong lĩnh vực Hệ thống Thông tin. Theo một khảo sát với hơn 2000 người trưởng thành tại Mỹ, có khoảng 60% người dùng Internet tìm hiểu sản phẩm qua các nhận xét trực tuyến, trong đó từ 73% đến 87% cho biết các nhận xét này ảnh hưởng lớn đến quyết định mua hàng của họ. Điều này cho thấy tầm quan trọng của việc khai phá quan điểm và tổng hợp ý kiến trong việc hỗ trợ ra quyết định.

Luận văn tập trung vào bài toán xây dựng hệ thống tự động tổng hợp ý kiến góp ý trong các hội nghị quy mô lớn, với mục tiêu giảm thiểu gánh nặng cho ban thư ký trong việc tổng hợp ý kiến từ hàng trăm đại biểu tham gia. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ hội nghị Ban Chấp hành Trung ương Đảng khóa XI năm 2013, đặc biệt là ý kiến góp ý về Dự thảo sửa đổi Hiến pháp năm 1992, với hơn 1461 ý kiến được thu thập từ người dân và đại biểu Quốc hội. Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả xử lý và tổng hợp ý kiến, giúp ban thư ký hội nghị có thể nhanh chóng tạo ra bản tổng hợp thô, từ đó hoàn thiện bản tổng hợp chính thức, góp phần nâng cao chất lượng quản lý và ra quyết định trong các tổ chức lớn.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu trong lĩnh vực khai phá quan điểm (Opinion Mining) và tổng hợp ý kiến (Opinion Summarization). Hai lý thuyết chính được áp dụng gồm:

Khai phá quan điểm (Opinion Mining): Theo Bing Liu, quan điểm được định nghĩa gồm năm yếu tố: đối tượng (object), đặc trưng (feature), quan điểm (opinion), người đưa ra quan điểm (opinion holder), và thời điểm (time). Quan điểm có thể mang tính tích cực, tiêu cực hoặc trung lập. Khai phá quan điểm tập trung vào việc xác định các đặc trưng của đối tượng và chiều hướng cảm xúc liên quan.
Tổng hợp ý kiến dựa trên đặc trưng (Feature-based Opinion Summarization): Phương pháp này chia văn bản thành các khía cạnh hoặc đặc trưng cụ thể, sau đó dự đoán cảm xúc cho từng đặc trưng và sinh bản tóm tắt ý kiến theo từng khía cạnh. Ba bước chính gồm: nhận diện đặc trưng, dự đoán chiều hướng cảm xúc, và sinh bản tổng hợp.

Các khái niệm chuyên ngành quan trọng bao gồm: đặc trưng hiện (explicit feature), đặc trưng ẩn (implicit feature), phân lớp quan điểm (opinion classification), tổng hợp tương phản (contrastive opinion summarization), và đồng tham chiếu (coreference resolution).

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ trang thông tin điện tử của Quốc hội về Dự thảo sửa đổi Hiến pháp năm 1992, bao gồm 203 ý kiến của đại biểu Quốc hội và 1258 ý kiến của người dân. Dữ liệu được thu thập bằng công cụ Jsoup để tải mã nguồn trang web và RegexBuddy để trích xuất nội dung ý kiến.

Phương pháp nghiên cứu gồm các bước:

Thu thập dữ liệu: Tải và trích xuất ý kiến từ trang web, tập trung vào ý kiến của người dân và đại biểu Quốc hội.
Tiền xử lý dữ liệu: Chuyển đổi dữ liệu ý kiến từ dạng văn bản tự do sang cấu trúc có định dạng (XML/JSON), lưu trữ trong cơ sở dữ liệu MySQL với các bảng lưu trữ thông tin ý kiến và đại biểu.
Xác định chủ đề ý kiến: Sử dụng biểu thức chính quy và tập luật để phân tách ý kiến thành các phần nhỏ theo từng điều khoản, chương trong dự thảo Hiến pháp.
Gom nhóm ý kiến: Gom các câu có cùng chủ đề thành các ý kiến nhỏ, phục vụ cho việc phân lớp và tổng hợp.
Phân lớp ý kiến: Áp dụng các thuật toán học máy và từ điển cảm xúc để phân loại ý kiến theo chiều hướng tích cực, tiêu cực hoặc trung lập.
Sinh bản tóm tắt: Tạo bản tổng hợp thô dựa trên kết quả phân nhóm và phân lớp, hỗ trợ ban thư ký trong việc hoàn thiện bản tổng hợp cuối cùng.

Timeline nghiên cứu kéo dài từ tháng 05/2013 đến tháng 06/2014, bao gồm các giai đoạn thu thập, xử lý, xây dựng mô hình và đánh giá thử nghiệm.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thu thập dữ liệu thành công với quy mô lớn: Tổng cộng thu thập được 1461 ý kiến, trong đó 1258 ý kiến của người dân và 203 ý kiến của đại biểu Quốc hội. Ý kiến của người dân thường ngắn gọn, tập trung vào một điều khoản cụ thể, trong khi ý kiến của đại biểu thường dài hơn, đề cập đến nhiều điều khoản.
Hiệu quả của pha xác định chủ đề: Áp dụng tập luật và biểu thức chính quy giúp tách ý kiến dài thành các ý kiến nhỏ theo từng điều khoản, tăng độ chính xác trong việc phân loại chủ đề. Khoảng 85% ý kiến đại biểu được tách thành nhiều ý kiến nhỏ phù hợp với từng điều khoản.
Phân lớp ý kiến dựa trên từ điển cảm xúc và học máy: Sử dụng từ điển cảm xúc kết hợp với thuật toán Naive Bayes giúp phân loại chính xác hơn 78% ý kiến thành tích cực, tiêu cực hoặc trung lập, so với phương pháp chỉ dùng từ điển đạt khoảng 65%.
Tạo bản tổng hợp thô hỗ trợ ban thư ký: Bản tổng hợp thô được sinh ra dưới dạng bảng thống kê số lượng ý kiến tích cực và tiêu cực theo từng điều khoản, giúp giảm 40% thời gian tổng hợp thủ công của ban thư ký.

Thảo luận kết quả

Kết quả cho thấy việc áp dụng mô hình tổng hợp ý kiến dựa trên đặc trưng và phân lớp cảm xúc là phù hợp với bài toán tổng hợp ý kiến trong hội nghị quy mô lớn. Việc tách ý kiến dài thành các ý kiến nhỏ theo điều khoản giúp tăng tính chính xác và chi tiết trong tổng hợp. So sánh với các nghiên cứu trước đây trong lĩnh vực khai phá quan điểm, mô hình đề xuất đã cải thiện đáng kể khả năng xử lý dữ liệu ý kiến phức tạp, đặc biệt là ý kiến của đại biểu có nội dung đa chiều.

Việc sử dụng từ điển cảm xúc kết hợp học máy giúp khắc phục hạn chế của phương pháp thuần túy từ điển, nhất là trong các trường hợp ý kiến có ngữ cảnh phức tạp hoặc pha trộn cảm xúc. Bản tổng hợp thô không chỉ cung cấp số liệu thống kê mà còn hỗ trợ trực quan hóa qua bảng biểu, giúp người dùng dễ dàng nắm bắt xu hướng ý kiến.

Tuy nhiên, một số thách thức vẫn tồn tại như xử lý các câu có đánh giá pha trộn, theo dõi sự thay đổi quan điểm theo thời gian, và mở rộng mô hình cho các lĩnh vực khác ngoài chính trị. Các biểu đồ so sánh độ chính xác phân lớp và thời gian xử lý cũng được sử dụng để minh họa hiệu quả của mô hình.

Đề xuất và khuyến nghị

Phát triển module tiền xử lý nâng cao: Áp dụng kỹ thuật xử lý ngôn ngữ tự nhiên sâu hơn như nhận diện thực thể có tên (NER), đồng tham chiếu để cải thiện việc tách và gán chủ đề cho các câu ý kiến phức tạp. Mục tiêu tăng độ chính xác xác định chủ đề lên trên 90% trong vòng 6 tháng, do nhóm phát triển hệ thống thực hiện.
Tích hợp thuật toán học sâu cho phân lớp cảm xúc: Sử dụng mạng nơ-ron sâu (Deep Learning) để phân loại ý kiến với khả năng nhận diện cảm xúc tinh vi hơn, đặc biệt với các câu có đánh giá pha trộn. Mục tiêu nâng cao độ chính xác phân lớp lên 85% trong 1 năm, do nhóm nghiên cứu AI đảm nhiệm.
Xây dựng giao diện trực quan hóa dữ liệu: Thiết kế dashboard hiển thị biểu đồ phân bố ý kiến theo thời gian, chủ đề và chiều hướng cảm xúc, giúp ban thư ký và lãnh đạo dễ dàng theo dõi và ra quyết định. Thời gian hoàn thành dự kiến 3 tháng, do nhóm phát triển giao diện người dùng thực hiện.
Mở rộng ứng dụng cho các hội nghị và lĩnh vực khác: Áp dụng mô hình tổng hợp ý kiến cho các hội nghị doanh nghiệp, tổ chức xã hội, hoặc lĩnh vực giáo dục nhằm nâng cao hiệu quả tổng hợp ý kiến đa dạng. Khuyến nghị triển khai thử nghiệm trong vòng 1 năm, phối hợp với các đơn vị tổ chức hội nghị.

Đối tượng nên tham khảo luận văn

Ban thư ký các hội nghị quy mô lớn: Luận văn cung cấp giải pháp tự động tổng hợp ý kiến, giúp giảm tải công việc nhập liệu và tổng hợp thủ công, nâng cao hiệu quả và độ chính xác trong việc tổng hợp ý kiến.
Nhà nghiên cứu và phát triển trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP): Cung cấp mô hình và phương pháp áp dụng khai phá quan điểm, phân lớp cảm xúc và tổng hợp ý kiến dựa trên đặc trưng, làm cơ sở cho các nghiên cứu tiếp theo.
Các tổ chức chính trị và quản lý nhà nước: Hỗ trợ trong việc thu thập và phân tích ý kiến đóng góp của người dân và đại biểu, phục vụ cho việc xây dựng chính sách và dự thảo luật pháp.
Doanh nghiệp và tổ chức kinh doanh: Áp dụng mô hình tổng hợp ý kiến để phân tích phản hồi khách hàng, cải thiện sản phẩm và dịch vụ, đồng thời hỗ trợ các hệ thống quản lý quan hệ khách hàng (CRM).

Câu hỏi thường gặp

Hệ thống tự động tổng hợp ý kiến hoạt động như thế nào?
Hệ thống thu thập ý kiến từ các nguồn đầu vào, tiền xử lý để chuẩn hóa dữ liệu, xác định chủ đề từng ý kiến dựa trên tập luật và từ vựng, phân lớp cảm xúc bằng thuật toán học máy, cuối cùng sinh bản tổng hợp thô hỗ trợ ban thư ký hoàn thiện bản tổng hợp chính thức.
Dữ liệu thu thập có đảm bảo tính bảo mật và chính xác không?
Dữ liệu được thu thập từ trang thông tin điện tử chính thức của Quốc hội, đảm bảo tính xác thực. Các ý kiến được xử lý và lưu trữ trong cơ sở dữ liệu bảo mật, chỉ phục vụ mục đích nghiên cứu và hỗ trợ tổng hợp.
Phương pháp phân lớp cảm xúc được áp dụng là gì?
Luận văn sử dụng kết hợp từ điển cảm xúc và thuật toán Naive Bayes để phân loại ý kiến thành tích cực, tiêu cực hoặc trung lập, giúp nâng cao độ chính xác so với phương pháp thuần túy từ điển.
Hệ thống có thể áp dụng cho các lĩnh vực khác ngoài chính trị không?
Có thể. Mô hình tổng hợp ý kiến dựa trên đặc trưng và phân lớp cảm xúc có tính linh hoạt cao, có thể điều chỉnh để áp dụng trong các lĩnh vực như kinh doanh, giáo dục, y tế với dữ liệu phù hợp.
Làm thế nào để xử lý các câu ý kiến có đánh giá pha trộn tích cực và tiêu cực?
Hiện tại, hệ thống phân tách câu thành các phần nhỏ hơn dựa trên chủ đề và sử dụng kỹ thuật phân lớp cảm xúc để nhận diện từng phần. Tuy nhiên, đây là thách thức lớn và cần phát triển thêm các thuật toán NLP nâng cao để xử lý hiệu quả hơn.

Kết luận

Luận văn đã xây dựng thành công mô hình hệ thống tự động tổng hợp ý kiến góp ý trong hội nghị quy mô lớn, với dữ liệu thực tế từ Dự thảo sửa đổi Hiến pháp năm 1992.
Mô hình bao gồm các pha thu thập, tiền xử lý, xác định chủ đề, gom nhóm, phân lớp và sinh bản tổng hợp thô, giúp giảm đáng kể thời gian và công sức tổng hợp thủ công.
Kết quả phân lớp cảm xúc đạt độ chính xác khoảng 78%, bản tổng hợp thô hỗ trợ ban thư ký giảm 40% thời gian làm việc.
Các đề xuất nâng cao bao gồm áp dụng học sâu, cải tiến tiền xử lý và trực quan hóa dữ liệu nhằm nâng cao hiệu quả và mở rộng ứng dụng.
Khuyến nghị các tổ chức, nhà nghiên cứu và doanh nghiệp quan tâm áp dụng mô hình để nâng cao chất lượng tổng hợp ý kiến và ra quyết định.

Triển khai thử nghiệm mở rộng mô hình trong các hội nghị khác và lĩnh vực đa dạng, đồng thời phát triển các module nâng cao theo đề xuất để hoàn thiện hệ thống tự động tổng hợp ý kiến.

Trích đoạn nội dung tài liệu

Mở đầu: Đặt ra vấn đề, mục tiêu và giải pháp cho bài toán tổng hợp ý kiến đóng góp trong hội nghị.  Chƣơng 1: Giới thiệu tổng quan - các khái niệm cơ bản về khai phá quan điểm và bài toán tổng hợp quan điểm.  Chƣơng 2: Trình bày các phƣơng pháp cho bài toán tổng hợp ý kiến chung.  Chƣơng 3: Đề xuất mô hình cho bài toán tổng hợp ý kiến trong hội nghị.

 Chƣơng 4: Thực nghiệm và đánh giá các phƣơng pháp, xây dựng demo cho việc xử lý và phân lớp các ý kiến mới.  Kết luận & định hƣớng: Tổng kết lại những kiến thức đã tích lũy, kinh nghiệm đƣợc áp dụng trong suốt quá trình thực hiện luận văn. Đƣa ra đƣợc các hƣớng phát triển trong tƣơng lai. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 Chƣơng 1.

TỔNG QUAN VỀ KHAI PHÁ QUAN ĐIỂM 1. Giới thiệu Một phần quan trọng trong việc thu thập thông tin là luôn tìm ra “Nh ng i u ng i h c ngh ”. Khi bạn muốn mua một chiếc máy tính xách tay HP Pavilon DV6 bạn đặt ra các câu hỏi “Máy HP có tốt không? Dòng Pavilon của HP dùng thế nào? Pin dùng có lâu không?. Chính nhận xét của những ngƣời đã dùng máy tính HP sẽ là câu trả lời cho các câu hỏi mà bạn thắc mắc [5].

Theo cuộc khảo sát hơn 2000 ngƣời Mỹ trƣởng thành cho thấy 81 ngƣời dùng Internet (chiếm tỷ lệ 60 ngƣời Mỹ) đã thực hiện việc tìm hiểu về một sản phẩm thông qua Internet. Có từ 73 đến 87 số ngƣời nói r ng các nhận xét về sản phẩm có sự ảnh hƣởng quan trọng đến việc lựa chọn mua sản phẩm của họ [5]. Nhƣ vậy, quan điểm của ngƣời khác giúp chúng ta có thêm thông tin khi quyết định một vấn đề, nó ảnh hƣởng rất lớn đến hành vi của chúng ta. Bất cứ khi nào chúng ta phải đƣa ra một quyết định, chúng ta thƣờng phải tham khảo những ý kiến của những ngƣời khác.

Với cá nhân, chúng ta tham khảo từ gia đình và bạn bè. Với tổ chức, họ tổ chức các cuộc điều tra, thăm dò dƣ luận để nắm bắt đƣợc ý kiến. Sự bùng nổ của nền tảng Web 2.0 nhƣ blog, di n đàn thảo luận, mạng ngang hàng, và nhiều loại truyền thông xã hội khác giúp cho ngƣời tiêu dùng có thể d dàng chia s kinh nghiệm và quan điểm về bất kì sản phẩm hoặc dịch vụ nào. Với sự phong phú của các nguồn tài nguyên về quan điểm, việc sử dụng công nghệ thông tin để tìm kiếm và hiểu đƣợc ý kiến của con ngƣời là một cơ hội và thách thức rất lớn.

Khai phá quan điểm là lĩnh vực nghiên cứu mà cố gắng để làm cho hệ thống tự động xác định quan điểm của con ngƣời từ văn bản đƣợc viết b ng ngôn ngữ tự nhiên. Khai phá quan điểm nghiên cứu về ý kiến, tình cảm, quan niệm chủ quan, đánh giá, thái độ, thẩm định, cảm xúc… đƣợc thể hiện trong văn bản. Những điều đó đƣợc thể hiện qua các nhận xét, blog, các cuộc thảo luận, tin tức, bình luận, phản hồi… hay các tài liệu khác [5]. Khai phá quan điểm dựa trên ngôn ngữ tính toán, truy vấn thông tin, khai thác văn bản, xử lý ngôn ngữ tự nhiên, học máy, thống kê và phân tích dự đoán.

Các khái niệm trong khai phá quan điểm Liu [4] đƣa ra định nghĩa quan điểm: Một quan iểm bao gồm 5 yếu tố (ei, aij, sijkl, hk, tl) trong ó ei là tên của chủ thể, aij là ặc tr ng của ei, sijkl là quan iểm v ặc tr ng aij của ei, hk là nguồn của quan iểm và tl là th i iểm mà quan iểm ó ợc biểu ạt bởi hk. Quan iểm sijkl có thể tích cực, tiêu cực, trung lập hoặc biểu diễn bởi thang nh gi. LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Một quan iểm nhận xét v sản phẩm iPhone trên Blog Ví dụ: Một quan điểm về điện thoại iPhone trên Blog nhƣ trong Hình 1.1 đƣợc biểu di n dƣới một số bộ năm nhƣ sau: (iPhone, GENERAL , + , Abc123 , 5-1-2008) (iPhone, touch_screen, +, Abc123, 5-1-2008) (iPhone, voice_quality, +, Abc123, 5-1-2008) (Blackberry, keys, -, Abc123, 5-1-2008) Theo Bing Liu [2], các quan điểm có thể thể hiện về bất cứ điều gì, ví dụ nhƣ một sản phẩm, một cá nhân, một tổ chức, một chủ đề… Ông sử dụng thuật ngữ đối tƣợng (Object) để biểu thị các chủ thể đƣợc đề cập.Theo đó, ông đƣa ra một số khái niệm trong khai phá quan điểm bao gồm: Đối tƣợng, các đặc trƣng, đoạn đánh giá, quan điểm, ngƣời đánh giá.

Đối tƣợng Dùng để chỉ thực thể (ngƣời, sản phẩm, sự kiện, chủ đề, …) đƣợc đánh giá. Mỗi đối tƣợng có một tập các thành phần (components) hay thuộc tính (attributes) gọi chung là các đặc trƣng (features). Mỗi thành phần hay thuộc tính lại có một tập các thành phần hay thuộc tính con. Nhƣ vậy, một đối tƣợng O đƣợc biểu di n bởi một cặp [T, A] trong đó T là một cấu trúc phân cấp thành phần cha, thành phần con, A là tập các thuộc tính của đối tƣợng O [3].

Ví dụ: Máy ảnh có một tập thành phân: ống kính, pin và các thuộc tính: kích cỡ, khối lƣợng, chất lƣợng ảnh. Thành phần pin có các thuộc tính con: kích cỡ, thời gian…. Theo định nghĩa này, một đối tƣợng có thể biểu di n nhƣ một cây phân cấp. Gốc của cây chính là đối tƣợng đó, mỗi node không phải gốc là một thành phần hoặc thành phần con của đối tƣợng, mỗi cạnh chỉ một quan hệ part-of.

Mỗi node đƣợc gán một tập các thuộc tính, mỗi quan điểm có thể biểu di n thông qua một node bất kỳ và các thuộc tính của node đó. LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Đoạn đánh giá Gọi một tài liệu quan điểm là d, trong trƣờng hợp tổng quát nhất, d bao gồm một tập các câu tuần tự d = {s1, s2, … sm}.Đoạn đánh giá về một đặc trƣng f của đối tƣợng O trong d là một tập các câu liên tiếp trong d di n tả quan điểm tích cực hay tiêu cực về đặc trƣng f. Đoạn đánh giá bao gồm tối thiểu ít nhất một câu có thể biểu di n quan điểm về một đối tƣợng hoặc thuộc tính của đối tƣợng.

Ngoài ra, một câu đơn cũng có thể biểu di n quan điểm trên một hoặc nhiều đặc đặc trƣng. Ví dụ: “Chất l ợng âm thanh của chiếc iện thoại này tốt, nh ng tuổi thọ pin lại ngắn”. Các đặc trƣng Nếu một đặc trƣng f hoặc bất kì từ đồng nghĩa nào với nó xuất hiện trong câu s, thì f là đặc trƣng hiện (Explicit feature) trong s. Ngƣợc lại, ta nói f là đặc trƣng ẩn (Implicit feature) [3].

Ví dụ: Máy ảnh này đắt quá: Đặc trƣng “giá” là đặc trƣng ẩn. Màu sắc của chiếc áo này đẹp ghê: Đặc trƣng màu sắc là đặc trƣng hiện. Ngƣời đƣa ra quan điểm Ngƣời đƣa ra quan điểm (Opinion holder) là ngƣời hoặc tổ chức thể hiện quan điểm. Ngƣời đƣa ra quan điểm còn gọi là nguồn của quan điểm.

Trong trƣờng hợp đánh giá sản phẩm, di n đàn, blog thì ngƣời đƣa ra quan điểm thƣờng là các tác giả của đánh giá hay bài viết đó [3]. Ví dụ: “John bày tỏ sự bất ồng ý kiến của mình v hiệp ớc”. Ngƣời đƣa ra quan điểm là “John”. Quan điểm Một quan điểm trên một đặc trƣng f là một nhận xét, thái độ, cảm xúc hay sự đánh giá tích cực hoặc tiêu cực trên đặc trƣng f từ một ngƣời đƣa ra quan điểm.

Chiều hƣớng của một quan điểm trên đặc trƣng f có thể là tích cực, tiêu cực hoặc trung lập. Quan điểm hiện (explicit opinion) là một câu thể hiện quan điểm mang tính chủ quan, di n trả trực tiếp quan điểm tích cực hay tiêu cực của tác giả. Quan điểm ẩn (implicit opinion) về một đặc trƣng f là câu thể hiện quan điểm tích cực hay tiêu cực một cách không tƣờng minh [3]. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Các thách thức trong khai phá quan điểm 1. Phong cách viết khác nhau Thực tế, các bình luận hay quan điểm nhập vào bởi những ngƣời khác nhau thì họ có cách viết khác nhau, từ cách thức sử dụng ngôn ngữ, chữ viết tắt và kiến thức của họ là một thách thức riêng của mỗi ngƣời. Mọi ngƣời đều không bày tỏ ý kiến theo cùng một cách. Ngƣời ta có thể sử dụng các thuật ngữ trong một câu tiêu đề xuất hiện trên một tờ báo trực tuyến và xuất hiện trong một di n đàn trực tuyến là rất khác nhau (điều này phụ thuộc vào bối cảnh mà quan điểm đó đƣợc thể hiện).

Trên thực tế, hầu hết trong xử lý văn bản truyền thống thì sự khác biệt nhỏ giữa hai phần của văn bản không thay đổi ý nghĩa nhiều. Tuy nhiên trong khai phá quan điểm, "bộ phim hay" là rất khác với "bộ phim không hay" [22]. Quan điểm thay đổi theo thời gian Một thách thức khác cần phải xét đến là vấn đề làm thế nào để có thể theo dõi các quan điểm thay đổi theo thời gian. Tâm trạng của một ngƣời nào đó có thể thay đổi nhƣng điều đó không nhất thiết r ng quan điểm về một sản phẩm hoặc dịch vụ nhất định sẽ thay đổi theo.

Nếu một sản phẩm cải thiện sau một thời gian có thể là vì nhiều ngƣời đang hài lòng với nó và vì họ có thể bị thuyết phục sau một cuộc thảo luận dài trong một di n đàn về sản phẩm [22]. Độ mạnh của quan điểm Xác định độ mạnh của một quan điểm là một thách thức phải đối mặt trong khai phá quan điểm. Nhiều nỗ lực đã đƣợc thực hiện để xác định các yếu tố quyết định sức mạnh của một ý kiến trong một bối cảnh. Bổ sung thêm việc phân lớp các từ thành các mức độ xu hƣớng quan điểm khác nhau, một số từ bổ nghĩa có thể đƣợc dùng để xác định độ mạnh của quan điểm(“rất”, “một chút”, “hết sức”, “hơi”…).

Cụm từ “rất hài lòng” và “hơi hài lòng” sẽ đƣợc phân lớp thành rất tích cực và kém tích cực nếu “rất” và “hơi” đƣợc phân tích và sử dụng để xác định mức độ đối lập [22]. Các câu với đánh giá pha trộn Một thách thức lớn đối với khai phá quan điểm xuất hiện khi mọi ngƣời thể hiện đánh giá tích cực và tiêu cực trong cùng một câu. Điều này chủ yếu là kết quả khi mọi ngƣời đang giao tiếp thông qua các phƣơng tiện truyền thông không nghi thức nhƣ blog và các di n đàn. Mọi ngƣời có nhiều ý kiến khác nhau trong cùng một câu.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Học máy trong phân tích dữ liệu

Xử lý ngôn ngữ tự nhiên ứng dụng

Khai phá quan điểm và Tóm tắt văn bản

Công nghệ Hỗ trợ Tổ chức Sự kiện