Luận án tiến sĩ: Phân tích ý định từ văn bản ngắn trực tuyến tiếng Việt

Hướng dẫn phân tích ý định từ các tin nhắn ngắn trực tuyến tiếng Việt. Tìm hiểu các kỹ thuật và phương pháp xử lý ngôn ngữ tự nhiên để hiểu ý định người dùng.

Trường đại học

Trường Đại học Công nghệ

Chuyên ngành

Công nghệ Thông tin

Người đăng

Ẩn danh

Thể loại

Luận án tiến sĩ

171

Phí lưu trữ

45 Point

Tóm tắt

I. Tổng quan về phân tích ý định văn bản ngắn trực tuyến tiếng Việt

Phân tích ý định từ văn bản ngắn trực tuyến tiếng Việt là lĩnh vực nghiên cứu trọng tâm trong khoa học dữ liệu và xử lý ngôn ngữ tự nhiên. Mục tiêu chính là xác định mục đích thực sự của người dùng khi tạo ra các văn bản ngắn trên nền tảng trực tuyến. Các văn bản này bao gồm truy vấn tìm kiếm, bình luận, đánh giá sản phẩm và bài đăng mạng xã hội. Độ dài trung bình rất ngắn, khoảng 93% số truy vấn có dưới 4 từ. Nghiên cứu bắt đầu từ công trình của Broder (2002) khi ông phân loại truy vấn thành ba loại chính: định hướng, thông tin và giao dịch. Phân loại này trở thành nền tảng cho nhiều nghiên cứu tiếp theo. Đối với tiếng Việt, việc phân tích còn phức tạp hơn do đặc điểm cấu trúc ngôn ngữ. Tiếng Việt là ngôn ngữ đơn lập, mỗi từ thường có một âm tiết. Việc phân tách từ và xử lý dấu thanh đòi hỏi phương pháp xử lý đặc thù. Nghiên cứu tại các trường đại học Việt Nam đã đóng góp nhiều công trình giá trị cho lĩnh vực này.

1.1. Khái niệm ý định người dùng trong văn bản trực tuyến

Ý định người dùng là mục đích hoặc mong muốn thể hiện qua văn bản trực tuyến. Trong bối cảnh tìm kiếm thông tin, ý định phản ánh nhu cầu cụ thể mà người dùng muốn đáp ứng. Bing Liu đưa ra định nghĩa quan trọng: một quan điểm gồm bốn thành phần là mục tiêu đánh giá, nhận xét, người đánh giá và thời gian. Mỗi thành phần đóng vai trò không thể thiếu trong phân tích. Văn bản trực tuyến tiếng Việt thể hiện ý định qua nhiều hình thức khác nhau. Có thể là câu hỏi cần trả lời, nhận xét về sản phẩm, hoặc mong muốn tìm kiếm thông tin cụ thể. Việc hiểu đúng khái niệm ý định là bước đầu tiên để xây dựng hệ thống phân tích hiệu quả.

1.2. Đặc điểm của văn bản ngắn trực tuyến tiếng Việt

Văn bản ngắn trực tuyến tiếng Việt có nhiều đặc điểm riêng biệt. Độ dài trung bình rất ngắn, thường chỉ từ 1 đến 10 từ. Ngôn ngữ sử dụng thường không chính thức, chứa nhiều từ viết tắt và tiếng lóng. Tiếng Việt có cấu trúc đơn lập, mỗi từ gồm một âm tiết. Việc phân tách từ là bước xử lý quan trọng nhưng đầy thách thức. Nhiều cụm từ có thể hiểu theo nhiều cách khác nhau. Văn bản trực tuyến thường chứa lỗi chính tả phổ biến. Biểu tượng cảm xúc và ký tự đặc biệt xuất hiện thường xuyên. Những yếu tố này tạo ra khó khăn lớn cho các mô hình phân tích tự động.

II. Vấn đề và thách thức phân tích ý định văn bản tiếng Việt

Phân tích ý định từ văn bản ngắn trực tuyến tiếng Việt đối mặt với nhiều vấn đề và thách thức lớn. Thách thức đầu tiên là độ nhập nhằng ngữ nghĩa. Các truy vấn trên trang web thường đa nghĩa. Ý định phụ thuộc nhiều vào ngữ cảnh sử dụng. Cùng một câu có thể mang nhiều ý định khác nhau trong các tình huống khác nhau. Thách thức thứ hai liên quan đến dữ liệu huấn luyện. Việc xây dựng tập dữ liệu chất lượng cho tiếng Việt rất khó khăn. Cần đội ngũ chuyên gia am hiểu cả ngôn ngữ học và công nghệ thông tin để gán nhãn dữ liệu. Thách thức thứ ba là sự đa dạng của ý định người dùng. Ranh giới giữa các loại ý định thường không rõ ràng. Một văn bản có thể chứa nhiều ý định đồng thời. Sự biến đổi nhanh chóng của ngôn ngữ trực tuyến cũng là vấn đề lớn. Xu hướng ngôn ngữ mới liên tục xuất hiện trên mạng xã hội. Mô hình phân tích cần được cập nhật thường xuyên để duy trì độ chính xác.

2.1. Nhập nhằng ngữ nghĩa và đa nghĩa trong văn bản ngắn

Nhập nhằng ngữ nghĩa là vấn đề cốt lõi trong phân tích ý định văn bản ngắn. Một từ hoặc cụm từ có thể mang nhiều nghĩa khác nhau tùy ngữ cảnh. Trong tiếng Việt, vấn đề này càng nghiêm trọng hơn. Nhiều từ có chức năng đa dạng trong câu. Ví dụ, từ 'trắng' có thể là tính từ chỉ màu sắc hoặc trạng từ chỉ kết quả. Văn bản ngắn trực tuyến thường thiếu ngữ cảnh cần thiết. Người dùng viết vắn tắt, bỏ qua nhiều thông tin liên quan. Điều này khiến việc hiểu đúng ý định trở thành bài toán khó khăn. Các mô hình cần khả năng suy luận từ ngữ cảnh hạn chế.

2.2. Thiếu dữ liệu huấn luyện chất lượng cho tiếng Việt

Dữ liệu huấn luyện chất lượng là yếu tố quyết định hiệu quả mô hình học máy. Đối với tiếng Việt, nguồn dữ liệu này còn rất hạn chế so với tiếng Anh. Quá trình gán nhãn đòi hỏi nhiều thời gian và nguồn lực. Cần sự đồng thuận giữa nhiều chuyên gia để đảm bảo tính nhất quán. Mỗi văn bản cần được phân tích kỹ lưỡng để xác định đúng loại ý định. Bộ dữ liệu hiện có thường có quy mô nhỏ và không đa dạng. Chúng chưa phản ánh đầy đủ các loại ý định trong thực tế. Nhiều lĩnh vực chuyên ngành vẫn chưa có dữ liệu huấn luyện phù hợp.

III. Phương pháp và mô hình học máy trong phân tích ý định

Nhiều phương pháp và mô hình học máy đã được áp dụng để phân tích ý định từ văn bản ngắn trực tuyến tiếng Việt. Các phương pháp chia thành hai hướng tiếp cận chính: truyền thống và học sâu. Phương pháp truyền thống sử dụng kỹ thuật phân lớp cổ điển. Các thuật toán như SVM, Naive Bayes và Random Forest được áp dụng rộng rãi. Đặc trưng đầu vào thường được trích xuất thủ công từ văn bản. Phương pháp học sâu sử dụng mạng nơ ron để tự động học đặc trưng. Các mô hình như LSTM, CNN và Transformer cho kết quả vượt trội. Tiến trình phân tích ý định thường gồm ba pha. Pha thứ nhất là tiền xử lý dữ liệu văn bản. Pha thứ hai là trích xuất đặc trưng và xây dựng mô hình. Pha thứ ba là đánh giá và tối ưu hóa kết quả. Đối với tiếng Việt, bước phân tách từ và xử lý dấu thanh rất quan trọng. Sử dụng embedding tiếng Việt giúp cải thiện đáng kể hiệu suất phân tích.

3.1. Kỹ thuật phân lớp và trích xuất đặc trưng văn bản

Kỹ thuật phân lớp là phương pháp cơ bản trong phân tích ý định. Quá trình bao gồm trích xuất đặc trưng và áp dụng thuật toán học máy để phân loại văn bản. Các phương pháp trích xuất phổ biến gồm TF-IDF, Bag-of-Words và Word2Vec. TF-IDF đánh giá tầm quan trọng của từ trong văn bản. Word2Vec tạo biểu diễn vector cho từ dựa trên ngữ cảnh. Đối với văn bản ngắn tiếng Việt, việc chọn đặc trưng phù hợp rất quan trọng. Các đặc trưng cần nắm bắt cả nghĩa từ vựng lẫn cấu trúc câu. Kết hợp nhiều loại đặc trưng thường cho kết quả tốt hơn so với sử dụng đơn lẻ.

3.2. Mạng nơ ron và mô hình học sâu cho phân tích ý định

Mạng nơ ron đã thay đổi cách tiếp cận phân tích ý định từ văn bản ngắn. Các mô hình học sâu tự động học đặc trưng từ dữ liệu thô mà không cần kỹ thuật trích xuất thủ công. Mạng nơ ron hồi quy RNN và biến thể LSTM xử lý tốt chuỗi văn bản. Mạng tích chập CNN trích xuất đặc trưng cục bộ hiệu quả. Kiến trúc Transformer với cơ chế chú ý nắm bắt mối quan hệ dài trong văn bản. Đối với tiếng Việt, mô hình pre-trained PhoBERT mang lại kết quả ấn tượng. Mô hình được huấn luyện trên dữ liệu tiếng Việt lớn, hiểu rõ cấu trúc ngôn ngữ. Việc fine-tune trên bộ dữ liệu chuyên biệt giúp đạt hiệu suất cao.

IV. Kết luận và ứng dụng phân tích ý định văn bản trực tuyến

Phân tích ý định từ văn bản ngắn trực tuyến tiếng Việt là lĩnh vực có ý nghĩa khoa học và thực tiễn lớn. Kết quả nghiên cứu có thể ứng dụng trong nhiều hệ thống thông minh. Ứng dụng đầu tiên là cải thiện công cụ tìm kiếm. Hiểu đúng ý định giúp hệ thống trả về kết quả phù hợp hơn. Người dùng nhận được thông tin chính xác mà không cần tìm kiếm nhiều lần. Ứng dụng thứ hai là phân tích cảm xúc và đánh giá sản phẩm. Doanh nghiệp hiểu rõ phản hồi của khách hàng từ bình luận trực tuyến. Từ đó đưa ra chiến lược kinh doanh phù hợp. Ứng dụng thứ ba là hệ thống hỏi đáp tự động. Chatbot và trợ lý ảo cần hiểu ý định để trả lời đúng. Nghiên cứu về phân tích ý định tiếng Việt vẫn còn nhiều hướng phát triển. Kết hợp đa phương thức và đa ngôn ngữ là xu hướng mới. Áp dụng mô hình ngôn ngữ lớn mở ra nhiều cơ hội cải thiện hiệu suất phân tích.

4.1. Ứng dụng trong hệ thống tìm kiếm và gợi ý thông tin

Hệ thống tìm kiếm là ứng dụng trực tiếp nhất của phân tích ý định. Khi hiểu mục đích tìm kiếm, công cụ sắp xếp kết quả theo mức độ liên quan. Ba loại ý định chính được sử dụng để phân loại truy vấn: định hướng, thông tin và giao dịch. Truy vấn định hướng dẫn người dùng đến trang web cụ thể. Truy vấn thông tin tìm kiếm tri thức về chủ đề. Truy vấn giao dịch hướng đến hành động mua hàng hoặc đăng ký. Áp dụng phân loại này vào hệ thống tìm kiếm tiếng Việt giúp cải thiện trải nghiệm người dùng đáng kể. Các hệ thống gợi ý nội dung cũng sử dụng phân tích ý định để đề xuất bài viết và video phù hợp.

4.2. Hướng phát triển tương lai và tiềm năng nghiên cứu

Nghiên cứu phân tích ý định từ văn bản ngắn tiếng Việt còn nhiều hướng phát triển tiềm năng. Một hướng quan trọng là xây dựng bộ dữ liệu chuẩn hóa lớn cho tiếng Việt. Hướng khác là áp dụng mô hình ngôn ngữ lớn LLM vào phân tích ý định. Các mô hình có khả năng hiểu ngữ cảnh sâu sắc. Fine-tune trên dữ liệu tiếng Việt sẽ nâng cao hiệu suất đáng kể. Kết hợp phân tích đa phương thức là xu hướng mới. Văn bản được phân tích cùng hình ảnh và âm thanh để hiểu ý định toàn diện. Liên kết đa ngôn ngữ giúp tận dụng dữ liệu từ nhiều nguồn khác nhau. Phân tích ý định thời gian thực trên mạng xã hội mở ra nhiều ứng dụng mới.

Tóm tắt và mô tả trên trang này được tạo với sự hỗ trợ của AI từ nội dung tài liệu gốc; tài liệu do người dùng đóng góp và được kiểm duyệt trước khi xuất bản. Báo lỗi nội dung.

22/04/2026

Bạn đang xem trước tài liệu:

Luận án ts phân tích ý định từ văn bản ngắn trực tuyến tiếng việt

Tải đầy đủ

Trích đoạn nội dung tài liệu

phần Mở đầu, luận án chỉ tập trung xác định ý định trong các văn bản trực tuyến dưới dạng các bài đăng/bình luận được người dùng của các phương tiện truyền thông xã hội đăng lên. Hay nói cách khác Chương 1. Giới thiệu tổng quan 13 người viết các bài đăng chính là người dùng các phương tiện truyền thông xã hội. Hơn nữa, trong tất cả các nghiên cứu đã công bố trên thế giới về phân tích và hiểu ý định mà tác giả đã tham khảo, khái niệm user intent hay user intention, tức là ý định người dùng đều được dùng để chỉ ý định của người viết.

Do đó trong phạm vi luận án này, khái niệm ý định người viết và ý định người dùng được sử dụng với ý nghĩa và mục đích tương đương nhau. Bên cạnh đó để cho ngắn gọn, đôi khi khái niệm văn bản trực tuyến trong luận án còn được viết là bài đăng. Cũng giống như văn bản, văn bản trực tuyến cũng có thể mang ý định rõ của người dùng, hoặc mang ý định ẩn của người dùng, hoặc không mang ý định nào.1 dưới đây đưa ra ví dụ về một văn bản trực tuyến mang ý định rõ, một văn bản trực tuyến mang ý định ẩn và một văn bản trực tuyến không mang ý định của người dùng. Trong đó, với văn bản trực tuyến mang ý định rõ, người đọc có thể xác định ngay ý định của người dùng là thuê - nhà, với một số tiêu chí như ở khu vực Phương Mai, Bách Khoa, giá khoảng 3 triệu.

Còn với văn bản trực tuyến mang ý định ẩn, người đọc có thể suy diễn ra ý định của người dùng là mua - ô tô, hoặc cũng có thể là thuê - ô tô. Cuối cùng, với văn bản trực tuyến không mang ý định thì có thể thấy ngay là người dùng không thể hiện một ý định cụ thể nào mà đơn giản chỉ là tư vấn cho một ai đó.1: Ví dụ về văn bản trực tuyến chứa và không chứa ý định Loại ý định Văn bản trực tuyến trên các phương tiện truyền thông xã hội Việt Nam “Tình hình là mình đang cần thuê nhà quanh khu vực Phương Mai, Bách Khoa hoặc Tôn Thất Tùng cho 3 người lớn và 1 cháu nhỏ. Ý định rõ (EI) Tầm tiền khoảng 3 triệu. Bạn nào có thông tin gì xin liên lạc với mình theo số 0905231880.

Cảm ơn nhiều !” Ý định ẩn (II) “Xe ô tô 7 chỗ thì loại nào tốt nhỉ ?” Không mang “Với số tiền đó thì bạn khó mà mua được nhà ở khu vực Cầu Giấy” ý định (NI) Việc khảo sát trên các phương tiện truyền thông xã hội ở Việt Nam cho thấy số lượng các bài đăng không mang ý định và mang ý định ẩn nhiều hơn rất nhiều lần so với số lượng bài đăng mang ý định rõ. Tương tự, trong một nghiên cứu của B. Hollerit và cộng sự (2013) [40], nhóm tác giả cũng đưa ra một thống kê về các bài đăng mang ý định “mua bán” trên mạng xã Chương 1. Giới thiệu tổng quan 14 hội Twitter, ở đó trong số 120 bài đăng thu thập được thì có 81 bài mang ý định ẩn và chỉ có 39 bài mang ý định rõ.

Trong khuôn khổ của luận án này tác giả chỉ tập trung xác định ý định của người dùng trong những văn bản mang ý định rõ. Việc xác định ý định người dùng trong những văn bản trực tuyến mang ý định ẩn tuy cũng có những giá trị nhất định của nó nhưng do tính chất phức tạp của loại văn bản này, tác giả sẽ tiếp tục nghiên cứu chúng trong tương lai. Bởi vậy từ đây cho đến cuối luận án tác giả sẽ gọi các đoạn văn bản trực tuyến mang ý định rõ là những văn bản có chứa ý định của người dùng, còn những văn bản mang ý định ẩn được tạm xếp vào cùng lớp với các văn bản không mang ý định.3 Phân tích ý định: bối cảnh khoa học Bài toán Phân tích và xác định ý định là một nhánh của hướng nghiên cứu Nhận biết kế hoạch, hành động, ý định [95] (Plan, activity, intent recognition), một hướng nghiên cứu đã bắt đầu từ khoảng 35 năm về trước. Công bố khoa học đầu tiên về nhận biết kế hoạch là của nhóm Schmidt, Sridharan, and Goodson vào năm 1978 [90].

Sau đó, trong mười năm gần đây, hướng nghiên cứu này đã đạt được nhiều tiến bộ, đặc biệt là trong lĩnh vực trí tuệ nhân tạo và những lĩnh vực liên quan. Trong đó, phải kể đến ba yếu tố chính làm nên sự tiến bộ này là: (1) nhu cầu bức thiết về một hệ thống nhận biết kế hoạch tinh vi và hiệu quả cho rất nhiều các ứng dụng khác nhau; (2) sự phát triển về kỹ thuật của các thuật toán trong các mô hình xác suất, mô hình học máy, mô hình tối ưu; (3) dữ liệu về các hoạt động của con người ngày càng nhiều và có thể thu thập dễ dàng. Theo nhận định của Chen và cộng sự (2002) [20], có hai cách tiếp cận chính để giải quyết bài toán xác định ý định người dùng trên các phương tiện truyền thông xã hội trực tuyến: (1) Dựa vào các hành vi, hồ sơ của người dùng tham gia trên các phương tiện truyền thông trực tuyến như nhấn chọn liên kết (click the hyperlinks), lịch sử đăng nhập (login), lưu trang, đóng trình duyệt, tải dữ liệu (download); (2) Dựa vào các đặc trưng ngữ nghĩa, cú pháp, từ vựng của những bài đăng dưới dạng văn bản của người dùng. Những nghiên cứu đầu tiên về hiểu ý định hay xác định mục tiêu của người dùng hầu hết đi theo hướng tiếp cận (1), điển hình như Ashkan và cộng sự (2008) [2], Broder và cộng sự (2002)[12], Chen và cộng sự (2002) [20], Kiseleva và cộng Chương 1.

Giới thiệu tổng quan 15 sự [58], Lee và cộng sự (2005) [63], Li và cộng sự (2008) [66], Radlinski và cộng sự (2010) [82], Speretta và cộng sự (2004) [94], Shen và cộng sự (2011) [91]. Khi có sự xuất hiện của mạng xã hội như facebook (2004), twitter (2006), dữ liệu dưới dạng văn bản như các bài đăng của người dùng (post, comment, tweet) tăng đáng kể, vì vậy hướng tiếp cận (2) cũng phát triển mạnh hơn và đã đạt được những kết quả đáng ghi nhận. Trong đó phải kể đến một số nghiên cứu điển hình như Ashkan và cộng sự (2009) [3], Castellanos và cộng sự (2012) [16], Chang và cộng sự (2006) [18], Chen và cộng sự (2013) [21], Ding và cộng sự (2015)[26], Gupta và cộng sự (2014) [35], Hollerit và cộng sự (2013) [40], Kozareva và cộng sự (2016) [59], Kroll và cộng sự (2009) [60], Labidi và cộng sự (2018) [65], Li (2010) [67], Nobari và cộng sự (2014) [76], Wang và cộng sự (2015) [97], Zhang và cộng sự (2016) [103], Zhang và cộng sự (2017) [104]. Bên cạnh đó, một số bài báo kết hợp cả 2 hướng tiếp cận (1),(2) để có thể đạt được kết quả tốt hơn, điển hình là một số nghiên cứu của Baeza-Yates và cộng sự (2006) [4], Jansen và cộng sự (2007) [48], Hu và cộng sự (2008) [41], Li và cộng sự (2008) [66], Kathuria và cộng sự (2010) [53], Purohit và cộng sự (2015) [81].

Luận án “Phân tích ý định từ văn bản ngắn, trực tuyến tiếng Việt” hướng tới cách tiếp cận thứ (2), tức là xác định ý định thông qua các văn bản trực tuyến (post, comment, tweet) được đăng trên các phương tiện truyền thông xã hội. Qua khảo sát những nghiên cứu khoa học tiếp cận theo hướng (2), luận án nhận thấy rằng hầu hết các tác giả tập trung mô hình hóa bài toán xác định ý định người dùng về bài toán phân lớp nhị phân hoặc phân lớp đa lớp, điển hình như Chen và cộng sự (2013) [21], Dai và cộng sự (2006) [24], Ding và cộng sự (2015) [26], Gupta và cộng sự (2014) [35], Hashemi và cộng sự (2016) [37], Hollerit và cộng sự (2013) [40],Jethava và cộng sự (2011) [50], Wang và cộng sự (2015) [97]. Với phương pháp này, các tác giả hướng tới mục tiêu xác định xem ý định của người dùng thuộc vào lĩnh vực nào, ví dụ như mua sắm, du lịch, tìm hiểu tri thức, xe cộ. Tuy vậy, theo nhận định của Li (2010) [67] : “việc xác định ý định của người dùng không chỉ đơn giản là xác định lớp ngữ nghĩa hay lĩnh vực mà ý định đó thuộc vào mà còn phải hiểu được cấu trúc ngữ nghĩa trong bài đăng Chương 1.

Giới thiệu tổng quan 16 của người dùng”. Phương pháp tiếp cận của Li sẽ được trình bày cụ thể ngay trong phần 1. Có thể thấy cách tiếp cận này giúp hệ thống hiểu sâu hơn, nắm được nhiều thông tin hơn về ý định của người dùng. Tuy nhiên cho đến nay số lượng những nghiên cứu hướng đến việc phân tích, hiểu cấu trúc ngữ nghĩa hay trích xuất thông tin từ các bài đăng trực tuyến đang còn rất khiêm tốn, một số nghiên cứu điển hình là: Castellanos và cộng sự (2012) [16], Chang và cộng sự (2006) [18], Labidi và cộng sự (2018)[65], Li (2010) [67], Nobari và cộng sự (2014) [76], Zhang và cộng sự (2017) [104].

Các nghiên cứu theo hướng tiếp cận phân tích và xác định ý định từ các văn bản truyền thông xã hội trực tuyến bao gồm ba nhánh nghiên cứu chính: (i) Phân tích và xác định ý định trong truy vấn tìm kiếm (search query); (ii) Phân tích và xác định ý định trong ngôn ngữ nói (spoken language); (iii) Phân tích và xác định ý định trong bài đăng/bình luận (post/comment/tweet).1 Phân tích và xác định ý định từ truy vấn tìm kiếm Theo khảo sát, việc xác định ý định người dùng được quan tâm từ đầu những năm 2000 và mới đầu chỉ tập trung xác định mục tiêu (goal) của người dùng từ các truy vấn trên các máy tìm kiếm (search engine) hay các hệ thống hỏi đáp cộng đồng (community question answering). Hu (2009) [42] truy vấn có một số đặc điểm sau: 1. Các truy vấn thường rất ngắn, khoảng 93% số truy vấn có độ dài nhỏ hơn 4 từ (term); 2. Các truy vấn trên các trang Web thường đa nghĩa, nên rất nhập nhằng; 3.

Ý định của các truy vấn thường rất đa dạng, phụ thuộc nhiều vào ngữ cảnh. Chính vì vậy, các nghiên cứu đầu tiên về xác định ý định người dùng từ các truy vấn thường đi theo hướng tiếp cận dựa vào các hành vi, hồ sơ của người dùng tham gia trên các phương tiện truyền thông trực tuyến như nhấn chọn liên kết (click the hyperlinks), lịch sử đăng nhập (login), lưu trang, đóng trình duyệt, tải dữ liệu (download). Một trong những công bố đầu tiên và trở thành cơ sở tham chiếu cho nhiều nghiên cứu về xác định ý định người dùng từ các truy vấn là của tác giả Broder (2002) [12]. Ông đã đề xuất phân Chương 1.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận án tiến sĩ: Phân tích ý định từ văn bản ngắn trực tuyến tiếng Việt

I. Tổng quan về phân tích ý định văn bản ngắn trực tuyến tiếng Việt

1.1. Khái niệm ý định người dùng trong văn bản trực tuyến

1.2. Đặc điểm của văn bản ngắn trực tuyến tiếng Việt

II. Vấn đề và thách thức phân tích ý định văn bản tiếng Việt

2.1. Nhập nhằng ngữ nghĩa và đa nghĩa trong văn bản ngắn

2.2. Thiếu dữ liệu huấn luyện chất lượng cho tiếng Việt

III. Phương pháp và mô hình học máy trong phân tích ý định

3.1. Kỹ thuật phân lớp và trích xuất đặc trưng văn bản

3.2. Mạng nơ ron và mô hình học sâu cho phân tích ý định

IV. Kết luận và ứng dụng phân tích ý định văn bản trực tuyến

4.1. Ứng dụng trong hệ thống tìm kiếm và gợi ý thông tin

4.2. Hướng phát triển tương lai và tiềm năng nghiên cứu

THÔNG TIN CHI TIẾT

Người hướng dẫn: PGS. Phan Xuân Hiếu

Trường học: Trường Đại học Công nghệ

Chuyên ngành: Công nghệ Thông tin

Đề tài: Phân tích ý định từ văn bản ngắn trực tuyến tiếng Việt

Loại tài liệu: Luận án tiến sĩ

Luận án tiến sĩ: Phân tích ý định từ văn bản ngắn trực tuyến tiếng Việt

I. Tổng quan về phân tích ý định văn bản ngắn trực tuyến tiếng Việt

1.1. Khái niệm ý định người dùng trong văn bản trực tuyến

1.2. Đặc điểm của văn bản ngắn trực tuyến tiếng Việt

II. Vấn đề và thách thức phân tích ý định văn bản tiếng Việt

2.1. Nhập nhằng ngữ nghĩa và đa nghĩa trong văn bản ngắn

2.2. Thiếu dữ liệu huấn luyện chất lượng cho tiếng Việt

III. Phương pháp và mô hình học máy trong phân tích ý định

3.1. Kỹ thuật phân lớp và trích xuất đặc trưng văn bản

3.2. Mạng nơ ron và mô hình học sâu cho phân tích ý định

IV. Kết luận và ứng dụng phân tích ý định văn bản trực tuyến

4.1. Ứng dụng trong hệ thống tìm kiếm và gợi ý thông tin

4.2. Hướng phát triển tương lai và tiềm năng nghiên cứu

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Người hướng dẫn: PGS. Phan Xuân Hiếu

Trường học: Trường Đại học Công nghệ

Chuyên ngành: Công nghệ Thông tin

Đề tài: Phân tích ý định từ văn bản ngắn trực tuyến tiếng Việt

Loại tài liệu: Luận án tiến sĩ

Có thể bạn quan tâm