I. Tổng Quan Nghiên Cứu Học Xếp Hạng Đối Tượng Ứng Dụng LTR
Nghiên cứu về xếp hạng đối tượng đóng vai trò quan trọng trong khai phá dữ liệu, đặc biệt trong các ứng dụng như máy tìm kiếm. Phương pháp tính hạng đã được nghiên cứu từ lâu, nhưng gần đây, việc sử dụng học máy để xếp hạng đối tượng (Learning to Rank - LTR) thu hút sự quan tâm lớn. Các hội thảo chuyên đề về học xếp hạng đã được tổ chức, cho thấy sự quan trọng của lĩnh vực này. Học xếp hạng đang được các nhà khoa học trên thế giới nghiên cứu và ứng dụng rộng rãi. Luận văn này thực hiện khảo sát và phân tích các phương pháp học xếp hạng hiện nay, từ đó đề xuất mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể trong tiếng Việt và tạo nhãn cho cụm tài liệu. Qua đó, thể hiện ứng dụng to lớn và ý nghĩa quan trọng của bài toán học xếp hạng. [Trích dẫn từ luận văn]
1.1. Vai Trò Của Xếp Hạng Đối Tượng Trong Khai Phá Dữ Liệu
Xếp hạng đối tượng có ý nghĩa quan trọng trong lĩnh vực khai phá dữ liệu, là trung tâm của nhiều ứng dụng, điển hình là máy tìm kiếm. Các phương pháp tính hạng được nghiên cứu và phát triển từ rất nhiều năm trước. Khoảng 3 năm trở lại đây, hướng tiếp cận sử dụng phương pháp học máy để xếp hạng đối tượng trở thành một vấn đề thu hút được rất nhiều sự quan tâm. Học xếp hạng đang được nhiều nhà khoa học trên thế giới quan tâm nghiên cứu và ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm của nhóm Yuehua Xu tại ICML năm 2007.
1.2. Mục Tiêu Nghiên Cứu Xếp Hạng Thực Thể và Tạo Nhãn Cụm
Luận văn Học xếp hạng trong tính hạng đối tượng và tạo nhãn cụm tài liệu thực hiện khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiện nay và từ đó đưa ra mô hình xếp hạng thực thể áp dụng vào máy tìm kiếm thực thể trong tiếng Việt. Cụ thể là tìm kiếm thực thể thuốc và học xếp hạng để tạo nhãn cho cụm tài liệu. Qua đó cho thấy ứng dụng to lớn và ý nghĩa quan trọng của bài toán học xếp hạng.
II. Thách Thức Giải Pháp Học Xếp Hạng Đối Tượng Cách Tiếp Cận
Xếp hạng các đối tượng (trang Web, tác giả, chủ đề, trường đại học, công ty...) có ý nghĩa quan trọng trong lĩnh vực khai phá dữ liệu, là trung tâm của nhiều ứng dụng - điển hình là máy tìm kiếm. Các phương pháp tính hạng được nghiên cứu và phát triển từ rất nhiều năm trước, nhưng khoảng 3 năm trở lại đây, hướng tiếp cận sử dụng phương pháp học máy để xếp hạng đối tượng trở thành một vấn đề thu hút được rất nhiều sự quan tâm. Học xếp hạng đang được nhiều nhà khoa học trên thế giới quan tâm nghiên cứu và ứng dụng, như cải tiến hàm tính hạng trong máy tìm kiếm của nhóm Yuehua Xu tại ICML năm 2007. [Trích dẫn từ luận văn]
2.1. Bài Toán Xếp Hạng Từ Trang Web Đến Đối Tượng Đa Dạng
Khái niệm xếp hạng (ranking) ra đời ban đầu với định hướng xếp hạng các đối tượng trên Web - cụ thể là các trang web. Các trang web cần được sắp xếp theo độ quan trọng giảm dần. Giá trị độ quan trọng đó gọi là hạng trang và PageRank là phương pháp tính hạng đầu tiên, tính hạng trang các trang web dựa vào phân tích mối liên kết giữa các trang web trong đồ thị web.
2.2. Vấn Đề Xác Định Hàm Tính Hạng Yếu Tố Quyết Định Chất Lượng
Việc xác định hàm tính hạng đóng vai trò quan trọng và quyết định đối với chất lượng của máy tìm kiếm. Từ những năm 98, Cohen[18] đã đưa ra nhận định rằng có nhiều ứng dụng cần sắp xếp các đối tượng hơn là cần phân lớp chúng. Mọi ứng dụng mà kết quả trả về cho người dùng là một danh sách các đối tượng cần được sắp xếp, xếp hạng giúp người dùng nhanh chóng tiếp cận với kết quả gần với yêu cầu của mình nhất có thể.
III. Phương Pháp Học Xếp Hạng Hướng Dẫn Chi Tiết Cách Thực Hiện LTR
Các nghiên cứu về học xếp hạng chủ yếu tập trung vào ứng dụng xếp hạng các tài liệu trả về từ máy tìm kiếm dự theo truy vấn. Tổng quát bài toán xếp hạng đối tượng nói chung, ta có: tập các đối tượng X ⊂ R củ các đối tượng x =( x ,.,x ) ∈ R , với n là số đặc trưng của đối tượng. Cần tìm hàm f ( x ): X → R để sắp xếp các đối tượng x theo độ phù hợp. Tùy từng ứng dụng, người dùng có cách xác định độ phù hợp khác nhau.
3.1. HồI Quy Có Thứ Tự Ordinal Regression Trong LTR Tổng Quan
Trong phương pháp hồi quy có thứ tự (ordinal regression), tập dữ dữ liệu học là các bộ S = { ( x ,y ) } với y ∈ 1 , 2 ,.R là một tập sắp thứ tự, cần học hàm h ( x ) thỏa mãn: Với mọi cặp ( x ,y ) và ( x ,y ) thuộc S thì y >y ⇔ h ( x ) >h ( x ) Gọi P là tập hợp tất cả các cặp ( i,j ) mà nhãn của x lớn hơn của x : P = { ( i,j ): y >y } và | P | = m .Herbrich[27] đã dựa vào phương pháp SVM của Joachims[30] đưa ra tối ưu trong hồi quy thứ tự gọi là ordinal regression SVM (OR-SVM).
3.2. Pairwise Ranking So Sánh Cặp Đối Tượng Để Xếp Hạng
f ( x ) thỏa mãn với ∀ ( x ,x ) : nếu x ≺ x thì f ( x ) <f ( x ). Gọi P là tập hợp tất cả các cặp ( i,j ) mà nhãn của x lớn hơn của x : P = { ( i,j ): y >y } và | P | = m .Herbrich[27] đã dựa vào phương pháp SVM của Joachims[30] đưa ra tối ưu trong hồi quy thứ tự gọi là ordinal regression SVM (OR-SVM): min 1 2 w w + C m ξ Với ∀ ( i,j ) ∈ P :( w x ) ≥ ( w x )+1 − ξ Thuật toán SVM với tối ưu này tìm hàm h ( x ) tuyến tính tức tìm siêu phẳng tốt nhất mà làm cực tiểu số cặp dữ liệu học phải hoán đổi vị trí trong sắp xếp được ra.
3.3. Listwise Ranking Học Xếp Hạng Từ Danh Sách Hoàn Chỉnh
Với các ứng dụng xếp hạng, như xếp hạng các trang web trả về cho người dùng trong máy tìm kiếm, người dùng nhận được danh sách các kết quả được sắp xếp theo thứ tự độ phù hợp giảm dần thay vì so sánh thứ hạng của mỗi cặp kết quả. Và do chỉ xét từng cặp đối tượng để so sánh nên phương pháp Pairwise không tối ưu các độ đo đánh giá chất lượng xếp hạng ví dụ như MAP. Do vậy thay vì chuyển bài toán xếp hạng về bài toán hồi quy và phần lớp, học xếp hạng từ danh sách sắp thứ hạng đã được các tác giả[58,10,9,46] quan tâm.
IV. Mô Hình Máy Tìm Kiếm Thực Thể Ứng Dụng Học Xếp Hạng
Các máy tìm kiếm thông dụng hiện nay như Google, Yahoo, MSN, truy vấn người dùng đưa vào là tập các từ khóa và kết quả trả về là danh sách các địa chỉ tới các trang web. Do vậy để nhận được thông tin mong muốn, người dùng phải duyệt qua từng địa chỉ web đó, và có thể phải duyệt qua nhiều trang không có thông tin mong muốn. Với sự phát triển của các kỹ thuật rút trích thông tin (Information Extraction - IE) cụ thể là rút trích các thực thể, hướng phát triển máy tìm kiếm thực thể đã được Kevin Chang và các cộng sự[15,16,17] nghiên cứu, xây dựng.
4.1. So Sánh Máy Tìm Kiếm Truyền Thống và Máy Tìm Kiếm Thực Thể
Truy vấn của người dùng trên máy tìm kiếm thực thể không đơn thuần là các từ khóa mà người dùng xác định rõ hơn về loại đối tượng dữ liệu đang muốn tìm và ngữ cảnh tìm kiếm. Kết quả trả về cho người dùng thay vì chỉ là các địa chỉ web, người dùng còn nhận được các thông tin cụ thể về đối tượng mình mong muốn tìm kiếm. Cũng như với máy tìm kiếm thông thường xếp hạng là vấn đề quan trọng, xếp hạng thực thể là cốt lõi và quan trọng của máy tìm kiếm thực thể.
4.2. Xử Lý Truy Vấn và Xếp Hạng Thực Thể Quy Trình Chi Tiết
Module thực hiện nhận truy vấn người dùng, gửi truy vấn cho modul xử lý cục bộ, sau đó đợi kết quả trả về từ modul xử lý cục bộ. Sau khi nhận được tất cả các trọng số cục bộ, modul tiến hành tổng hợp trọng số cho từng bộ thực thể t , kết hợp trọng số cục bộ với trọng số xác định cho t trên toàn tập tài liệu để có giá trị Score cuối cùng cho xếp hạng.
V. Gán Nhãn Cụm Tài Liệu Hướng Dẫn Cách Ứng Dụng Học Xếp Hạng
Vấn đề gán nhãn cho cụm tài liệu là một bước quan trọng trong nhiều ứng dụng phân cụm tài liệu. Mục tiêu là tìm ra một hoặc một vài từ khóa, cụm từ đại diện tốt nhất cho nội dung của một cụm tài liệu. Các phương pháp gán nhãn truyền thống thường dựa trên thống kê từ, chẳng hạn như chọn các từ có tần suất xuất hiện cao nhất trong cụm. Tuy nhiên, các phương pháp này thường bỏ qua ngữ cảnh và ngữ nghĩa của từ, dẫn đến chất lượng nhãn không cao.
5.1. Thách Thức Trong Gán Nhãn Cụm Tài Liệu Ngữ Cảnh và Ngữ Nghĩa
Các phương pháp gán nhãn truyền thống thường dựa trên thống kê từ, chẳng hạn như chọn các từ có tần suất xuất hiện cao nhất trong cụm. Tuy nhiên, các phương pháp này thường bỏ qua ngữ cảnh và ngữ nghĩa của từ, dẫn đến chất lượng nhãn không cao. Để gán nhãn hiệu quả, cần phải xem xét mối quan hệ giữa các từ trong cụm, cũng như ý nghĩa của chúng trong ngữ cảnh cụ thể.
5.2. Học Xếp Hạng Để Gán Nhãn Phương Pháp Tiếp Cận Mới
Học xếp hạng có thể được sử dụng để giải quyết vấn đề gán nhãn cụm tài liệu bằng cách xếp hạng các từ khóa tiềm năng dựa trên độ phù hợp của chúng với nội dung của cụm. Để làm được điều này, cần xây dựng một mô hình học xếp hạng được huấn luyện trên một tập dữ liệu các cụm tài liệu và nhãn tương ứng. Mô hình này sẽ học cách dự đoán độ phù hợp của một từ khóa với một cụm tài liệu, từ đó giúp chọn ra các từ khóa tốt nhất để gán nhãn.
VI. Đánh Giá Tương Lai Nghiên Cứu Học Xếp Hạng Tạo Nhãn Cụm
Xếp hạng là một bài toán phổ biến, có ý nghĩa quan trọng và có nhiều ứng dụng trong thực tế. Vấn đề học xếp hạng là vấn đề thời sự đang nhận được nhiều sự quan tâm của các nhà khoa học. Hướng tiếp cận bài toán học xếp hạng đã được giới thiệu trong chương này. Các chương sau tiếp tục làm rõ hơn về bài toán học xếp hạng và ứng dụng vào xếp hạng thực thể trong máy tìm kiếm thực thể, và bài toán gán nhãn cụm tài liệu.
6.1. Tổng Kết Nghiên Cứu Các Phương Pháp Học Xếp Hạng Hiện Nay
Chương này đã giới thiệu chung về các phương pháp học xếp hạng hiện nay và hai phương pháp học xếp hạng SVM-MAP, RankSVM được đề cập. Đó là hai phương pháp được áp dụng vào hai ứng dụng học xếp hạng được trình bày ở chương sau.
6.2. Hướng Nghiên Cứu Tương Lai Phát Triển Mô Hình Học Xếp Hạng
Tiếp tục nghiên cứu và phát triển các mô hình học xếp hạng mới, đặc biệt là các mô hình có khả năng xử lý dữ liệu lớn và đa dạng. Nghiên cứu các phương pháp kết hợp nhiều nguồn thông tin khác nhau để cải thiện chất lượng xếp hạng. Áp dụng học xếp hạng vào nhiều lĩnh vực khác nhau, chẳng hạn như xếp hạng sản phẩm, xếp hạng tin tức, xếp hạng phim ảnh.