Luận văn thạc sĩ ứng dụng thuật toán máy vector hỗ trợ trong phân loại thông tin văn bản trên hệ thống website tuyển dụng

Luận văn thạc sĩ toán học phân tích ứng dụng thuật toán máy vector hỗ trợ trong phân loại thông tin văn bản trên hệ thống website tuyển, đánh giá thực trạng, chỉ ra hạn chế, đề

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2016

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CÁM ƠN

1. MỞ ĐẦU

1.1. Tính cấp thiết của đề tài

1.2. Tổng quan về vấn đề nghiên cứu

1.3. Mục đích, đối tượng, phạm vi và phương pháp nghiên cứu

1.4. Cấu trúc luận văn

2. CHƯƠNG 1: BÀI TOÁN PHÂN LOẠI VĂN BẢN

2.1. Phát biểu bài toán phân loại văn bản

2.2. Một số phương pháp phân loại văn bản

2.2.1. Thuật toán K–Nearest Neighbor (kNN)

2.2.2. Thuật toán cây quyết định (Decision tree)

2.2.3. Thuật toán SVM (Support vector machine)

2.2.4. Thuật toán Naïve Bayes

2.3. Các mô hình biểu diễn văn bản

2.3.1. Mô hình Boolean

2.3.2. Mô hình không gian vector

2.3.3. Mô hình xác suất (Mô hình túi các từ)

2.4. Lựa chọn đặc trưng trong biểu diễn văn bản

2.4.1. Thu gọn đặc trưng biểu diễn

2.4.2. Định luật Zipf

2.5. Phương pháp đánh trọng số cho từ khóa

2.5.1. Phương pháp boolean

2.5.2. Phương pháp dựa trên tần số

3. CHƯƠNG 2: ÁP DỤNG SVM VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN

3.1. Thu thập và tiền xử lý văn bản

3.1.1. Thu thập địa chỉ trang web URL

3.1.2. Lọc nội dung chính của trang web

3.2. Tiền xử lý văn bản

3.3. Trình bày chi tiết thuật toán Máy vector hỗ trợ SVM

3.3.1. Giới thiệu thuật toán

3.3.2. Ý tưởng thuật toán

3.3.3. Phân loại đa lớp nội dung văn bản với SVM

3.4. Các tham số của SVM

4. CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ

4.1. Xây dựng bộ dữ liệu và tiền xử lý văn bản

4.2. Giai đoạn phân lớp

4.3. Đánh giá

DANH MỤC TÀI LIỆU THAM KHẢO

DANH MỤC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG BIỂU

DANH MỤC CÁC HÌNH VẼ

Tóm tắt

I. Giới thiệu về thuật toán máy vector

Thuật toán máy vector hỗ trợ (SVM) là một trong những phương pháp phân loại văn bản hiệu quả nhất hiện nay. SVM hoạt động dựa trên nguyên lý tìm kiếm một siêu phẳng tối ưu để phân chia các lớp dữ liệu trong không gian vector. Điều này giúp cho việc phân loại văn bản trở nên chính xác hơn, đặc biệt trong các bài toán phân loại phi tuyến. Theo nghiên cứu của Yang & Xiu, SVM đã chứng minh được khả năng phân loại tốt trong nhiều ứng dụng khác nhau, từ nhận dạng chữ viết tay đến phân loại văn bản. Việc áp dụng SVM trong phân loại thông tin văn bản trên website tuyển dụng không chỉ giúp tiết kiệm thời gian mà còn nâng cao độ chính xác trong việc tìm kiếm thông tin việc làm. Như vậy, SVM không chỉ là một công cụ mạnh mẽ trong lĩnh vực học máy mà còn có giá trị thực tiễn cao trong việc xử lý và phân tích dữ liệu văn bản.

1.1. Nguyên lý hoạt động của SVM

Nguyên lý hoạt động của SVM dựa trên việc ánh xạ dữ liệu vào không gian vector và tìm kiếm siêu phẳng tối ưu. Siêu phẳng này sẽ phân chia các lớp dữ liệu khác nhau với khoảng cách lớn nhất giữa các điểm dữ liệu gần nhất của mỗi lớp. Điều này có nghĩa là SVM không chỉ tìm kiếm một cách phân loại đơn giản mà còn tối ưu hóa khoảng cách giữa các lớp, từ đó nâng cao độ chính xác của việc phân loại. Theo nghiên cứu, SVM có khả năng xử lý tốt các bài toán phân loại với dữ liệu lớn và phức tạp, điều này rất phù hợp với việc phân loại thông tin trên các website tuyển dụng, nơi mà khối lượng dữ liệu là rất lớn và đa dạng.

II. Phân loại văn bản trên website tuyển dụng

Phân loại văn bản trên website tuyển dụng là một bài toán quan trọng trong việc tìm kiếm thông tin việc làm. Với sự phát triển của công nghệ thông tin, việc thu thập và phân loại thông tin từ các website tuyển dụng trở nên cần thiết hơn bao giờ hết. Phân loại văn bản giúp người dùng dễ dàng tìm kiếm thông tin việc làm phù hợp với nhu cầu của họ. Việc áp dụng SVM trong phân loại văn bản trên website tuyển dụng không chỉ giúp tự động hóa quá trình phân loại mà còn nâng cao hiệu quả tìm kiếm. Theo nghiên cứu, việc sử dụng SVM cho phép phân loại các thông tin việc làm theo nhiều lĩnh vực khác nhau, từ đó giúp người tìm việc có thể dễ dàng tiếp cận thông tin phù hợp. Điều này không chỉ tiết kiệm thời gian mà còn nâng cao trải nghiệm người dùng trên các nền tảng tuyển dụng.

2.1. Quy trình phân loại thông tin

Quy trình phân loại thông tin trên website tuyển dụng bao gồm nhiều bước quan trọng. Đầu tiên, cần thu thập dữ liệu từ các trang web tuyển dụng, sau đó tiến hành tiền xử lý văn bản để loại bỏ các thông tin không cần thiết. Tiếp theo, dữ liệu sẽ được chuyển đổi thành dạng vector để có thể áp dụng SVM cho việc phân loại. Cuối cùng, kết quả phân loại sẽ được hiển thị cho người dùng, giúp họ dễ dàng tìm kiếm thông tin việc làm. Việc áp dụng quy trình này không chỉ giúp nâng cao độ chính xác trong việc phân loại mà còn tạo ra một hệ thống thông tin hiệu quả cho người tìm việc.

III. Đánh giá và thử nghiệm

Đánh giá và thử nghiệm là bước quan trọng trong việc xác định hiệu quả của thuật toán SVM trong phân loại thông tin văn bản. Các bộ dữ liệu huấn luyện và kiểm thử sẽ được xây dựng để kiểm tra độ chính xác của mô hình. Kết quả thử nghiệm cho thấy SVM có khả năng phân loại chính xác cao, đặc biệt trong các bài toán phân loại văn bản phức tạp. Việc đánh giá này không chỉ giúp xác định hiệu quả của thuật toán mà còn cung cấp thông tin quý giá cho việc cải thiện mô hình trong tương lai. Theo các nghiên cứu trước đây, SVM đã chứng minh được khả năng vượt trội so với các phương pháp phân loại khác, điều này càng khẳng định giá trị thực tiễn của việc áp dụng SVM trong phân loại thông tin văn bản trên website tuyển dụng.

3.1. Kết quả thử nghiệm

Kết quả thử nghiệm cho thấy rằng SVM có thể đạt được độ chính xác lên đến 90% trong việc phân loại thông tin văn bản trên website tuyển dụng. Điều này cho thấy rằng SVM không chỉ là một công cụ lý thuyết mà còn có giá trị thực tiễn cao trong việc xử lý và phân loại dữ liệu. Việc đạt được kết quả này không chỉ giúp nâng cao hiệu quả tìm kiếm thông tin việc làm mà còn mở ra nhiều cơ hội cho việc phát triển các ứng dụng khác trong lĩnh vực công nghệ thông tin.

25/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ ứng dụng thuật toán máy vector hỗ trợ trong phân loại thông tin văn bản trên hệ thống website tuyển dụng

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh bùng nổ thông tin trên Internet, đặc biệt tại Việt Nam, nhu cầu truy cập và xử lý thông tin trực tuyến ngày càng tăng cao. Theo ước tính, hàng triệu người dùng truy cập các website tuyển dụng mỗi ngày để tìm kiếm cơ hội việc làm phù hợp. Tuy nhiên, khối lượng dữ liệu khổng lồ và đa dạng về nội dung khiến việc phân loại thủ công trở nên không khả thi. Do đó, việc phát triển các giải pháp tự động phân loại thông tin văn bản trên các hệ thống website tuyển dụng là rất cần thiết nhằm nâng cao hiệu quả tìm kiếm và quản lý dữ liệu.

Mục tiêu nghiên cứu của luận văn là ứng dụng thuật toán Máy vector hỗ trợ (Support Vector Machine - SVM) để phân loại thông tin văn bản tiếng Việt trên hệ thống website tuyển dụng. Nghiên cứu tập trung vào việc thu thập dữ liệu tự động từ các trang web, thực hiện các bước tiền xử lý như tách từ, loại bỏ stopword, làm sạch văn bản, sau đó áp dụng thuật toán SVM để phân loại nội dung theo các nhóm nghề nghiệp khác nhau. Phạm vi nghiên cứu bao gồm dữ liệu thu thập từ các website tuyển dụng tại Việt Nam trong giai đoạn gần đây, với trọng tâm là xử lý và phân loại văn bản tiếng Việt.

Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác phân loại thông tin tuyển dụng, giúp người dùng dễ dàng tiếp cận các tin tức việc làm phù hợp, đồng thời hỗ trợ các nhà quản trị website trong việc tổ chức và quản lý dữ liệu hiệu quả hơn. Các chỉ số đánh giá như độ chính xác phân loại và tốc độ xử lý được sử dụng làm thước đo hiệu quả của giải pháp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: lý thuyết học máy (machine learning) và xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). Trong đó, thuật toán Máy vector hỗ trợ (SVM) là trọng tâm nghiên cứu, được lựa chọn do khả năng phân loại hiệu quả các bài toán phân lớp phi tuyến và tính toán tối ưu dựa trên khoảng cách biên lớn nhất giữa các lớp dữ liệu.

Ngoài ra, các mô hình biểu diễn văn bản được áp dụng bao gồm:

Mô hình không gian vector (Vector Space Model): Biểu diễn văn bản dưới dạng vector đặc trưng dựa trên tần suất xuất hiện của từ khóa, kết hợp với các phương pháp đánh trọng số như TF (Term Frequency) và IDF (Inverse Document Frequency).
Mô hình túi các từ (Bag-of-Words): Xem văn bản như tập hợp các từ không quan tâm đến thứ tự, giúp đơn giản hóa quá trình xử lý và phân loại.
Lựa chọn đặc trưng (Feature Selection): Thu gọn số lượng từ khóa đặc trưng dựa trên định luật Zipf và các ngưỡng tần suất nhằm giảm chiều không gian đặc trưng mà vẫn giữ được tính đại diện cho văn bản.

Các thuật toán phân loại khác như Naïve Bayes, K-Nearest Neighbor (kNN), và cây quyết định cũng được nghiên cứu để so sánh và làm rõ ưu điểm của SVM trong bài toán phân loại văn bản tiếng Việt.

Phương pháp nghiên cứu

Nghiên cứu kết hợp giữa lý thuyết và thực nghiệm với các bước chính:

Thu thập dữ liệu: Sử dụng RSS feed và thu thập URL từ các website tuyển dụng không hỗ trợ RSS để xây dựng bộ dữ liệu huấn luyện và kiểm thử. Dữ liệu thu thập bao gồm tiêu đề, tóm tắt và nội dung chi tiết của các tin tuyển dụng.
Tiền xử lý văn bản: Áp dụng công cụ vnTokenizer để tách từ tiếng Việt với độ chính xác khoảng 94%, loại bỏ stopword và làm sạch văn bản (loại bỏ dấu câu, ký tự đặc biệt, khoảng trắng thừa).
Biểu diễn văn bản: Sử dụng mô hình không gian vector với trọng số TF-IDF để biểu diễn các văn bản dưới dạng vector đặc trưng.
Phân loại: Áp dụng thuật toán SVM với kernel phù hợp để huấn luyện bộ phân loại đa lớp, phân loại các tin tuyển dụng theo nhóm nghề nghiệp.
Đánh giá: Sử dụng bộ dữ liệu thử nghiệm để đánh giá độ chính xác phân loại, so sánh với các phương pháp khác và phân tích kết quả.

Quá trình nghiên cứu được thực hiện trong khoảng thời gian từ năm 2015 đến 2016 tại Học viện Công nghệ Bưu chính Viễn thông, với cỡ mẫu dữ liệu khoảng vài nghìn tin tuyển dụng được thu thập và xử lý.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác phân loại đạt trên 85%: Kết quả thử nghiệm cho thấy thuật toán SVM đạt độ chính xác trung bình khoảng 87% trong việc phân loại các tin tuyển dụng theo nhóm nghề nghiệp, cao hơn so với các phương pháp Naïve Bayes (khoảng 78%) và kNN (khoảng 80%).
Hiệu quả tiền xử lý văn bản: Việc sử dụng công cụ vnTokenizer giúp tách từ tiếng Việt chính xác khoảng 94%, góp phần quan trọng vào việc nâng cao chất lượng biểu diễn văn bản và kết quả phân loại.
Ảnh hưởng của lựa chọn đặc trưng: Thu gọn đặc trưng dựa trên định luật Zipf và loại bỏ stopword giúp giảm chiều không gian đặc trưng xuống khoảng 30-40% mà không làm giảm đáng kể độ chính xác phân loại, giúp tăng tốc độ xử lý.
Khả năng phân loại đa lớp: Thuật toán SVM được mở rộng để phân loại đa lớp hiệu quả, xử lý tốt các trường hợp văn bản có tính đa chủ đề, với tỷ lệ phân loại chính xác cho từng lớp nghề nghiệp dao động từ 80% đến 90%.

Thảo luận kết quả

Nguyên nhân chính dẫn đến kết quả khả quan là do SVM tận dụng được khoảng cách biên tối ưu giữa các lớp dữ liệu, giúp giảm thiểu sai số phân loại. So với các phương pháp dựa trên xác suất như Naïve Bayes, SVM có ưu thế trong việc xử lý các dữ liệu có phân bố phức tạp và không tuyến tính.

Kết quả cũng phù hợp với các nghiên cứu quốc tế về phân loại văn bản tiếng Anh, đồng thời khẳng định tính khả thi của việc áp dụng SVM cho văn bản tiếng Việt, mặc dù ngôn ngữ này có đặc thù khó khăn trong tách từ và xử lý ngôn ngữ tự nhiên.

Việc biểu diễn văn bản bằng mô hình vector kết hợp TF-IDF và lựa chọn đặc trưng hợp lý giúp giảm thiểu không gian tính toán mà vẫn giữ được thông tin quan trọng, từ đó nâng cao hiệu quả phân loại.

Dữ liệu có thể được trình bày qua biểu đồ cột so sánh độ chính xác của các thuật toán phân loại, bảng thống kê số lượng tin tuyển dụng theo từng nhóm nghề nghiệp và biểu đồ thể hiện tỷ lệ từ khóa được giữ lại sau bước lựa chọn đặc trưng.

Đề xuất và khuyến nghị

Triển khai hệ thống phân loại tự động trên website tuyển dụng: Áp dụng thuật toán SVM đã được huấn luyện để phân loại tin tuyển dụng theo nhóm nghề nghiệp, giúp người dùng dễ dàng tìm kiếm thông tin phù hợp. Thời gian thực hiện dự kiến 6 tháng, do bộ phận phát triển phần mềm của các công ty tuyển dụng đảm nhận.
Cập nhật và mở rộng bộ dữ liệu huấn luyện: Thu thập thêm dữ liệu từ nhiều nguồn khác nhau, cập nhật thường xuyên để cải thiện độ chính xác phân loại và khả năng thích ứng với các thay đổi trong nội dung tuyển dụng. Thời gian thực hiện liên tục, do nhóm nghiên cứu dữ liệu phụ trách.
Nâng cao chất lượng tiền xử lý văn bản: Phát triển thêm các công cụ tách từ và xử lý ngôn ngữ tự nhiên tiếng Việt, đặc biệt là xử lý các từ mới, từ ghép phức tạp nhằm tăng độ chính xác biểu diễn văn bản. Thời gian thực hiện 12 tháng, do nhóm nghiên cứu NLP đảm nhiệm.
Tích hợp hệ thống phân loại với các công cụ tìm kiếm thông minh: Kết hợp phân loại văn bản với các thuật toán tìm kiếm nâng cao để cải thiện trải nghiệm người dùng trên các website tuyển dụng. Thời gian thực hiện 9 tháng, do bộ phận phát triển sản phẩm và kỹ thuật phối hợp thực hiện.

Đối tượng nên tham khảo luận văn

Nhà phát triển phần mềm và kỹ sư dữ liệu: Có thể áp dụng các phương pháp và thuật toán trong luận văn để xây dựng hệ thống phân loại văn bản tự động, nâng cao hiệu quả xử lý dữ liệu trên các nền tảng tuyển dụng hoặc các ứng dụng tương tự.
Nhà nghiên cứu và sinh viên ngành khoa học máy tính, xử lý ngôn ngữ tự nhiên: Luận văn cung cấp cơ sở lý thuyết và thực nghiệm về ứng dụng SVM trong phân loại văn bản tiếng Việt, hỗ trợ nghiên cứu sâu hơn về học máy và NLP.
Quản trị viên website tuyển dụng và các doanh nghiệp tuyển dụng: Hiểu rõ về quy trình và công nghệ phân loại thông tin giúp tối ưu hóa quản lý nội dung, nâng cao chất lượng dịch vụ và trải nghiệm người dùng.
Chuyên gia trong lĩnh vực trí tuệ nhân tạo và học máy: Tham khảo các kỹ thuật tiền xử lý, lựa chọn đặc trưng và áp dụng thuật toán SVM trong môi trường thực tế, từ đó phát triển các giải pháp tương tự cho các bài toán phân loại khác.

Câu hỏi thường gặp

Tại sao chọn thuật toán SVM thay vì các phương pháp khác?
SVM có khả năng phân loại hiệu quả với dữ liệu phi tuyến và có nền tảng toán học vững chắc, giúp tối ưu khoảng cách biên giữa các lớp, từ đó nâng cao độ chính xác so với các phương pháp như Naïve Bayes hay kNN.
Làm thế nào để xử lý đặc thù của ngôn ngữ tiếng Việt trong phân loại văn bản?
Việc sử dụng công cụ tách từ chuyên biệt như vnTokenizer với độ chính xác khoảng 94% giúp xử lý tốt các vấn đề về tách từ và nhập nhằng trong tiếng Việt, kết hợp với loại bỏ stopword và làm sạch văn bản để chuẩn hóa dữ liệu đầu vào.
Phương pháp lựa chọn đặc trưng có ảnh hưởng thế nào đến kết quả?
Lựa chọn đặc trưng giúp giảm chiều không gian dữ liệu, loại bỏ các từ không mang thông tin phân loại, từ đó tăng tốc độ xử lý và duy trì hoặc cải thiện độ chính xác phân loại.
Có thể áp dụng mô hình này cho các loại văn bản khác ngoài tuyển dụng không?
Có, phương pháp và thuật toán SVM có thể được điều chỉnh và áp dụng cho nhiều bài toán phân loại văn bản khác nhau, tuy nhiên cần tùy chỉnh bộ dữ liệu huấn luyện và tiền xử lý phù hợp với đặc thù từng lĩnh vực.
Làm thế nào để cải thiện độ chính xác phân loại trong tương lai?
Cập nhật bộ dữ liệu huấn luyện đa dạng hơn, nâng cao chất lượng tiền xử lý, thử nghiệm các kernel khác nhau trong SVM và kết hợp với các kỹ thuật học sâu có thể giúp cải thiện độ chính xác phân loại.

Kết luận

Luận văn đã thành công trong việc ứng dụng thuật toán Máy vector hỗ trợ (SVM) để phân loại thông tin văn bản tiếng Việt trên hệ thống website tuyển dụng với độ chính xác trung bình đạt khoảng 87%.
Quá trình tiền xử lý văn bản, đặc biệt là tách từ và loại bỏ stopword, đóng vai trò quan trọng trong việc nâng cao chất lượng dữ liệu đầu vào.
Việc lựa chọn đặc trưng dựa trên định luật Zipf giúp giảm đáng kể không gian đặc trưng mà vẫn giữ được hiệu quả phân loại.
Kết quả nghiên cứu khẳng định tính khả thi và hiệu quả của SVM trong bài toán phân loại văn bản tiếng Việt, mở ra hướng phát triển ứng dụng trong các lĩnh vực khác.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, nâng cao công cụ tiền xử lý và triển khai hệ thống phân loại tự động trên các nền tảng thực tế nhằm tối ưu hóa trải nghiệm người dùng.

Để tiếp tục phát triển và ứng dụng rộng rãi, các nhà nghiên cứu và doanh nghiệp được khuyến khích áp dụng các giải pháp đề xuất trong luận văn, đồng thời phối hợp nghiên cứu nâng cao chất lượng và hiệu quả của hệ thống phân loại văn bản.

Trích đoạn nội dung tài liệu

Chương 1 - BÀI TOÁN PHÂN LOẠI VĂN BẢN 1. Phát biểu bài toán phân loại văn bản Phân loại văn bản (hay Text Categorization hoặc Document Classificant) là quá trình gán các văn bản vào một hay nhiều chủ đề đã biết trong một tập hữu hạn các chủ đề đã được xác định từ trước. Ví dụ một bài báo trong một trang web có thể thuộc một hoặc một vài chủ đề nào đó (như thể thao, giáo dục, pháp luật, công nghệ thông tin,…). Việc phân loại có thể được tiến hành một cách thủ công: đọc nội dung của từng văn bản và gán nó vào một lớp nào đó.

Tuy nhiên, đối với hệ thống gồm rất nhiều văn bản thì phương pháp này sẽ tốn rất nhiều thời gian và công sức. Do vậy cần phải có phương pháp tự động để phân loại văn bản. Phương pháp này giúp cho việc lưu trữ và truy vấn tài liệu dễ dàng hơn. Dưới đây là hình vẽ mô tả quy trình của bài toán phân loại văn bản: Hình 1.1 Quy trình phân loại văn bản [11] Để tiến hành phân loại văn bản nói chung, chúng ta sẽ thực hiện các bước như sau:  Bước 1: Xây dựng bộ dữ liệu huấn luyện dựa vào tài liệu văn bản đã được phân loại sẵn.

Tiến hành học cho bộ dữ liệu, xử lý và thu thập được dữ liệu của quá trình học là các đặc trưng riêng biệt cho từng chủ đề.  Bước 2: Dữ liệu cần phân loại được xử lý, rút ra đặc trưng kết hợp với đặc trưng được học trước đó để phân loại và rút ra kết quả. Luan van 6 Đặc điểm nổi bật của bài toán này là sự đa dạng của chủ đề văn bản và tính đa chủ đề của văn bản. Tính đa chủ đề của văn bản làm cho sự phân loại chỉ mang tính tương đối và có phần chủ quan, nếu do con người thực hiện có thể dễ bị nhập nhằng.

Ví dụ có bài báo về tuyển dụng nhân viên bán thuốc tại một công ty dược phẩm, bài báo này có thể xếp vào chủ đề tuyển dụng lĩnh vực Y dược hoặc cũng có thể xếp vào chủ đề lĩnh vực Bán hàng. Về bản chất, một văn bản là một tập hợp từ ngữ có liên quan với nhau tạo nên nội dung ngữ nghĩa của văn bản. Từ ngữ của một văn bản là đa dạng do tính đa dạng của ngôn ngữ (đồng nghĩa, đa nghĩa, từ vay mượn nước ngoài,…) và số lượng từ cần xét là lớn. Ở đây cần lưu ý rằng, một văn bản có thể có số lượng từ ngữ không nhiều, nhưng số lượng từ ngữ cần xét là rất nhiều vì phải bao hàm tất cả các từ của ngôn ngữ đang xét.

Trên thế giới đã có nhiều công trình nghiên cứu đạt những kết quả khả quan, nhất là đối với phân loại văn bản tiếng Anh. Tuy vậy, các nghiên cứu và ứng dụng đối với văn bản tiếng Việt còn nhiều hạn chế do khó khăn về tách từ và câu. Có thể liệt kê một số công trình nghiên cứu trong nước với các hướng tiếp cận khác nhau cho bài toán phân loại văn bản, bao gồm: phân loại với máy học vectơ hỗ trợ, cách tiếp cận sử dụng lý thuyết tập thô, cách tiếp cận thống kê hình vị, cách tiếp cận sử dụng phương pháp học không giám sát và đánh chỉ mục, cách tiếp cận theo luật kết hợp. Theo các kết quả trình bày trong các công trình đó thì những cách tiếp cận nêu trên đều cho kết quả khá tốt.

Tuy nhiên khó có thể so sánh các kết quả ở trên với nhau vì tập dữ liệu thực nghiệm của mỗi phương pháp là khác nhau. Trong những năm gần đây, phương pháp phân loại sử dụng Máy vector hỗ trợ (SVM) được quan tâm và sử dụng nhiều trong những lĩnh vực nhận dạng và phân loại. SVM là một họ các phương pháp dựa trên cơ sở các hàm nhân (kernel) để tối thiểu hóa rủi ro ước lượng. Phương pháp SVM ra đời từ lý thuyết học thống kê và có nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng trong thực tiễn.

Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả năng phân loại khá tốt đối với bài toán phân loại văn bản cũng như trong nhiều ứng dụng khác (như Luan van 7 nhận dạng chữ viết tay, phát hiện mặt người trong các ảnh, ước lượng hồi quy,. So sánh với các phương pháp phân loại khác, khả năng phân loại của SVM là tương đương hoặc tốt hơn đáng kể. Vì những lý do đó mà em đã chọn phương pháp này cho việc phân loại văn bản tiếng Việt, cụ thể thuật toán và ứng dụng sẽ được trình bày trong các chương sau. Một số phương pháp phân loại văn bản Hiện nay trên thế giới đã có rất nhiều công trình nghiên cứu về các phương pháp phân loại văn bản.

Một số phương pháp cần kể đến là: Naïve Bayes, Support Vector Machine, K–Nearest Neighbor, Linear Least Squares Fit, Neural Network… Điểm chung của các phương pháp này đều dựa vào xác suất thống kê hoặc dựa vào trọng số của các từ, cụm từ trong văn bản. Trong mỗi phương pháp đều có cách tính toán khác nhau, tuy nhiên các phương pháp này đều phải thực hiện một số bước chung như: mỗi phương pháp sẽ dựa vào thông tin về sự xuất hiện của các từ trong văn bản (tần số xuất hiện trong tập văn bản…) để biểu diễn thành dạng vector, sau đó tùy từng bài toán cụ thể sẽ quyết định chọn áp dụng phương pháp nào, công thức tính toán nào cho phù hợp để phân loại tập văn bản dựa trên tập các vector đã xây dựng được ở bước trên, nhằm mục đích đạt được kết quả phân loại tốt nhất. Thuật toán K–Nearest Neighbor (kNN) a. Giới thiệu Đây là phương pháp truyền thống khá nổi tiếng về hướng tiếp cận dựa trên thống kê đã được nghiên cứu trong nhận dạng mẫu hơn bốn thập kỷ qua.

kNN được đánh giá là một trong những phương pháp tốt nhất (áp dụng trên tập dữ liệu Reuters), được sử dụng từ những thời kỳ đầu của việc phân loại văn bản. Ý tưởng Khi cần phân loại một văn bản mới, thuật toán sẽ tính khoảng cách (khoảng cách Euclide, Cosine .) của tất cả các văn bản trong tập huấn luyện đến văn bản Luan van 8 này để tìm ra k văn bản gần nhất (gọi là k “láng giềng”), sau đó dùng các khoảng cách này đánh trọng số cho tất cả chủ đề. Trọng số của một chủ đề chính là tổng tất cả khoảng cách ở trên của các văn bản trong k láng giềng có cùng chủ đề, chủ đề nào không xuất hiện trong k láng giềng sẽ có trọng số bằng 0. Sau đó các chủ đề sẽ được sắp xếp theo mức độ trọng số giảm dần và các chủ đề có trọng số cao sẽ được chọn là chủ đề của văn bản cần phân loại.

Thuật toán [5]  Xác định giá trị tham số K (số láng giềng gần nhất)  Tính khoảng cách giữa đối tượng cần phân lớp (Query Point) với tất cả các đối tượng trong training data (thường sử dụng khoảng cách Euclidean)  Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với Query Point  Lấy tất cả các lớp của K láng giềng gần nhất đã xác định  Dựa vào phần lớn lớp của láng giềng gần nhất để xác định lớp cho Query Point. (Dựa vào k văn bản mẫu này đánh trọng số cho chủ đề. Chủ đề của các văn bản là chủ đề có trọng số lớn nhất) 1. Thuật toán cây quyết định (Decision tree) a.

Giới thiệu Cây quyết định là một cấu trúc cây với:  Mỗi nút trong (internal node) ứng với một phép kiểm tra trên một thuộc tính.  Mỗi nhánh biểu diễn một kết quả của phép kiểm tra.  Các nút lá (leaf node) biểu diễn các lớp hay các phân bố lớp. Nút cao nhất trong cây là nút gốc (root node).

Ý tưởng Cây quyết định được mô tả bằng cách tính toán xác suất có điều kiện. Cây quyết định cũng có thể được mô tả như là một kỹ thuật tính toán và hỗ trợ toán học, kỹ thuật này hỗ trợ việc mô tả, phân loại và khái quát tập dữ liệu đưa vào. Dữ liệu đưa vào có dạng: (x, y) = (x1, x2, … , xk, y ) Biến phụ thuộc y là biến mà chúng ta cố gắng để biết, phân lớp hay tổng quát hóa, còn các biến x1, x2,… là các biến giúp ta thực hiện công việc đó. Để xây dựng được cây quyết định của tập dữ liệu nào đó chúng ta phải hiểu được khái niệm độ đo Entropy và Information Gain (Lợi ích thông tin).

Độ đo Entropy: đặc trưng cho độ hỗn tạp (lộn xộn) của một tập bất kỳ các mẫu thử. c Entropy ( S )    pi log 2 pi i 1 Lợi ích thông tin:  Gain(S, A) là lợi ích thông tin mà thuộc tính A mang lại cho sự phân lớp tập S. A có m giá trị v1, v2, … , vm  Ký hiệu: Svi = {x ∈ S | x có giá trị thuộc tính A là vi}  |S| là số phần tử của tập S c. Thuật toán [5] Cho tập ví dụ huấn luyện D.

Tìm cây quyết định phù hợp với D Bước 1: Khởi tạo cây một đỉnh gốc Toàn bộ tập ví dụ huấn luyện D đều đi vào đỉnh này. Bước 2: Repeat Chọn một đỉnh lá chưa gán nhãn để phát triển gọi là đỉnh hiện thời Luan van 10 Giả sử tập ví dụ huấn luyện đi vào đỉnh này là S If (S = rỗng) Then (gán nhãn chung nhất trong D) Else If (tất cả các ví dụ trong S đều được gán cùng một nhãn c) Then (đỉnh hiện thời được gán nhãn c) Else Đỉnh hiện thời được gán nhãn là thuộc tính A trong đó A = argmax Gain (S, Ai) Ai: ứng viên là nhãn của đỉnh hiện thời và mỗi giá trị v của A được gán nhãn cho nhánh đi từ A tới đỉnh mới. Tập ví dụ huấn luyện đi tới đỉnh mới đó là Sv trong đó Sv = {s ∈ S | s có giá trị của thuộc tính A là v} Until (tất cả các đỉnh của cây đều được gán nhãn) 1. Thuật toán SVM (Support vector machine) a.

Giới thiệu Support vector machine (SVM) – Máy vector hỗ trợ là một phương pháp phân lớp xuất phát từ lý thuyết học thống kê. Ý tưởng Ý tưởng của nó là ánh xạ (tuyến tính hoặc phi tuyến) dữ liệu vào không gian các vector đặc trưng (space of feature vectors) mà ở đó một siêu phẳng tối ưu được tìm ra để tách dữ liệu thuộc hai lớp khác nhau.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Ứng dụng thuật toán máy vector trong phân loại thông tin văn bản trên hệ thống website tuyển dụng" của tác giả Nguyễn Kim Anh, dưới sự hướng dẫn của TS. Phan Thị Hà, được thực hiện tại Học viện Công nghệ Bưu chính Viễn thông vào năm 2016. Bài viết tập trung vào việc áp dụng thuật toán máy vector để phân loại thông tin văn bản, một vấn đề quan trọng trong lĩnh vực công nghệ thông tin, đặc biệt là trong các hệ thống tuyển dụng trực tuyến.

Nghiên cứu này không chỉ giúp cải thiện độ chính xác trong việc phân loại thông tin mà còn tối ưu hóa quy trình tìm kiếm và lọc thông tin cho người dùng. Điều này mang lại lợi ích lớn cho các nhà tuyển dụng và ứng viên, giúp họ dễ dàng tìm thấy thông tin phù hợp hơn.

Để mở rộng thêm kiến thức về các ứng dụng công nghệ thông tin trong giáo dục và quản lý, bạn có thể tham khảo bài viết "Các yếu tố ảnh hưởng đến quyết định chọn nơi làm việc của sinh viên công nghệ thông tin tại Đà Nẵng", nơi phân tích các yếu tố tác động đến sự lựa chọn nghề nghiệp của sinh viên trong lĩnh vực công nghệ thông tin.

Ngoài ra, bài viết "Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt" cũng có liên quan, vì nó đề cập đến việc xử lý và phân loại văn bản, một khía cạnh quan trọng trong việc phát triển các ứng dụng công nghệ thông tin.

Cuối cùng, bạn có thể tìm hiểu thêm về "Phân loại văn bản dựa trên mô hình Transformer trong khoa học máy tính", một nghiên cứu hiện đại về phân loại văn bản, giúp bạn có cái nhìn sâu sắc hơn về các phương pháp tiên tiến trong lĩnh vực này.

Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu rõ hơn về các ứng dụng của công nghệ thông tin trong nhiều lĩnh vực khác nhau.

#Phân tích dữ liệu

#xử lý ngôn ngữ tự nhiên

#trí tuệ nhân tạo

#tìm kiếm thông tin

#thuật toán máy vector

#phân loại thông tin văn bản

Chủ đề

Công nghệ thông tin

Xử Lý Ngôn Ngữ Tự Nhiên

Trí tuệ nhân tạo và học máy

Ứng dụng trong ngành tuyển dụng

Luận văn thạc sĩ ứng dụng thuật toán máy vector hỗ trợ trong phân loại thông tin văn bản trên hệ thống website tuyển dụng

LỜI CAM ĐOAN

LỜI CÁM ƠN

1. MỞ ĐẦU

1.1. Tính cấp thiết của đề tài

1.2. Tổng quan về vấn đề nghiên cứu

1.3. Mục đích, đối tượng, phạm vi và phương pháp nghiên cứu

1.4. Cấu trúc luận văn

2. CHƯƠNG 1: BÀI TOÁN PHÂN LOẠI VĂN BẢN

2.1. Phát biểu bài toán phân loại văn bản

2.2. Một số phương pháp phân loại văn bản

2.2.1. Thuật toán K–Nearest Neighbor (kNN)

2.2.2. Thuật toán cây quyết định (Decision tree)

2.2.3. Thuật toán SVM (Support vector machine)

2.2.4. Thuật toán Naïve Bayes

2.3. Các mô hình biểu diễn văn bản

2.3.1. Mô hình Boolean

2.3.2. Mô hình không gian vector

2.3.3. Mô hình xác suất (Mô hình túi các từ)

2.4. Lựa chọn đặc trưng trong biểu diễn văn bản

2.4.1. Thu gọn đặc trưng biểu diễn

2.4.2. Định luật Zipf

2.5. Phương pháp đánh trọng số cho từ khóa

2.5.1. Phương pháp boolean

2.5.2. Phương pháp dựa trên tần số

3. CHƯƠNG 2: ÁP DỤNG SVM VÀO BÀI TOÁN PHÂN LOẠI VĂN BẢN

3.1. Thu thập và tiền xử lý văn bản

3.1.1. Thu thập địa chỉ trang web URL

3.1.2. Lọc nội dung chính của trang web

3.2. Tiền xử lý văn bản

3.3. Trình bày chi tiết thuật toán Máy vector hỗ trợ SVM

3.3.1. Giới thiệu thuật toán

3.3.2. Ý tưởng thuật toán

3.3.3. Phân loại đa lớp nội dung văn bản với SVM

3.4. Các tham số của SVM

4. CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ

4.1. Xây dựng bộ dữ liệu và tiền xử lý văn bản

4.2. Giai đoạn phân lớp

4.3. Đánh giá

DANH MỤC TÀI LIỆU THAM KHẢO

DANH MỤC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG BIỂU

DANH MỤC CÁC HÌNH VẼ

I. Giới thiệu về thuật toán máy vector

1.1. Nguyên lý hoạt động của SVM

II. Phân loại văn bản trên website tuyển dụng

2.1. Quy trình phân loại thông tin

III. Đánh giá và thử nghiệm

3.1. Kết quả thử nghiệm

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Kim Anh

Người hướng dẫn: TS. Phan Thị Hà

Trường học: Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành: Khoa học máy tính

Đề tài: Ứng Dụng Thuật Toán Máy Vector Hỗ Trợ Trong Phân Loại Thông Tin Văn Bản Trên Hệ Thống Website Tuyển Dụng

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2016

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm