Luận văn thạc sĩ: Xử lý ngôn ngữ tự nhiên trong phát triển hệ thống tư vấn việc làm

Luận văn thạc sĩ phân tích máy tính ứng dụng xử lý ngôn ngữ tự nhiên để phát triển hệ thống tư vấn việc làm, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho

Trường đại học

Đại học Bách Khoa - ĐHQG TP.HCM

Chuyên ngành

Khoa học Máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT OF DISSERTATION

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu bài toán

1.2. Mục tiêu và phạm vi đề tài

1.3. Cấu trúc luận văn

2. CHƯƠNG 2: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Phương pháp tiếp cận dựa trên quy tắc (rule-based approach)

2.2. Phương pháp mạng nơ-ron học sâu

2.2.1. Kiến trúc mạng nơ-ron học sâu cấp độ từ cho bài toán NER

2.2.2. Kiến trúc mạng nơ-ron học sâu cấp độ ký tự cho bài toán NER

3. CHƯƠNG 3: CƠ SỞ KIẾN THỨC

3.1. Giới thiệu Word Representation

Tài liệu tham khảo

Tóm tắt

I. Giới thiệu bài toán

Trong bối cảnh hiện nay, hệ thống tư vấn việc làm trở thành một công cụ quan trọng giúp kết nối người tìm việc và nhà tuyển dụng. Việc xử lý ngôn ngữ tự nhiên (NLP) đóng vai trò then chốt trong việc phát triển các ứng dụng này. Đặc biệt, nhận dạng thực thể (Named Entity Recognition - NER) là một trong những bài toán cốt lõi trong lĩnh vực NLP. NER không chỉ giúp xác định các thực thể trong văn bản mà còn hỗ trợ trong việc phân loại thông tin, từ đó cung cấp dữ liệu chính xác cho hệ thống thông tin. Một nghiên cứu gần đây đã chỉ ra rằng việc áp dụng các mô hình học sâu như BERT đã cải thiện đáng kể độ chính xác trong NER, từ đó nâng cao hiệu quả của các hệ thống tư vấn việc làm.

II. Mục tiêu và phạm vi đề tài

Mục tiêu của đề tài này là nghiên cứu và phát triển một hệ thống tư vấn việc làm dựa trên xử lý ngôn ngữ tự nhiên. Đề tài sẽ tập trung vào việc xây dựng mô hình NER cho tiếng Việt, từ đó phát triển một ứng dụng hỗ trợ người tìm việc và nhà tuyển dụng. Các mục tiêu cụ thể bao gồm: 1) Nghiên cứu các phương pháp giải quyết bài toán NER trong tiếng Việt; 2) Xây dựng mô hình NER dựa trên BERT; 3) Phát triển hệ thống thông tin cho việc tư vấn việc làm. Việc thực hiện các mục tiêu này không chỉ giúp nâng cao tính hiệu quả của hệ thống tư vấn việc làm mà còn góp phần vào việc phát triển công nghệ trí tuệ nhân tạo trong lĩnh vực này.

III. Cơ sở lý thuyết

Để xây dựng mô hình NER cho tiếng Việt, cần tìm hiểu về các phương pháp xử lý ngôn ngữ tự nhiên hiện có. Các phương pháp này bao gồm tiếp cận dựa trên quy tắc và mạng nơ-ron học sâu. Phương pháp tiếp cận dựa trên quy tắc sử dụng các quy tắc định nghĩa trước để xác định các thực thể, trong khi phương pháp mạng nơ-ron học sâu, đặc biệt là BERT, cho phép tự động khám phá các đặc trưng ẩn trong dữ liệu. Việc áp dụng các mô hình học sâu đã chứng minh được hiệu quả trong việc nâng cao độ chính xác của NER, từ đó tạo ra các ứng dụng công nghệ thông tin tiên tiến trong hệ thống tư vấn việc làm.

IV. Phương pháp đề xuất

Phương pháp đề xuất cho hệ thống tư vấn việc làm bao gồm việc xây dựng mô hình NER dựa trên BERT, kết hợp với các kỹ thuật xử lý ngôn ngữ tự nhiên như phân tích ngữ nghĩa và phân tích cú pháp. Dữ liệu đầu vào sẽ được làm sạch và xử lý để tạo ra tập dữ liệu huấn luyện chất lượng. Sau đó, mô hình sẽ được huấn luyện và đánh giá thông qua các chỉ số như độ chính xác và độ bao phủ. Việc ứng dụng mô hình này trong hệ thống thông tin sẽ tạo ra một nền tảng vững chắc cho việc kết nối người tìm việc và nhà tuyển dụng một cách hiệu quả.

V. Kết quả đạt được

Kết quả nghiên cứu cho thấy mô hình NER dựa trên BERT đã đạt được độ chính xác cao trong việc nhận dạng các thực thể trong văn bản tiếng Việt. Hệ thống tư vấn việc làm được phát triển từ mô hình này có khả năng cung cấp thông tin chính xác và nhanh chóng cho người tìm việc và nhà tuyển dụng. Các thử nghiệm thực tế cho thấy rằng việc áp dụng xử lý ngôn ngữ tự nhiên trong hệ thống tư vấn việc làm không chỉ cải thiện trải nghiệm người dùng mà còn nâng cao hiệu quả trong việc tìm kiếm và tuyển dụng nhân sự.

VI. Hướng phát triển

Trong tương lai, hệ thống tư vấn việc làm có thể được mở rộng để tích hợp thêm các tính năng như phân tích cảm xúc, dự đoán xu hướng tuyển dụng và hỗ trợ người dùng trong việc chuẩn bị hồ sơ xin việc. Việc áp dụng các công nghệ mới trong xử lý ngôn ngữ tự nhiên và trí tuệ nhân tạo sẽ tiếp tục nâng cao khả năng của hệ thống, từ đó đáp ứng tốt hơn nhu cầu của thị trường lao động. Hệ thống cũng có thể được phát triển thành một ứng dụng di động để tăng cường khả năng tiếp cận cho người dùng.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính ứng dụng xử lý ngôn ngữ tự nhiên để phát triển hệ thống tư vấn việc làm

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh làn sóng sa thải nhân viên diễn ra mạnh mẽ gần đây, nhu cầu tìm kiếm việc làm trở nên cấp thiết hơn bao giờ hết. Theo ước tính, hàng nghìn người lao động tại các thành phố lớn như TP. Hồ Chí Minh, Bình Dương, Long An đang đối mặt với thách thức tìm kiếm công việc phù hợp. Đồng thời, các nhà tuyển dụng cũng gặp khó khăn trong việc tiếp cận ứng viên tiềm năng. Internet và mạng xã hội, đặc biệt là Facebook, đã trở thành nguồn thông tin quan trọng để kết nối người tìm việc và nhà tuyển dụng. Tuy nhiên, việc xử lý và khai thác hiệu quả lượng dữ liệu khổng lồ này đòi hỏi các giải pháp công nghệ tiên tiến.

Luận văn tập trung nghiên cứu ứng dụng xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) để phát triển hệ thống tư vấn việc làm, giúp tự động nhận dạng các thực thể quan trọng trong các bài đăng tuyển dụng và tìm việc trên mạng xã hội. Mục tiêu cụ thể là xây dựng mô hình nhận dạng thực thể (Named Entity Recognition - NER) cho tiếng Việt dựa trên mô hình BERT, từ đó phát triển hệ thống tư vấn việc làm hỗ trợ người dùng tìm kiếm và đăng tin hiệu quả. Nghiên cứu được thực hiện trong giai đoạn từ tháng 9/2022 đến tháng 6/2023, tập trung thu thập dữ liệu từ các nhóm Facebook tại các địa phương trọng điểm như TP. Hồ Chí Minh, Bình Dương, Long An.

Ý nghĩa của nghiên cứu thể hiện qua việc nâng cao hiệu quả kết nối giữa người tìm việc và nhà tuyển dụng, giảm thiểu thời gian và chi phí tìm kiếm, đồng thời góp phần thúc đẩy thị trường lao động trực tuyến phát triển bền vững. Các chỉ số đánh giá như độ chính xác nhận dạng thực thể và mức độ hài lòng của người dùng được kỳ vọng cải thiện rõ rệt nhờ ứng dụng mô hình NLP hiện đại.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết và mô hình chính trong lĩnh vực xử lý ngôn ngữ tự nhiên và học sâu:

Mô hình BERT (Bidirectional Encoder Representations from Transformers): Đây là mô hình ngôn ngữ tiên tiến sử dụng kiến trúc Transformer với cơ chế attention đa đầu, cho phép học các mối quan hệ ngữ cảnh hai chiều giữa các từ trong câu. BERT được huấn luyện trước trên kho dữ liệu lớn và có khả năng fine-tuning cho các tác vụ cụ thể như nhận dạng thực thể. Mô hình này giúp cải thiện đáng kể độ chính xác so với các phương pháp truyền thống.
Phương pháp nhận dạng thực thể (Named Entity Recognition - NER): NER là bài toán xác định và phân loại các thực thể quan trọng trong văn bản như tên người, địa điểm, thời gian, chức vụ, mức lương,... Trong nghiên cứu này, 10 thực thể chính được định nghĩa gồm: format (hình thức công việc), contact (thông tin liên lạc), requirement (yêu cầu công việc), task (nhiệm vụ), type (loại tuyển dụng), salary (mức lương), title (chức vụ), time (thời gian), place (nơi làm việc), address (địa chỉ).

Các khái niệm nền tảng khác bao gồm: word embedding (biểu diễn từ dưới dạng vector số), kỹ thuật word2vec, one-hot encoding, và các kiến trúc mạng nơ-ron học sâu cấp độ từ và ký tự.

Phương pháp nghiên cứu

Nguồn dữ liệu chính được thu thập từ 1141 bài đăng tuyển dụng và tìm việc trên các nhóm Facebook tại TP. Hồ Chí Minh, Bình Dương, Long An. Dữ liệu sau đó được làm sạch, loại bỏ ký tự đặc biệt, emoji và chuẩn hóa bằng công cụ phân tách từ RDRSegmenter trong VnCoreNLP để xử lý tiếng Việt phức tạp.

Phương pháp phân tích chính là xây dựng và huấn luyện mô hình NER dựa trên mô hình PhoBERT (phiên bản BERT dành cho tiếng Việt). Bộ dữ liệu được làm giàu (data augmentation) bằng cách thay thế ngẫu nhiên các cụm từ thực thể trong câu bằng các cụm từ tương đương, từ đó mở rộng lên 12.508 mẫu. Dữ liệu được chia thành tập huấn luyện và kiểm thử theo tỷ lệ 80/20.

Quá trình huấn luyện sử dụng thuật toán AdamW với learning rate 3e-5, batch size 32, trong 10 epochs. Kết quả được đánh giá bằng các chỉ số precision, recall và F1-score. Ngoài ra, hệ thống tư vấn việc làm được xây dựng với kiến trúc backend sử dụng Python và Django, kết nối cơ sở dữ liệu Postgres SQL, và frontend là ứng dụng di động trên nền tảng iOS.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình PhoBERT trong nhận dạng thực thể tiếng Việt: Mô hình đạt F1-score trung bình cao, với các thực thể như salary, address, và time có số lượng mẫu lớn lần lượt đạt F1-score trên 85%. Ví dụ, thực thể salary có hơn 17.000 mẫu sau làm giàu dữ liệu, giúp mô hình nhận dạng chính xác các thông tin về mức lương trong bài đăng.
Tăng trưởng dữ liệu làm giàu giúp cải thiện độ chính xác: Từ bộ dữ liệu gốc 1141 mẫu, sau khi làm giàu lên 12.508 mẫu, mô hình có khả năng tổng quát hóa tốt hơn, đặc biệt với các thực thể ít xuất hiện như requirement và place. Số lượng thực thể time lên đến hơn 33.000 mẫu, giúp mô hình nhận dạng thông tin thời gian hiệu quả.
So sánh với các nghiên cứu liên quan: So với bộ dữ liệu NER về COVID-19 với 10.027 câu và các thực thể y tế, mô hình PhoBERT cũng đạt F1-score cao trên 98% cho một số thực thể. Điều này cho thấy tính ứng dụng rộng rãi và hiệu quả của mô hình BERT trong các lĩnh vực khác nhau, trong đó có tư vấn việc làm.
Hệ thống tư vấn việc làm hoạt động ổn định: Backend cào dữ liệu 24/7 từ hàng trăm nhóm Facebook, cung cấp dữ liệu liên tục cho mô hình và người dùng. Ứng dụng iOS hỗ trợ tìm kiếm việc làm theo hashtag, bộ lọc đa dạng, giúp người dùng dễ dàng tiếp cận thông tin phù hợp.

Thảo luận kết quả

Nguyên nhân chính giúp mô hình đạt hiệu quả cao là nhờ việc sử dụng mô hình PhoBERT, vốn được huấn luyện trên kho dữ liệu tiếng Việt lớn, kết hợp với kỹ thuật làm giàu dữ liệu giúp tăng tính đa dạng và số lượng mẫu huấn luyện. Việc áp dụng cấu trúc BIO trong gán nhãn giúp mô hình phân biệt chính xác các thực thể trong câu phức tạp.

So với các phương pháp truyền thống dựa trên quy tắc, mô hình học sâu tự động khám phá đặc trưng ẩn, giảm thiểu công sức gán nhãn thủ công và tăng khả năng mở rộng. Kết quả này phù hợp với xu hướng ứng dụng mạng nơ-ron học sâu trong NER trên thế giới.

Dữ liệu có thể được trình bày qua biểu đồ phân bố số lượng thực thể trước và sau làm giàu, biểu đồ so sánh F1-score giữa các thực thể, và bảng thống kê kết quả huấn luyện chi tiết. Điều này giúp minh họa rõ ràng sự cải thiện và hiệu quả của mô hình.

Đề xuất và khuyến nghị

Mở rộng thu thập dữ liệu đa dạng hơn: Tiếp tục cào dữ liệu từ nhiều nguồn mạng xã hội và các trang tuyển dụng khác để tăng tính đại diện và đa dạng cho bộ dữ liệu, giúp mô hình nhận dạng chính xác hơn với các dạng câu khác nhau. Thời gian thực hiện: 6-12 tháng, chủ thể: nhóm phát triển hệ thống.
Cải tiến mô hình bằng kỹ thuật fine-tuning nâng cao: Áp dụng các kỹ thuật fine-tuning mới như learning rate scheduling, data balancing để tối ưu hiệu suất mô hình, đặc biệt với các thực thể ít xuất hiện. Thời gian: 3-6 tháng, chủ thể: nhóm nghiên cứu AI.
Phát triển giao diện người dùng thân thiện hơn: Nâng cấp ứng dụng di động với các tính năng gợi ý việc làm thông minh dựa trên hồ sơ người dùng, tích hợp chatbot tư vấn tự động. Thời gian: 6 tháng, chủ thể: đội ngũ phát triển frontend.
Tăng cường bảo mật và quyền riêng tư: Xây dựng các chính sách bảo vệ dữ liệu người dùng, mã hóa thông tin nhạy cảm trong hệ thống để đảm bảo an toàn thông tin. Thời gian: 3 tháng, chủ thể: bộ phận an ninh mạng.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Xử lý ngôn ngữ tự nhiên: Luận văn cung cấp kiến thức nền tảng, phương pháp và mô hình thực nghiệm cụ thể về NER tiếng Việt, giúp phát triển các nghiên cứu tiếp theo.
Các công ty phát triển phần mềm tuyển dụng và tư vấn việc làm: Hệ thống và mô hình được xây dựng có thể ứng dụng trực tiếp hoặc làm cơ sở để phát triển sản phẩm công nghệ hỗ trợ tuyển dụng.
Chuyên gia phân tích dữ liệu và AI: Tham khảo cách thu thập, xử lý dữ liệu tiếng Việt phức tạp, kỹ thuật làm giàu dữ liệu và huấn luyện mô hình học sâu hiệu quả.
Nhà quản lý thị trường lao động và chính sách: Hiểu rõ xu hướng ứng dụng công nghệ trong kết nối người lao động và nhà tuyển dụng, từ đó đề xuất các chính sách hỗ trợ phù hợp.

Câu hỏi thường gặp

Mô hình PhoBERT có ưu điểm gì so với các mô hình khác trong NER tiếng Việt?
PhoBERT được huấn luyện trên kho dữ liệu tiếng Việt lớn, sử dụng kiến trúc Transformer giúp học ngữ cảnh hai chiều hiệu quả, từ đó cải thiện độ chính xác nhận dạng thực thể so với các mô hình truyền thống hoặc mạng nơ-ron đơn giản.
Làm thế nào để xử lý tiếng Việt có nhiều từ phức và dấu câu trong bài toán NER?
Sử dụng công cụ phân tách từ chuyên biệt như RDRSegmenter trong VnCoreNLP giúp nối các âm tiết thành từ hoàn chỉnh, tăng tính chính xác khi gán nhãn và huấn luyện mô hình.
Phương pháp làm giàu dữ liệu (data augmentation) được thực hiện như thế nào?
Phương pháp thay thế ngẫu nhiên các cụm từ thực thể trong câu bằng các cụm từ tương đương cùng loại giúp tăng số lượng mẫu huấn luyện, cải thiện khả năng tổng quát hóa của mô hình.
Hệ thống tư vấn việc làm có thể áp dụng ở những địa phương nào?
Hiện tại hệ thống thu thập dữ liệu từ các nhóm Facebook tại TP. Hồ Chí Minh, Bình Dương, Long An, tuy nhiên kiến trúc có thể mở rộng để áp dụng cho các địa phương khác với việc bổ sung nguồn dữ liệu phù hợp.
Làm sao để đánh giá hiệu quả của mô hình NER trong thực tế?
Ngoài các chỉ số precision, recall, F1-score trên tập kiểm thử, có thể đánh giá qua phản hồi người dùng về độ chính xác thông tin trích xuất, thời gian tìm kiếm việc làm giảm, và tỷ lệ kết nối thành công giữa người tìm việc và nhà tuyển dụng.

Kết luận

Đã xây dựng thành công mô hình nhận dạng thực thể tiếng Việt dựa trên PhoBERT với F1-score cao, đáp ứng yêu cầu bài toán tư vấn việc làm.
Thu thập và làm giàu dữ liệu từ các bài đăng trên mạng xã hội giúp nâng cao hiệu quả mô hình.
Hệ thống tư vấn việc làm được phát triển hoàn chỉnh với backend xử lý dữ liệu và frontend ứng dụng iOS thân thiện.
Kết quả nghiên cứu góp phần thúc đẩy ứng dụng NLP trong thị trường lao động trực tuyến tại Việt Nam.
Đề xuất các hướng phát triển tiếp theo nhằm mở rộng dữ liệu, cải tiến mô hình và nâng cao trải nghiệm người dùng trong 6-12 tháng tới.

Mời các nhà nghiên cứu, doanh nghiệp và chuyên gia quan tâm tiếp cận và ứng dụng kết quả nghiên cứu để phát triển các giải pháp công nghệ hỗ trợ thị trường lao động hiệu quả hơn.

Trích đoạn nội dung tài liệu

Chương 1 (chương hiện tại), tôi giới thiệu khái quát về đề tài luận văn, nêu rõ mục tiêu và phạm vi đề tài. Chương này giúp cho người đọc có cái nhìn toàn cảnh về luận văn. Ở những chương sau, tôi trình bày các kiến thức nền tảng, các công trình liên quan đến bài toán và chi tiết về mô hình xề xuất cũng như các thí nghiệm và kết quả đánh giá của mô hình. Cụ thể nội dung chính của mỗi chương như sau: Chương 2: Các công trình nghiên cứu liên quan Trong Chương 2, tôi trình bày khái quát về một số phương pháp tiếp cận giải quyết bài toán "Nhận dạng thực thể trong ngôn ngữ Tiếng Việt" Chương 3: Kiến thức nền tảng Chương 3 trình bày ngắn gọn các kiến thức, công nghệ nền tảng, cùng một số thư viện và công cụ được sử dụng trong quá trình nghiên cứu và hiện thực mô hình.

Chương 4: Phương pháp đề xuất Trong Chương 4, tôi trình bày các yêu cầu của bài toán "Nhận dạng thực thể", và đề xuất phương pháp giải quyết bài toán này. Chương 5: Hiện thực mô hình và kết quả thực nghiệm Chương này trình bày chi tiết về hiện thực của mô hình, các công cụ và thư viện sử dụng, các bước thực hiện, các phương pháp đánh giá và kết quả 3 thực nghiệm. Chương 6: Kết luận Trong chương cuối cùng, tôi tóm tắt kết quả đạt được trong quá trình làm luận văn, trình bày những đóng góp và hạn chế của luận văn, và đề xuất hướng phát triển tiếp theo. 4 Chương 2 CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN Hệ thống NER đã được nghiên cứu và phát triển rộng rãi trong nhiều thập kỷ, nhưng các hệ thống chính xác sử dụng mạng nơ-ron học sâu (DNN - deep neural network) như trong nghiên cứu (Lample, Ballesteros, Subra- manian, Kawakami, Dyer, 2016) [2] mới chỉ được giới thiệu trong khoảng mười lăm năm gần đây.

Trong những năm gần đây, các mô hình NER dựa trên mạng nơ-ron học sâu trở nên chiếm ưu thế và đạt được những kết quả tiên tiến nhất. So với các phương pháp tiếp cận dựa trên đặc trưng (feature- based), mô hình học sâu có lợi trong việc tự động khám phá các đặc trưng ẩn. Theo quá trình tìm hiểu chủ quan của bản thân, bài toán matching giữa người tìm việc và việc tìm người có chung mô hình với bài toán matching resume [3]. Vì vậy để dễ dàng cho việc tìm hiểu chúng ta có thể lọc ra một số nghiên cứu tiêu biểu về resume, để xem qua những phương pháp trích thông tin và có cái nhìn tổng quan về quá trình nghiên cứu của đề tài này.

Trong phạm vi nghiên cứu, tôi đã tìm hiểu được hai phương pháp: − Phương pháp tiếp cận dựa trên quy tắc (rule-based approach): Cụ thể là xài regex để nhận dạng các thực thể dựa trên các bộ quy tắc đã được định nghĩa trước, gán phần lớn nhãn như email, số điện thoại, mức lương, v. cho tập dữ liệu huấn luyện và kiểm thử. Sau đó, các nhãn đã được gán sẽ được kiểm tra lại thủ công và sửa lại cho đúng. Nhờ ứng dụng phương pháp này mà thời gian gán nhãn cho tập dữ liệu được rút ngắn đáng kể và công đoạn gán nhãn trở nên đơn giản hơn.

5 − Phương pháp tiếp cận dựa trên mạng nơ-ron học sâu: sau khi đã có bộ dữ liệu huấn luyện và kiểm thử hoàn hảo, ba mạng nơ-ron học sâu được áp dụng để huấn luyện và đánh giá hệ thống nhận dạng thực thể có tên. Đó chính mô hình BERT. Phương pháp tiếp cận dựa trên quy tắc (rule- based approach) Phương pháp tiếp cận dựa trên quy tắc không cần dữ liệu đã được chú thích hay gán nhãn vì chúng dựa trên các quy tắc được tạo thủ công để bắt các đặc trưng dựa trên các quy luật đã được định nghĩa trước. Phương pháp tiếp cận dựa trên quy tắc trong nhận dạng thực thể có tên hoạt động như sau: một tập các quy tắc / quy luật được định nghĩa sẵn hay tự động phát sinh.

Mỗi token trong văn bản sẽ được biểu diễn dưới dạng tập các đặc trưng. Văn bản đầu vào sẽ đem so sánh với tập quy tắc này, nếu quy tắc khớp thì sẽ thực hiện rút trích. Một quy tắc như vậy gồm khuôn mẫu (pattern) + hành động (action). Khuôn mẫu thường là regular expression định nghĩa trên tập đặc trưng của token.

Khi Khuôn mẫu này khớp thì hành động sẽ được kích hoạt. Chúng ta có thể tự lập trình các quy tắc của mình hoặc sử dụng 1 số thư viện hỗ trợ sẵn. Một trong những framework/thư viện khá nổi tiếng là Duckling của Facebook. Với hướng nghiên cứu về rule-based đề cập tới những kĩ thuật trích xuất thông tin cơ bản như phân tích văn bản (Text Analytics) kết hợp với rule- based và NER.

Bên cạnh đó những thông tin khi được trích xuất sẽ dùng kĩ thuật big data để thông tin đưa qua một lớp map-reduce để phân tách các cặp key-value liên quan tới các trường dữ liệu muốn trích xuất trong resume. Từ 6 đó đối chiếu với bộ dữ liệu công việc khổng lồ để tìm được công việc phù hợp cho ứng viên. Đối với cách tiếp cận Rule-based ta có kể đến một số phương pháp chính: − Dùng biểu thức chính quy. − Các từ gợi ý như: sau các từ ‘tại’ có thể là vị trí nơi làm việc.

− Tên phổ biến. − Cách viết tên người Bên cạnh đó có một số nghiên cứu dựa trên phương pháp ngữ nghĩa (Semantic-based) để trích xuất thông tin từ resume. Để có được kết quả tốt và cho ra một pipeline hoàn thiện. Cụ thể phương pháp mà nghiên cứu này đề xuất tới là dùng các kĩ thuật như phân tích từ vựng (lexical analysis) sau đó sử dụng phân tích ngữ pháp (syntactic analysis) tận dụng cây phân tích (parse tree) để xác định cú pháp tiếp theo là dùng kĩ thuật phân tích ngữ nghĩa để xác định nghĩa của từ và cuối cùng là kết hợp chúng lại (compile) để xác định từng thực thể trong resume.

Từ đó có thể rút trích được những thông tin mong muốn. Phương pháp mạng nơ-ron học sâu (Collobert, Weston, 2008) đã đề xuất một trong những kiến trúc mạng nơ-ron đầu tiên cho NER, với các vectơ đặc trưng được xây dựng từ các đặc trưng trực quan (ví dụ: viết hoa của ký tự đầu tiên), từ điển và từ vựng. Không lâu sau đó, (Collobert, et al., 2011) [4] đã thay thế các vectơ đặc trưng được xây dựng theo cách thủ công này bằng các phép nhúng từ, là các biểu diễn của các từ trong không gian n chiều, thường được học qua các bộ sưu tập dữ liệu lớn không được gắn nhãn thông qua một quy trình không 7 giám sát như mô hình skip-gram. Các nghiên cứu đã chỉ ra tầm quan trọng to lớn của việc nhúng từ được huấn luyện trước đối với các hệ thống NER dựa trên mạng nơ-ron và tương tự đối với nhúng ký tự được huấn luyện trước trong các ngôn ngữ dựa trên ký tự như tiếng Trung Quốc.

Kiến trúc mạng nơ-ron học sâu hiện đại cho NER có thể được phân loại tùy thuộc vào biểu diễn của các từ trong một câu. Ví dụ: các biểu diễn có thể dựa trên các từ, ký tự, các đơn vị từ phụ khác hoặc bất kỳ sự kết hợp nào của những từ này. Kiến trúc mạng nơ-ron học sâu cấp độ từ cho bài toán NER Trong kiến trúc này, các từ của một câu được đưa ra làm đầu vào cho mạng nơ-ron hồi quy (RNN - Recurrent Neural Network) và mỗi từ được biểu diễn bằng cách nhúng từ của nó.1: Kiến trúc mạng nơ-ron học sâu cấp độ từ Mô hình mạng nơ-ron cấp độ từ đầu tiên được đề xuất bởi (Collobert, et al. Kiến trúc tương tự như kiến trúc được thể hiện trong hình ảnh trên, nhưng một lớp tích chập được sử dụng thay cho lớp Bi-LSTM và đầu ra của lớp tích chập đã được cấp cho lớp CRF để đưa ra dự đoán cuối cùng.

Các tác giả đạt được 89,59 % điểm F1 trên tập dữ liệu CoNLL 2003 bằng tiếng Anh, là một trong những hệ thống NER tốt nhất thời bấy giờ. Kiến trúc mạng nơ-ron học sâu cấp độ ký tự cho bài toán NER Trong mô hình này, một câu được coi là một chuỗi các ký tự. Trình tự này được chuyển qua một mạng nơ-ron hồi quy, dự đoán nhãn cho từng ký tự như ảnh bên dưới. Các nhãn ký tự được chuyển thành nhãn từ thông qua bước hậu xử lý.

Tiềm năng của mô hình mạng nơron học sâu cấp độ ký tự lần đầu tiên được nêu bật trong nghiên cứu (Kim, Jernite, Sontag, & Rush, 2016). Các tác giả đã sử dụng mạng nơ-ron tích chập (CNN) trên chuỗi ký tự của các từ và sau đó sử dụng một lớp khác của LSTM + softmax cho các dự đoán cuối cùng. Mô hình này được (Pham & Le, 2017) thực hiện cho NER Việt Nam và đạt 80,23 % điểm F1 trên tập dữ liệu tiếng Việt của (Nguyen, Nguyen, & Tran, 2016).2: Kiến trúc mạng nơ-ron học sâu cấp độ ký tự 9 Chương 3 CƠ SỞ KIẾN THỨC 3. Giới thiệu Word Representation Khác với các mô hình xử lý ảnh khi các giá trị đầu vào là cường độ màu sắc đã được mã hoá thành giá trị số trong khoảng [0, 255].

Mô hình xử lý ngôn ngữ tự nhiên có đầu vào chỉ là các chữ cái kết hợp với dấu câu. Làm sao chúng ta có thể mã hoá được những từ ngữ để làm đầu vào cho mạng nơron? Một trong các kĩ thuật để biểu diễn từ là kĩ thuật one-hot vectơ. Trước khi đi vào phương pháp biểu diễn, chúng ta cần làm rõ một số khái niệm: − Documents (Văn bản): Là tập hợp các câu trong cùng một đoạn văn có mối liên hệ với nhau. − Corpus (Bộ văn bản): Là một tập hợp gồm nhiều văn bản thuộc các đề tài khác nhau, tạo thành một nguồn tài nguyên dạng văn bản.

Một văn bản cũng có thể được coi là corpus của các câu trong văn bản. Các bộ văn bản lớn thường có từ vài nghìn đến vài trăm nghìn văn bản trong nó. − Character (kí tự): Là tập hợp gồm các chữ cái (nguyên âm và phụ âm) và dấu câu. Mỗi một ngôn ngữ sẽ có một bộ các kí tự khác nhau.

− Word (từ vựng): Là các kết hợp của các kí tự tạo thành những từ biểu thị một nội dung, định nghĩa xác định, chẳng hạn con người có thể coi là một từ vựng. − Dictionary (từ điển): Là tập hợp các từ vựng xuất hiện trong văn bản. 10 − Vocabulary (từ vựng): Tập hợp các từ được trích xuất trong văn bản. Tương tự như từ điển.

Trước khi biểu diễn từ chúng ta cần xác định từ điển của văn bản.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Xử lý ngôn ngữ tự nhiên trong phát triển hệ thống tư vấn việc làm" của tác giả Trương Lê Quang Pháp, dưới sự hướng dẫn của PGS.TS Quản Thành Thơ, được thực hiện tại Đại học Bách Khoa - ĐHQG TP.HCM. Nghiên cứu này tập trung vào việc ứng dụng công nghệ xử lý ngôn ngữ tự nhiên (NLP) để phát triển các hệ thống tư vấn việc làm hiệu quả hơn, giúp người dùng tìm kiếm cơ hội nghề nghiệp phù hợp với kỹ năng và nguyện vọng của họ. Bài viết không chỉ cung cấp cái nhìn sâu sắc về cách mà NLP có thể cải thiện trải nghiệm người dùng mà còn đưa ra những lợi ích thiết thực cho cả người tìm việc và nhà tuyển dụng.

Để mở rộng thêm kiến thức về lĩnh vực này, bạn có thể tham khảo các tài liệu liên quan như Nghiên cứu và phát triển hệ thống gợi ý việc làm trực tuyến cho đô thị, nơi cũng áp dụng công nghệ thông tin trong việc tư vấn nghề nghiệp. Ngoài ra, bài viết Ứng dụng công nghệ thông tin trong hệ thống lưu trữ và truyền tải hình ảnh phục vụ chuẩn đoán tại bệnh viện đa khoa Bình Dương cũng có thể cung cấp cho bạn cái nhìn về ứng dụng công nghệ thông tin trong các lĩnh vực khác nhau. Cuối cùng, bài viết Luận án tiến sĩ: Nghiên cứu thuật toán và ứng dụng công nghệ định vị vệ tinh GNSS tại Việt Nam cũng có thể giúp bạn hiểu rõ hơn về những ứng dụng công nghệ hiện đại trong đời sống.

Những tài liệu này không chỉ mở rộng kiến thức của bạn về xử lý ngôn ngữ tự nhiên mà còn giúp bạn khám phá thêm nhiều khía cạnh khác trong lĩnh vực công nghệ thông tin.

#Luận văn Thạc sĩ

#khoa học máy tính

#xử lý ngôn ngữ tự nhiên

#công nghệ thông tin

#trí tuệ nhân tạo

#phát triển phần mềm

Chủ đề

Phát triển hệ thống thông minh

Công nghệ và ứng dụng trong tư vấn việc làm

Xử lý ngôn ngữ tự nhiên trong khoa học máy tính

Xu hướng nghề nghiệp trong lĩnh vực công nghệ