Luận văn thạc sĩ: Trích xuất dữ liệu từ resume với mô hình Question Answering và BERT

Trường đại học

Trường Đại Học Bách Khoa

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2022

52
0
0

Phí lưu trữ

30.000 VNĐ

Tóm tắt

I. Giới thiệu đề tài

Đề tài 'Trích xuất dữ liệu từ resume bằng mô hình Question Answering kết hợp BERT' tập trung vào việc phát triển một hệ thống tự động trích xuất thông tin từ các resume không có cấu trúc. Trong bối cảnh công nghiệp 4.0, việc xử lý hồ sơ xin việc trở nên cần thiết hơn bao giờ hết. Hệ thống này sử dụng mô hình BERT để cải thiện độ chính xác và hiệu quả trong việc trích xuất thông tin như tên, địa chỉ email, kinh nghiệm làm việc và học vấn. Việc áp dụng công nghệ này không chỉ giúp tiết kiệm thời gian mà còn nâng cao chất lượng tuyển dụng.

1.1 Mục tiêu đề tài

Mục tiêu chính của đề tài là phát triển một mô hình trích xuất thông tin từ resume, giúp tự động hóa quy trình tuyển dụng. Mô hình này sẽ sử dụng phương pháp hỏi đáp dựa trên kiến trúc transformer, kết hợp với kỹ thuật phân đoạn văn bản để tối ưu hóa việc trích xuất thông tin. Việc này không chỉ giúp nhà tuyển dụng tiết kiệm thời gian mà còn nâng cao độ chính xác trong việc phân tích hồ sơ ứng viên.

1.2 Giới hạn đề tài

Đề tài này sẽ tập trung vào việc trích xuất thông tin từ các resume ở định dạng phổ biến như Word và PDF. Mặc dù các định dạng này dễ đọc cho con người, nhưng việc xử lý chúng bằng máy tính vẫn gặp nhiều thách thức. Hệ thống sẽ không xử lý các loại dữ liệu phi cấu trúc khác như email hay nội dung trang web, mà chỉ tập trung vào các thông tin có cấu trúc trong resume.

II. Công trình nghiên cứu liên quan

Nghiên cứu hiện tại về trích xuất thông tin từ resume chủ yếu tập trung vào việc sử dụng các phương pháp học sâu và xử lý ngôn ngữ tự nhiên. Các mô hình như BERT đã chứng minh được hiệu quả trong việc hiểu ngữ nghĩa và ngữ cảnh của văn bản. Việc áp dụng mô hình BERT trong trích xuất thông tin từ resume giúp cải thiện độ chính xác và khả năng xử lý ngữ nghĩa. Các nghiên cứu trước đây đã chỉ ra rằng việc sử dụng các phương pháp hỏi đáp có thể giúp tăng cường khả năng truy xuất thông tin từ các nguồn dữ liệu không có cấu trúc.

2.1 Tình hình nghiên cứu thế giới

Trên thế giới, nhiều nghiên cứu đã chỉ ra rằng việc áp dụng các mô hình học sâu như BERT trong lĩnh vực tuyển dụng có thể cải thiện đáng kể quy trình sàng lọc hồ sơ. Các nghiên cứu này đã phát triển nhiều phương pháp khác nhau để tối ưu hóa việc trích xuất thông tin từ resume, từ đó giúp nhà tuyển dụng dễ dàng hơn trong việc tìm kiếm ứng viên phù hợp.

2.2 Đề xuất phương pháp nghiên cứu

Phương pháp nghiên cứu đề xuất trong luận văn này là kết hợp giữa mô hình BERT và phương pháp hỏi đáp. Mô hình sẽ được tinh chỉnh để phù hợp với các câu hỏi cụ thể liên quan đến thông tin trong resume. Việc này không chỉ giúp cải thiện độ chính xác mà còn giúp hệ thống hoạt động hiệu quả hơn trong việc xử lý các loại dữ liệu khác nhau.

III. Mô hình đề xuất

Mô hình đề xuất trong luận văn này bao gồm các bước tiền xử lý dữ liệu, xây dựng mô hình và đánh giá kết quả. Dữ liệu sẽ được phân đoạn thành các phần thông tin cần thiết trước khi được đưa vào mô hình BERT. Việc này giúp mô hình dễ dàng hơn trong việc tìm kiếm và trích xuất thông tin. Các kỹ thuật làm sạch dữ liệu cũng sẽ được áp dụng để đảm bảo rằng thông tin được trích xuất là chính xác và đầy đủ.

3.1 Dữ liệu thử nghiệm

Dữ liệu thử nghiệm sẽ được thu thập từ nhiều nguồn khác nhau, bao gồm các resume thực tế từ các trang web tuyển dụng. Việc này giúp đảm bảo rằng mô hình có thể hoạt động hiệu quả trong các tình huống thực tế. Dữ liệu sẽ được phân loại và tổ chức để dễ dàng trong việc xử lý và phân tích.

3.2 Tiền xử lý dữ liệu

Quá trình tiền xử lý dữ liệu sẽ bao gồm việc làm sạch và chuẩn hóa thông tin từ các resume. Các kỹ thuật như phân đoạn văn bản và loại bỏ các thông tin không cần thiết sẽ được áp dụng. Mục tiêu là tạo ra một tập dữ liệu có cấu trúc rõ ràng, giúp mô hình BERT dễ dàng hơn trong việc trích xuất thông tin.

09/02/2025

TÀI LIỆU LIÊN QUAN

Luận văn thạc sĩ khoa học máy tính trích xuất dữ liệu từ resume dựa trên mô hình questionanswering kết hợp bert
Bạn đang xem trước tài liệu : Luận văn thạc sĩ khoa học máy tính trích xuất dữ liệu từ resume dựa trên mô hình questionanswering kết hợp bert

Để xem tài liệu hoàn chỉnh bạn click vào nút

Tải xuống

Bài viết "Trích xuất dữ liệu từ resume bằng mô hình Question Answering kết hợp BERT" trình bày một phương pháp hiệu quả để trích xuất thông tin từ hồ sơ xin việc (resume) bằng cách sử dụng mô hình Question Answering dựa trên BERT. Tác giả phân tích cách mà mô hình này có thể cải thiện độ chính xác và tốc độ trong việc nhận diện và trích xuất các thông tin quan trọng như kỹ năng, kinh nghiệm làm việc và trình độ học vấn từ các hồ sơ. Điều này không chỉ giúp tiết kiệm thời gian cho nhà tuyển dụng mà còn nâng cao chất lượng tuyển dụng.

Để mở rộng thêm kiến thức về các phương pháp trích xuất thông tin, bạn có thể tham khảo bài viết Luận văn thạc sĩ nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng việt, nơi bạn sẽ tìm thấy những ứng dụng khác của các kỹ thuật trích xuất thông tin. Ngoài ra, bài viết Luận văn thạc sĩ advanced deep learning methods and applications in opendomain question answering sẽ cung cấp cái nhìn sâu sắc hơn về các phương pháp học sâu trong hệ thống hỏi đáp. Cuối cùng, bạn có thể khám phá thêm về Luận văn thạc sĩ phân tách cụm danh từ cơ sở tiếng việt sử dụng mô hình crfs, giúp bạn hiểu rõ hơn về các kỹ thuật phân tích ngữ nghĩa trong ngôn ngữ tự nhiên. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và ứng dụng trong lĩnh vực trích xuất thông tin.

Tải xuống (52 Trang - 2 MB)