Luận văn thạc sĩ: Trích xuất dữ liệu từ resume với mô hình Question Answering và BERT

Khám phá cách trích xuất dữ liệu từ resume hiệu quả bằng mô hình Question Answering kết hợp BERT, ứng dụng AI trong xử lý thông tin.

Trường đại học

Trường Đại Học Bách Khoa

Chuyên ngành

Khoa Học Máy Tính

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2022

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu chung

1.2. Mục tiêu đề tài

1.3. Giới hạn đề tài

1.4. Đối tượng nghiên cứu

2. CHƯƠNG 2: CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Tình hình nghiên cứu thế giới

2.2. Đề xuất phương pháp nghiên cứu

2.2.1. Giới thiệu Word Representation

2.2.2. Kỹ thuật Word Embedding

2.2.3. Kiến trúc Transformer

2.2.4. Mô hình Bidirectional Encoder Representation from Transformer - BERT

2.2.5. Mô hình hỏi đáp dựa trên BERT

4. CHƯƠNG 4: MÔ HÌNH ĐỀ XUẤT

4.1. Dữ liệu thử nghiệm

4.2. Tiền xử lí dữ liệu

4.3. Xây dựng mô hình

4.4. Phương pháp đánh giá

5. CHƯƠNG 5: KẾT QUẢ THỬ NGHIỆM

5.1. Mục tiêu thử nghiệm

5.2. Quá trình thử nghiệm

5.3. Kết quả thử nghiệm

5.4. Demo hệ thống

5.4.1. Đánh giá kết quả

5.4.2. Một số hạn chế

5.4.3. Hướng phát triển

5.4.4. Tiềm năng trong thực tế

TÀI LIỆU THAM KHẢO

PHẦN LÝ LỊCH TRÍCH NGANG

Tóm tắt

I. Giới thiệu đề tài

Đề tài 'Trích xuất dữ liệu từ resume bằng mô hình Question Answering kết hợp BERT' tập trung vào việc phát triển một hệ thống tự động trích xuất thông tin từ các resume không có cấu trúc. Trong bối cảnh công nghiệp 4.0, việc xử lý hồ sơ xin việc trở nên cần thiết hơn bao giờ hết. Hệ thống này sử dụng mô hình BERT để cải thiện độ chính xác và hiệu quả trong việc trích xuất thông tin như tên, địa chỉ email, kinh nghiệm làm việc và học vấn. Việc áp dụng công nghệ này không chỉ giúp tiết kiệm thời gian mà còn nâng cao chất lượng tuyển dụng.

1.1 Mục tiêu đề tài

Mục tiêu chính của đề tài là phát triển một mô hình trích xuất thông tin từ resume, giúp tự động hóa quy trình tuyển dụng. Mô hình này sẽ sử dụng phương pháp hỏi đáp dựa trên kiến trúc transformer, kết hợp với kỹ thuật phân đoạn văn bản để tối ưu hóa việc trích xuất thông tin. Việc này không chỉ giúp nhà tuyển dụng tiết kiệm thời gian mà còn nâng cao độ chính xác trong việc phân tích hồ sơ ứng viên.

1.2 Giới hạn đề tài

Đề tài này sẽ tập trung vào việc trích xuất thông tin từ các resume ở định dạng phổ biến như Word và PDF. Mặc dù các định dạng này dễ đọc cho con người, nhưng việc xử lý chúng bằng máy tính vẫn gặp nhiều thách thức. Hệ thống sẽ không xử lý các loại dữ liệu phi cấu trúc khác như email hay nội dung trang web, mà chỉ tập trung vào các thông tin có cấu trúc trong resume.

II. Công trình nghiên cứu liên quan

Nghiên cứu hiện tại về trích xuất thông tin từ resume chủ yếu tập trung vào việc sử dụng các phương pháp học sâu và xử lý ngôn ngữ tự nhiên. Các mô hình như BERT đã chứng minh được hiệu quả trong việc hiểu ngữ nghĩa và ngữ cảnh của văn bản. Việc áp dụng mô hình BERT trong trích xuất thông tin từ resume giúp cải thiện độ chính xác và khả năng xử lý ngữ nghĩa. Các nghiên cứu trước đây đã chỉ ra rằng việc sử dụng các phương pháp hỏi đáp có thể giúp tăng cường khả năng truy xuất thông tin từ các nguồn dữ liệu không có cấu trúc.

2.1 Tình hình nghiên cứu thế giới

Trên thế giới, nhiều nghiên cứu đã chỉ ra rằng việc áp dụng các mô hình học sâu như BERT trong lĩnh vực tuyển dụng có thể cải thiện đáng kể quy trình sàng lọc hồ sơ. Các nghiên cứu này đã phát triển nhiều phương pháp khác nhau để tối ưu hóa việc trích xuất thông tin từ resume, từ đó giúp nhà tuyển dụng dễ dàng hơn trong việc tìm kiếm ứng viên phù hợp.

2.2 Đề xuất phương pháp nghiên cứu

Phương pháp nghiên cứu đề xuất trong luận văn này là kết hợp giữa mô hình BERT và phương pháp hỏi đáp. Mô hình sẽ được tinh chỉnh để phù hợp với các câu hỏi cụ thể liên quan đến thông tin trong resume. Việc này không chỉ giúp cải thiện độ chính xác mà còn giúp hệ thống hoạt động hiệu quả hơn trong việc xử lý các loại dữ liệu khác nhau.

III. Mô hình đề xuất

Mô hình đề xuất trong luận văn này bao gồm các bước tiền xử lý dữ liệu, xây dựng mô hình và đánh giá kết quả. Dữ liệu sẽ được phân đoạn thành các phần thông tin cần thiết trước khi được đưa vào mô hình BERT. Việc này giúp mô hình dễ dàng hơn trong việc tìm kiếm và trích xuất thông tin. Các kỹ thuật làm sạch dữ liệu cũng sẽ được áp dụng để đảm bảo rằng thông tin được trích xuất là chính xác và đầy đủ.

3.1 Dữ liệu thử nghiệm

Dữ liệu thử nghiệm sẽ được thu thập từ nhiều nguồn khác nhau, bao gồm các resume thực tế từ các trang web tuyển dụng. Việc này giúp đảm bảo rằng mô hình có thể hoạt động hiệu quả trong các tình huống thực tế. Dữ liệu sẽ được phân loại và tổ chức để dễ dàng trong việc xử lý và phân tích.

3.2 Tiền xử lý dữ liệu

Quá trình tiền xử lý dữ liệu sẽ bao gồm việc làm sạch và chuẩn hóa thông tin từ các resume. Các kỹ thuật như phân đoạn văn bản và loại bỏ các thông tin không cần thiết sẽ được áp dụng. Mục tiêu là tạo ra một tập dữ liệu có cấu trúc rõ ràng, giúp mô hình BERT dễ dàng hơn trong việc trích xuất thông tin.

09/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính trích xuất dữ liệu từ resume dựa trên mô hình questionanswering kết hợp bert

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0, chuyển đổi số đã trở thành xu hướng tất yếu trong nhiều lĩnh vực như văn phòng công sở, giáo dục, ngân hàng và y tế. Theo ước tính, các doanh nghiệp và cơ quan tuyển dụng phải xử lý hàng nghìn hồ sơ xin việc (resume) mỗi ngày, gây ra áp lực lớn về thời gian và nhân lực. Việc trích xuất thông tin tự động từ resume không chỉ giúp tiết kiệm thời gian mà còn nâng cao hiệu quả quản lý dữ liệu ứng viên. Mục tiêu của luận văn là phát triển một hệ thống trích xuất dữ liệu từ resume dựa trên mô hình hỏi đáp (Question Answering - QA) kết hợp với kiến trúc BERT, nhằm chuyển đổi dữ liệu phi cấu trúc thành dữ liệu có cấu trúc, phục vụ cho việc lưu trữ và phân tích. Nghiên cứu tập trung trên dữ liệu tiếng Anh thu thập từ 1000 resume trên website VietnamWorks, với 2386 câu hỏi liên quan đến 9 trường dữ liệu chính như Education, Experience, Certificate, Skill, v.v. Phạm vi nghiên cứu giới hạn trong việc áp dụng mô hình học sâu BERT và kỹ thuật segmentation text để phân đoạn và trích xuất thông tin. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc tự động hóa quy trình tuyển dụng, giúp các nhà tuyển dụng nâng cao tỷ lệ chính xác và giảm thiểu thời gian xử lý hồ sơ.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính: kiến trúc Transformer và mô hình BERT.

Kiến trúc Transformer là một mô hình mạng nơ-ron dựa trên cơ chế self-attention, cho phép xử lý dữ liệu tuần tự hiệu quả mà không cần đến các mạng RNN truyền thống. Transformer bao gồm các thành phần như multi-head attention, feed-forward networks, và positional encoding, giúp mô hình nắm bắt ngữ cảnh toàn diện trong câu.
Mô hình BERT (Bidirectional Encoder Representations from Transformers) là một mô hình học sâu được huấn luyện trước với kỹ thuật Masked Language Model (MLM) và Next Sentence Prediction (NSP), cho phép hiểu ngữ cảnh hai chiều của từ trong câu. BERT được fine-tune cho bài toán hỏi đáp, sử dụng token [CLS] và [SEP] để phân biệt câu hỏi và đoạn văn bản, từ đó xác định vị trí bắt đầu và kết thúc của câu trả lời trong đoạn văn.

Các khái niệm chính bao gồm: Word Embedding (biểu diễn từ dưới dạng vectơ), Question Answering (phương pháp truy xuất câu trả lời chính xác từ văn bản), segmentation text (phân đoạn văn bản thành các phần nhỏ để trích xuất thông tin), và confusion matrix (bảng đánh giá hiệu suất mô hình).

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu thu thập từ website VietnamWorks, gồm 1000 resume tiếng Anh với 2386 câu hỏi và câu trả lời liên quan đến 9 trường dữ liệu cần trích xuất. Dữ liệu được tiền xử lý để xác định vị trí bắt đầu của câu trả lời trong ngữ cảnh, chuyển đổi sang định dạng phù hợp cho mô hình BERT.

Phương pháp phân tích sử dụng kỹ thuật fine-tune mô hình BERT cho bài toán hỏi đáp, kết hợp với segmentation text dựa trên kỹ thuật word embedding và cosine similarity để phân đoạn resume thành các phần chứa thông tin cần trích xuất. Quá trình huấn luyện được thực hiện trên nền tảng Google Colab với batch size và số epoch được điều chỉnh để tối ưu kết quả.

Timeline nghiên cứu kéo dài từ tháng 9 đến tháng 12 năm 2021, bao gồm các bước thu thập dữ liệu, tiền xử lý, xây dựng mô hình, huấn luyện và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình BERT trong trích xuất thông tin: Mô hình đạt giá trị Exact Match (EM) 0.97 trên tập huấn luyện và 0.73 trên tập kiểm tra, với F1-score tương ứng là 0.93 trên tập huấn luyện. Kết quả này cho thấy mô hình có khả năng trích xuất chính xác các trường dữ liệu từ resume.
So sánh với các mô hình khác: Khi so sánh với các mô hình RoBerta, AlBert và ELECTRA, mô hình AlBert cho kết quả tốt hơn gần như ở mọi chỉ số, nhờ vào việc giảm số lượng tham số và cải tiến thuật toán huấn luyện.
Tác động của segmentation text: Việc phân đoạn văn bản bằng kỹ thuật word embedding kết hợp sliding window giúp thu hẹp phạm vi tìm kiếm câu trả lời, nâng cao độ chính xác và giảm thiểu sai sót trong trích xuất.
Độ chính xác gần đúng (Approximate EM): Khi cho phép sai lệch ±1 token trong câu trả lời, chỉ số EM tăng lên đáng kể, cho thấy mô hình thường chỉ sai lệch nhỏ trong việc xác định vị trí câu trả lời.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả cao của mô hình là nhờ kiến trúc Transformer và khả năng học ngữ cảnh hai chiều của BERT, giúp mô hình hiểu sâu sắc nội dung resume dù có nhiều định dạng khác nhau. Việc áp dụng segmentation text giúp giảm độ phức tạp của dữ liệu đầu vào, từ đó cải thiện khả năng trích xuất thông tin chính xác.

So với các nghiên cứu trước đây sử dụng rule-based hoặc semantic-based truyền thống, phương pháp kết hợp BERT và QA cho thấy ưu thế vượt trội về độ chính xác và khả năng xử lý dữ liệu phi cấu trúc. Tuy nhiên, kết quả trên tập kiểm tra còn có thể cải thiện thêm thông qua việc tinh chỉnh tham số và mở rộng bộ dữ liệu huấn luyện.

Dữ liệu có thể được trình bày qua biểu đồ biểu diễn sự thay đổi của chỉ số Exact Match và F1-score theo số epoch huấn luyện, cũng như bảng so sánh hiệu suất giữa các mô hình BERT, AlBert, RoBerta và ELECTRA.

Đề xuất và khuyến nghị

Tối ưu hóa bộ dữ liệu huấn luyện: Mở rộng và làm sạch dữ liệu resume để tăng tính đa dạng và độ chính xác, giúp mô hình học sâu hơn và giảm thiểu sai sót trong trích xuất. Thời gian thực hiện: 3-6 tháng, chủ thể: nhóm nghiên cứu và kỹ sư dữ liệu.
Phát triển mô hình cho tiếng Việt: Áp dụng kỹ thuật fine-tune trên mô hình BERT tiếng Việt để mở rộng khả năng trích xuất dữ liệu cho resume tiếng Việt, đáp ứng nhu cầu thực tế tại Việt Nam. Thời gian thực hiện: 6-9 tháng, chủ thể: nhóm nghiên cứu NLP.
Xây dựng hệ thống lưu trữ và truy xuất dữ liệu: Thiết kế cơ sở dữ liệu NoSQL để lưu trữ thông tin trích xuất, đồng thời phát triển giao diện tìm kiếm và phân loại hồ sơ cho nhà tuyển dụng. Thời gian thực hiện: 3 tháng, chủ thể: đội phát triển phần mềm.
Tích hợp hệ thống vào quy trình tuyển dụng: Đề xuất triển khai hệ thống tự động trích xuất và xếp hạng hồ sơ trong các công ty và trang tuyển dụng lớn nhằm nâng cao hiệu quả tuyển dụng. Thời gian thực hiện: 3-6 tháng, chủ thể: phòng nhân sự và công nghệ thông tin.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, NLP: Luận văn cung cấp kiến thức sâu về mô hình BERT, Transformer và ứng dụng trong trích xuất thông tin, hỗ trợ nghiên cứu và phát triển các bài toán tương tự.
Chuyên gia phát triển phần mềm tuyển dụng: Tham khảo để xây dựng hoặc cải tiến các hệ thống tự động xử lý hồ sơ ứng viên, nâng cao hiệu quả và độ chính xác trong tuyển dụng.
Nhà quản lý nhân sự và tuyển dụng: Hiểu rõ về công nghệ trích xuất dữ liệu tự động, từ đó áp dụng các giải pháp công nghệ vào quy trình tuyển dụng, tiết kiệm thời gian và chi phí.
Các công ty công nghệ và startup trong lĩnh vực AI: Tận dụng kết quả nghiên cứu để phát triển sản phẩm mới về xử lý ngôn ngữ tự nhiên, đặc biệt trong lĩnh vực tuyển dụng và quản lý dữ liệu nhân sự.

Câu hỏi thường gặp

Mô hình BERT có thể áp dụng cho ngôn ngữ khác ngoài tiếng Anh không?
Có thể, tuy nhiên cần fine-tune lại mô hình trên dữ liệu ngôn ngữ mục tiêu. Luận văn đề xuất phát triển mô hình cho tiếng Việt để nâng cao hiệu quả trích xuất.
Phương pháp segmentation text hoạt động như thế nào?
Phương pháp sử dụng kỹ thuật word embedding kết hợp sliding window để phân đoạn resume thành các phần nhỏ, từ đó xác định segment chứa thông tin cần trích xuất dựa trên độ tương đồng cosine similarity.
Độ chính xác của mô hình trích xuất thông tin đạt được bao nhiêu?
Mô hình đạt Exact Match khoảng 0.97 trên tập huấn luyện và 0.73 trên tập kiểm tra, với F1-score lên đến 0.93 trên tập huấn luyện, cho thấy hiệu quả cao trong việc trích xuất dữ liệu.
Có thể áp dụng mô hình này cho các định dạng resume khác nhau không?
Có, mô hình không phụ thuộc vào thứ tự hay kiểu dữ liệu trong resume, phù hợp với nhiều định dạng như PDF, Word, giúp xử lý đa dạng hồ sơ.
Làm thế nào để cải thiện kết quả mô hình trên tập kiểm tra?
Có thể mở rộng bộ dữ liệu huấn luyện, tinh chỉnh tham số mô hình, áp dụng kỹ thuật augmentation dữ liệu và phát triển mô hình cho ngôn ngữ bản địa để nâng cao độ chính xác.

Kết luận

Luận văn đã xây dựng thành công mô hình trích xuất dữ liệu từ resume dựa trên phương pháp hỏi đáp kết hợp BERT, đạt độ chính xác cao trên bộ dữ liệu tiếng Anh.
Áp dụng kỹ thuật segmentation text giúp cải thiện hiệu quả trích xuất thông tin trong các resume có cấu trúc phức tạp.
So sánh với các mô hình hiện đại khác cho thấy AlBert là lựa chọn tối ưu về hiệu suất và tham số.
Nghiên cứu mở ra hướng phát triển cho các mô hình trích xuất dữ liệu tiếng Việt và tích hợp vào hệ thống tuyển dụng thực tế.
Đề xuất các bước tiếp theo bao gồm mở rộng dữ liệu, phát triển mô hình đa ngôn ngữ và xây dựng hệ thống lưu trữ, truy xuất dữ liệu tự động.

Quý độc giả và nhà nghiên cứu được khuyến khích tiếp tục phát triển và ứng dụng các kết quả này nhằm nâng cao hiệu quả tuyển dụng và quản lý dữ liệu nhân sự trong thời đại chuyển đổi số.

Trích đoạn nội dung tài liệu

ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA -------------------- TRẦN QUỐC TÍNH TRÍCH XUẤT DỮ LIỆU TỪ RESUME DỰA TRÊN MÔ HÌNH QUESTION - ANSWERING KẾT HỢP BERT Chuyên ngành: Khoa học Máy tính Mã số: 8.01 LUẬN VĂN THẠC SĨ TP. HỒ CHÍ MINH, tháng 01 năm 2022 CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI: TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán bộ hướng dẫn khoa học: PGS. TS Quản Thành Thơ Cán bộ chấm nhận xét 1: Lê Văn Quốc Anh Cán bộ chấm nhận xét 2: Nguyễn Lưu Thùy Ngân Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp.

HCM ngày 12 tháng 01 năm 2022 (trực tuyến). Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: 1. Nguyễn Đức Dũng………….- Chủ tịch Hội đồng 2. Nguyễn Tiến Thịnh………….

Lê Văn Quốc Anh ……………. Nguyễn Lưu Thùy Ngân…………. Lê Thanh Vân …….- Ủy viên Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có). CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH TS.

Nguyễn Đức Dũng ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Trần Quốc Tính. Ngày, tháng, năm sinh: 21/08/1997 .Nơi sinh: Phú Yên. Chuyên ngành: Khoa học máy tính. TÊN ĐỀ TÀI : Trích xuất dữ liệu từ resume dựa trên mô hình Question - Answering kết hợp BERT / Extract information from resume based on BERT Question - Answering model.

NHIỆM VỤ VÀ NỘI DUNG : Phát triển một mô hình dựa trên các kỹ thuật học sâu hiện đại có khả năng tự động trích xuất dữ liệu từ resume. Phương pháp đề xuất được đưa ra ở đây là phương pháp hỏi đáp dựa trên kiến trúc transformer kết hợp sử dụng segmentation text để phân đoạn resume thành những segment của những phần thông tin cần trích xuất sau đó dựa vào kĩ thuật hỏi đáp để trích xuất ra những thông tin trên những segment chúng ta đã phân tách. Mô hình hỏi đáp sẽ được xây dựng bằng các fine- tune mô hình bert. NGÀY GIAO NHIỆM VỤ : 06/09/2021 IV.

NGÀY HOÀN THÀNH NHIỆM VỤ: 12/12/2021 V. CÁN BỘ HƯỚNG DẪN : PGS. Quản Thành Thơ Tp. năm 2022 CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN PGS.

Quản Thành Thơ TRƯỞNG KHOA KHOA HỌC KỸ THUẬT VÀ MÁY TÍNH i Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính LỜI CẢM ƠN Để hoàn thành được đề tài luận văn thạc sĩ này, tôi xin bày tỏ sự cảm kích đặc biệt cũng như lời cảm ơn chân thành đến người thầy của tôi, PGS. Quản Thành Thơ, người đã định hướng, trực tiếp dìu dắt và tận tình chỉ bảo cho tôi trong suốt quá trình thực hiện. Xin chân thành cảm ơn những bài giảng, những buổi thảo luận về tư duy và phương pháp thực hiện đã giúp tôi có được thêm nhiều kiến thức quý giá trong việc hoàn thành tốt luận văn này. Đồng thời, thầy cũng là người luôn cho tôi không chỉ những lời khuyên vô cùng quý giá về kiến thức chuyên môn mà còn là sự tận tâm trong quá trình giảng dạy.

Một lần nữa, tôi xin gửi lời cảm ơn đến thầy bằng tất cả tấm lòng và sự biết ơn của mình. Tôi cũng xin chân thành cảm ơn quý Thầy Cô ở Khoa Khoa Học Máy Tính – Trường Đại Học Bách Khoa TP.HCM đã cùng với tri thức và tâm huyết của mình để truyền đạt kiến thức quý báu cho những học viên cao học như tôi trong suốt thời gian học tập và nghiên cứu. Sau cùng, tôi xin cảm ơn gia đình, anh chị, bạn bè, các bạn học viên, những người đã giúp đỡ, hỗ trợ tôi cũng như góp ý cho tôi quá trình thực hiện và hoàn thành đề tài luận văn thạc sĩ này. Chân thành cảm ơn.

Hồ Chí Minh, ngày 15 tháng 11 năm 2021. Học Viên Trần Quốc Tính ii Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính TÓM TẮT LUẬN VĂN Trong thời đại công nghiệp 4.0 khi mà cụm từ Chuyển Đổi Số (Digital Transforma- tion) [1] thường được nhắc đến ở nhiều nơi như ở văn phòng công sở, trường học, ngân hàng, bệnh viện v. thì dường như mọi việc đều được đưa lên máy tính điện tử, một công cụ mà ta có thể tận dụng khả năng tính toán và bộ nhớ siêu hạng của nó để xử lí các công việc mà con người mất rất nhiều thời gian và công sức để hoàn thành. Các công ty doanh nghiệp và cơ quan tuyển dụng cũng vậy, họ xử lý rất nhiều hồ sơ hàng ngày.

Rõ ràng đây không nên là nhiệm vụ của con người, chúng ta cần có một hệ thống thông minh tự động có thể lấy ra tất cả các thông tin quan trọng từ các resume không có cấu trúc và chuyển tất cả chúng sang một định dạng có cấu trúc chung để sau đó có thể được xếp hạng cho một vị trí công việc cụ thể. Thông tin được trích xuất có thể bao gồm tên, địa chỉ email, hồ sơ xã hội, trang web cá nhân, số năm kinh nghiệm làm việc, kinh nghiệm làm việc, số năm học, kinh nghiệm giáo dục, chứng chỉ, kinh nghiệm tình nguyện, tham khảo v. Thông tin được trích xuất sau đó được lưu trữ trong cơ sở dữ liệu (thường là NoSQL) để sử dụng sau này. Không giống như các dữ liệu phi cấu trúc khác (ví dụ: nội dung email, nội dung trang web, v.), resume là dạng dữ liệu dường như có cấu trúc hơn.

Thông tin được lưu trữ trong các tập hợp rời rạc. Mỗi bộ chứa dữ liệu về chi tiết liên hệ, kinh nghiệm làm việc hoặc học vấn của người đó. Mặc dù các resume này rất khó phân tích cú pháp. Điều này là do chúng khác nhau về các loại thông tin, thứ tự của chúng, cách viết, v.

Hơn nữa, chúng có thể được viết ở nhiều định dạng khác nhau. Một số định dạng phổ biến bao gồm ’. Để phân tích cú pháp dữ liệu từ các loại resume một cách hiệu quả thì mô hình không được dựa vào thứ tự hoặc kiểu dữ liệu. Trong luận văn này ta tập trung vào xây dựng hệ thống trích xuất dữ liệu, một hệ thống dựa trên nền tảng mô hình BERT [2] và phương pháp trích xuất hỏi đáp.

Luận văn tập trung tìm hiểu và phân tích bài toán hỏi đáp trên nền tảng mô hình BERT, nghiên cứu các phương pháp hiện có để chọn lựa giải pháp phù hợp, thực hiện các kỹ thuật làm sạch dữ liệu, rút trích đặc trưng và điều chỉnh tham số. Đồng thời chúng ta cũng nghiên cứu và áp dụng các kỹ thuật học sâu trong việc tìm ra các câu trả lời phù hợp với thực thể ta cần rút trích bằng cách thực hiện bằng cách tỉnh chỉnh mô hình BERT với mục đích hỏi đáp để trả lời các câu hỏi được đưa vào khi mô hình đọc qua resume sau đó nghiên cứu và đề xuất giải pháp liên quan đến khai phá dữ liệu nhằm nâng cao tính hiệu quả của giải thuật trong việc xử lý dữ liệu mới. Cuối cùng chúng ta sẽ thực hiện một số kịch bản thử nghiệm để đánh giá các giải pháp đề xuất. iii Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính ABSTRACT In the industrial age 4.0 when the phrase Digital Transformation [1] is often men- tioned in many places such as in offices, schools, banks, hospitals, etc.

It seems that everything is put on an electronic computer, a tool that can take advantage of its super-computing ability and memory to handle tasks that take a lot of time and effort. power to complete. Corporate companies and recruitment agencies too, they process a lot of applications on a daily basis. Obviously this shouldn’t be a human task, we need an intelligent automated system that can pull out all the important informa- tion from unstructured resumes and transfer it all.

them into a common structured format that can then be rated for a specific job position. Extracted information may include name, email address, social profiles, personal website, number of years of work experience, work experience, years of education, educational experience, certi- fications, experience volunteer experience, reference etc. The extracted information is then stored in a database (usually NoSQL) for later use. Unlike other unstructured data (e.

email body, web page content, etc.), resume is a seemingly more structured form of data. Information is stored in discrete sets. Each set contains data about the person’s contact details, work experience or education. Although these resumes are difficult to parse.

This is because they differ in the types of information, their order, spelling, etc. Furthermore, they can be written in a variety of formats. Some com- mon formats include ’. To parse data from resume types efficiently, the model must not rely on order or data type.

In this thesis, we focus on building a data extraction system, a system based on the BERT [2] model and the QA extraction method. The thesis focuses on understand- ing and analyzing the question-and-answer problem on the basis of the BERT model, studying the existing methods to choose the appropriate solution, implementing data cleaning techniques, feature extraction and parameter adjustment. At the same time, we also study and apply deep learning techniques in finding the right answers for the entity we need to extract by refining the BERT model for the purpose of asking and answering questions. Answer the questions included when the model reads through the resume, then research and propose solutions related to data mining to improve the effectiveness of the algorithm in processing new data.

Finally, we will perform some test scenarios to evaluate the proposed solutions. iv Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi và được sự hướng dẫn khoa học của PGS. Quản Thành Thơ. Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây.

Những số liệu trong các bảng biểu phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ việc đo đạc thực tế và các nguồn khác nhau có ghi rõ trong phần tài liệu tham khảo. Ngoài ra, trong luận văn còn sử dụng một số nhận xét, đánh giá cũng như số liệu của các tác giả khác, cơ quan tổ chức khác đều có trích dẫn và chú thích nguồn gốc. Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toàn chịu trách nhiệm về nội dung luận văn của mình. Hồ Chí Minh, ngày 15 tháng 11 năm 2021.

Học Viên Trần Quốc Tính v Trường Đại Học Bách Khoa Tp.Hồ Chí Minh Khoa Khoa Học và Kỹ Thuật Máy Tính Mục lục NHIỆM VỤ LUẬN VĂN THẠC SĨ. ii TÓM TẮT LUẬN VĂN. iv LỜI CAM ĐOAN .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Trích xuất dữ liệu từ resume bằng mô hình Question Answering kết hợp BERT" trình bày một phương pháp hiệu quả để trích xuất thông tin từ hồ sơ xin việc (resume) bằng cách sử dụng mô hình Question Answering dựa trên BERT. Tác giả phân tích cách mà mô hình này có thể cải thiện độ chính xác và tốc độ trong việc nhận diện và trích xuất các thông tin quan trọng như kỹ năng, kinh nghiệm làm việc và trình độ học vấn từ các hồ sơ. Điều này không chỉ giúp tiết kiệm thời gian cho nhà tuyển dụng mà còn nâng cao chất lượng tuyển dụng.

Để mở rộng thêm kiến thức về các phương pháp trích xuất thông tin, bạn có thể tham khảo bài viết Luận văn thạc sĩ nghiên cứu phương pháp trích chọn thông tin thời tiết từ văn bản tiếng việt, nơi bạn sẽ tìm thấy những ứng dụng khác của các kỹ thuật trích xuất thông tin. Ngoài ra, bài viết Luận văn thạc sĩ advanced deep learning methods and applications in opendomain question answering sẽ cung cấp cái nhìn sâu sắc hơn về các phương pháp học sâu trong hệ thống hỏi đáp. Cuối cùng, bạn có thể khám phá thêm về Luận văn thạc sĩ phân tách cụm danh từ cơ sở tiếng việt sử dụng mô hình crfs, giúp bạn hiểu rõ hơn về các kỹ thuật phân tích ngữ nghĩa trong ngôn ngữ tự nhiên. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và ứng dụng trong lĩnh vực trích xuất thông tin.

#xử lý ngôn ngữ tự nhiên

#phân tích văn bản

#trích xuất dữ liệu

#mô hình Question Answering

#AI trong tuyển dụng

Chủ đề

Xử Lý Ngôn Ngữ Tự Nhiên

Mô hình Học Sâu

Công nghệ AI trong tuyển dụng

Ứng dụng của BERT trong phân tích dữ liệu