Luận Văn Thạc Sĩ Khoa Học Máy Tính: Hệ Thống Trích Xuất Nội Dung Bất Động Sản Ứng Dụng Học Máy

Luận văn thạc sĩ phân tích máy tính hệ thống trích xuất nội dung bất động sản ứng dụng học máy, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Trường đại học

Đại học Bách Khoa, Đại học Quốc gia TP. HCM

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

ABSTRACT OF DISSERATION

LỜI CAM ĐOAN

MỤC LỤC

DANH MỤC HÌNH ẢNH

DANH MỤC BẢNG

1. CHƯƠNG 1: Giới thiệu về đề tài

1.1. Giới thiệu chung

1.2. Mô tả bài toán trích xuất nội dung của bất động sản sử dụng nhận dạng ý định và thực thể được đặt tên

1.3. Mục tiêu và nhiệm vụ của luận văn

1.4. Giới hạn đề tài và đối tượng nghiên cứu

1.5. Đóng góp của luận văn

1.6. Tóm tắt nội dung

2. CHƯƠNG 2: Cơ sở lý thuyết

2.1. Nhận dạng thực thể (Named-entity recognition)

2.2. Nhúng từ (word embedding)

2.3. Nhúng từ truyền thống (traditional word embedding)

2.4. Nhúng từ có ngữ cảnh (contextual embedding)

2.5. Trường ngẫu nhiên có điều kiện (Conditional Random Fields – CRF)

2.6. Cơ chế self-attention

2.7. Các bước tính toán self attention

2.8. Sự ra đời của BERT

2.9. BERT có thể biểu diễn ngữ cảnh 2 chiều

3. CHƯƠNG 3: Các công trình nghiên cứu liên quan

3.1. Gợi ý phân loại về bất động sản với thông tin thuộc tính văn bản

3.2. Hệ thống gợi ý hai chiều tuyển người và tìm việc ở thị trường tuyển dụng

4. CHƯƠNG 4: Mô hình nhận dạng ý định và thực thể được đặt tên

4.1. Học chuyển giao cho vector nhúng dày đặc (Transfer Learning of dense representations)

4.2. Trích xuất đặc trưng câu đầu vào (Featurization)

4.3. Transformer của mô hình DIET

4.4. Nhận dạng thực thể

4.5. Dự đoán ý định câu

4.6. Đánh giá kết quả

5. CHƯƠNG 5: Kết quả thực nghiệm và thảo luận

5.1. Thu thập dữ liệu

5.2. Xử lý dữ liệu

5.3. Tập hợp nhãn dữ liệu

5.4. Quá trình đánh nhãn dữ liệu

5.5. Tham số cấu hình của mô hình

5.6. Độ đo đánh giá hiệu suất của mô hình

5.7. Kết quả thực nghiệm và thảo luận

5.8. Xây dựng ứng dụng

5.8.1. Xây dựng Frontend

5.8.2. Trang danh sách bất động sản

5.8.3. Bộ lọc của bất động sản

5.8.4. Trang chi tiết của bất động sản

5.8.5. Các bất động sản tương đồng

5.8.6. Trang đăng bài bất động sản

5.8.7. Xây dựng Backend

5.8.8. Hệ thống xử lý các quy tắc nghiệp vụ

5.8.9. Hệ thống xử lý các yêu cầu hướng tính toán

6. CHƯƠNG 6: KẾT LUẬN

6.1. Kết quả đạt được

6.2. Các vấn đề tồn đọng

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Hệ thống trích xuất nội dung

Hệ thống trích xuất nội dung là một kỹ thuật quan trọng trong trí tuệ nhân tạo, giúp xác định và truy xuất thông tin cụ thể từ các nguồn dữ liệu phi cấu trúc. Trong lĩnh vực bất động sản, hệ thống này đóng vai trò thiết yếu trong việc phân tích và hiểu sâu các thông tin liên quan đến sản phẩm. Học máy và học sâu đã trở thành phương pháp ưu việt để xử lý lượng dữ liệu khổng lồ và đa dạng, đặc biệt trong việc trích xuất thông tin từ các mô tả bất động sản. Hệ thống này không chỉ giúp người bán tiết kiệm thời gian mà còn hỗ trợ người mua trong việc tìm kiếm và đưa ra quyết định đầu tư thông minh.

1.1. Ứng dụng trong bất động sản

Trong bất động sản, hệ thống trích xuất nội dung giúp phân tích các thông tin như diện tích, giá cả, số phòng ngủ, và vị trí địa lý từ các mô tả văn bản. Hệ thống sử dụng mô hình DIET (Dual Intent and Entity Transformer) để nhận dạng các thực thể và ý định của người dùng. Điều này giúp tối ưu hóa quá trình tìm kiếm và đưa ra các gợi ý chính xác, từ đó nâng cao trải nghiệm người dùng và hiệu quả kinh doanh.

1.2. Công nghệ học máy và học sâu

Học máy và học sâu đã cách mạng hóa cách thức trích xuất thông tin từ dữ liệu phi cấu trúc. Các mô hình như BERT và Transformer đã đạt được những bước tiến đáng kể trong việc xử lý ngôn ngữ tự nhiên. Mô hình DIET được lựa chọn trong nghiên cứu này do khả năng xử lý nhanh và hiệu quả, giúp nhận dạng thực thể và ý định một cách chính xác.

II. Phân tích dữ liệu và mô hình dự đoán

Phân tích dữ liệu là bước quan trọng trong việc xây dựng hệ thống trích xuất nội dung. Dữ liệu được thu thập từ các trang bất động sản lớn tại Việt Nam, sau đó được xử lý và đánh nhãn để huấn luyện mô hình. Mô hình dự đoán được xây dựng dựa trên mô hình DIET, giúp nhận dạng các thực thể như diện tích, giá cả, và số phòng ngủ từ các mô tả văn bản. Kết quả thực nghiệm cho thấy mô hình này đạt hiệu suất cao trong việc trích xuất thông tin chính xác.

2.1. Thu thập và xử lý dữ liệu

Dữ liệu được thu thập từ các trang bất động sản phổ biến tại Việt Nam, bao gồm các mô tả về bất động sản. Quá trình xử lý dữ liệu bao gồm việc đánh nhãn các thực thể và ý định, giúp mô hình học được các đặc trưng quan trọng. Xử lý ngôn ngữ tự nhiên được áp dụng để phân tích và trích xuất thông tin từ các văn bản này.

2.2. Đánh giá hiệu suất mô hình

Mô hình DIET được đánh giá dựa trên độ chính xác trong việc nhận dạng thực thể và ý định. Kết quả thực nghiệm cho thấy mô hình này đạt hiệu suất cao, đặc biệt trong việc xử lý các dữ liệu phức tạp và đa dạng. Điều này khẳng định tính ứng dụng thực tiễn của mô hình trong lĩnh vực bất động sản.

III. Ứng dụng thực tiễn và phát triển hệ thống

Hệ thống trích xuất nội dung không chỉ mang lại lợi ích cho người dùng mà còn đóng góp vào sự phát triển của ngành bất động sản. Hệ thống được tích hợp vào các ứng dụng thực tế, giúp người dùng dễ dàng tìm kiếm và đưa ra quyết định đầu tư. Phát triển ứng dụng là bước cuối cùng trong nghiên cứu, nhằm minh họa tính khả thi và hiệu quả của hệ thống trong thực tế.

3.1. Xây dựng ứng dụng tương tác

Ứng dụng được xây dựng để tương tác giữa người bán và người mua, giúp người dùng dễ dàng tìm kiếm và đăng tải thông tin bất động sản. Frontend và Backend được thiết kế để đảm bảo tính thân thiện và hiệu quả trong việc sử dụng hệ thống.

3.2. Tác động đến thị trường bất động sản

Hệ thống này có tiềm năng lớn trong việc định hình và phát triển thị trường bất động sản. Bằng cách cung cấp thông tin chính xác và gợi ý thông minh, hệ thống giúp người dùng đưa ra quyết định đầu tư hiệu quả hơn, từ đó thúc đẩy sự phát triển của ngành.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính hệ thống trích xuất nội dung bất động sản ứng dụng học máy

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh thị trường bất động sản Việt Nam ngày càng phát triển mạnh mẽ, việc xử lý và khai thác thông tin từ các nguồn dữ liệu phi cấu trúc trở thành một thách thức lớn. Theo ước tính, có hơn 20.000 mẫu dữ liệu bất động sản được đăng tải trên các trang web lớn như batdongsan.vn, nhadat.net, và muaban.net, tạo ra một khối lượng dữ liệu khổng lồ cần được xử lý hiệu quả. Vấn đề nghiên cứu tập trung vào việc xây dựng một hệ thống trích xuất nội dung bất động sản ứng dụng học máy nhằm tự động nhận diện và phân loại các thực thể quan trọng như diện tích, giá cả, số phòng ngủ, vị trí, và loại hình bất động sản từ các mô tả văn bản. Mục tiêu cụ thể của luận văn là phát triển mô hình nhận dạng ý định và thực thể được đặt tên dựa trên mô hình Dual Intent and Entity Transformer (DIET), đồng thời xây dựng ứng dụng minh họa tính thực tiễn của hệ thống. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ các trang bất động sản tại Việt Nam trong khoảng thời gian đầu năm 2024. Ý nghĩa của nghiên cứu được thể hiện qua việc tối ưu hóa quá trình tìm kiếm và gợi ý bất động sản, giúp người bán tiết kiệm thời gian nhập liệu và người mua dễ dàng tiếp cận thông tin chính xác, từ đó hỗ trợ các quyết định đầu tư thông minh và thúc đẩy sự phát triển hiện đại hóa ngành bất động sản.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình tiên tiến trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và học máy, bao gồm:

Nhận dạng thực thể được đặt tên (Named Entity Recognition - NER): Kỹ thuật phân loại các thực thể quan trọng trong văn bản như giá cả, diện tích, vị trí, giúp trích xuất thông tin có cấu trúc từ dữ liệu phi cấu trúc.
Nhúng từ (Word Embedding): Bao gồm nhúng từ truyền thống (Word2Vec, GloVe) và nhúng từ có ngữ cảnh (BERT, ELMo), giúp biểu diễn từ ngữ dưới dạng vector số, phản ánh ý nghĩa dựa trên ngữ cảnh.
Cơ chế Attention và Self-Attention: Giúp mô hình tập trung vào các phần quan trọng trong câu, cải thiện khả năng hiểu ngữ cảnh và mối quan hệ giữa các từ.
Mô hình Transformer: Kiến trúc mạng nơ-ron sâu với các lớp encoder-decoder, sử dụng cơ chế self-attention để xử lý chuỗi dữ liệu hiệu quả.
Mô hình DIET (Dual Intent and Entity Transformer): Mô hình nhẹ, hiệu quả, thực hiện đồng thời nhận dạng ý định và thực thể, cho kết quả chính xác tương đương BERT nhưng tốc độ huấn luyện nhanh hơn gấp 6 lần.
Trường ngẫu nhiên có điều kiện (Conditional Random Fields - CRF): Được sử dụng để tối ưu hóa việc gán nhãn chuỗi, tăng độ chính xác nhận dạng thực thể bằng cách xem xét mối quan hệ giữa các nhãn liên tiếp.

Phương pháp nghiên cứu

Nguồn dữ liệu được thu thập từ ba trang web bất động sản lớn tại Việt Nam: batdongsan.vn (3.520 mẫu), nhadat.net (6.631 mẫu), và muaban.net (9.955 mẫu), tổng cộng 20.106 mẫu. Dữ liệu thu thập dưới dạng HTML và JSON, sử dụng các công cụ Requests và Selenium để tự động thu thập. Quá trình xử lý dữ liệu bao gồm phân tách token, đánh nhãn tự động bằng mô hình Google Bard kết hợp kiến thức nghiệp vụ để tinh chỉnh nhãn, tập trung vào các thực thể như giá, diện tích, loại bất động sản, vị trí, và các ý định như bán, cho thuê.

Mô hình DIET được triển khai với các tham số cấu hình: batch size bắt đầu từ 16 tăng dần đến 128, epoch 50, learning rate 0.001, số lượng attention head là 4, kích thước transformer 256. Phương pháp phân tích sử dụng các chỉ số đánh giá độ chính xác, độ chuẩn xác, độ phủ và điểm F1 để đo lường hiệu suất mô hình. Quá trình nghiên cứu diễn ra từ tháng 1 đến tháng 5 năm 2024, bao gồm thu thập dữ liệu, huấn luyện mô hình, đánh giá kết quả và xây dựng ứng dụng minh họa.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình DIET trong nhận dạng thực thể: Mô hình đạt độ chính xác F1-score khoảng 85% trong việc nhận dạng các thực thể như giá cả, diện tích, số phòng ngủ trên tập dữ liệu bất động sản Việt Nam, vượt trội so với các mô hình truyền thống và tương đương với các mô hình BERT nhưng với tốc độ huấn luyện nhanh hơn gấp 6 lần.
Dự đoán ý định văn bản: Mô hình DIET phân loại chính xác các ý định như bán, cho thuê, thuê với độ chính xác trên 88%, giúp hệ thống hiểu rõ mục đích của người đăng tin, từ đó cải thiện chất lượng gợi ý và tìm kiếm.
Tiết kiệm thời gian nhập liệu cho người bán: Hệ thống tự động trích xuất và gán nhãn các thuộc tính bất động sản từ mô tả văn bản, giảm thiểu thao tác thủ công, giúp người bán tiết kiệm khoảng 30-40% thời gian so với phương pháp nhập liệu truyền thống.
Ứng dụng thực tiễn: Ứng dụng xây dựng minh họa cho phép người mua dễ dàng tìm kiếm bất động sản theo các tiêu chí như giá, diện tích, vị trí, đồng thời gợi ý các bất động sản tương đồng dựa trên kết quả trích xuất, nâng cao trải nghiệm người dùng.

Thảo luận kết quả

Kết quả cho thấy mô hình DIET phù hợp và hiệu quả trong việc xử lý dữ liệu bất động sản tại Việt Nam, nhờ khả năng học chuyển giao và cơ chế attention giúp mô hình hiểu sâu sắc ngữ cảnh và ý định trong văn bản. So với các nghiên cứu trước đây sử dụng mô hình BERT hoặc các phương pháp rule-based, DIET mang lại sự cân bằng giữa độ chính xác và tốc độ xử lý, phù hợp với các ứng dụng thực tế cần phản hồi nhanh. Việc sử dụng CRF giúp tăng độ chính xác nhận dạng thực thể bằng cách khai thác mối quan hệ giữa các nhãn liên tiếp, điều này được thể hiện rõ qua các biểu đồ so sánh độ chính xác giữa các mô hình. Hệ thống không chỉ hỗ trợ người bán mà còn giúp người mua có trải nghiệm tìm kiếm thông tin chính xác và nhanh chóng, góp phần thúc đẩy sự phát triển hiện đại hóa ngành bất động sản.

Đề xuất và khuyến nghị

Triển khai hệ thống trích xuất nội dung trên các nền tảng bất động sản: Khuyến nghị các sàn giao dịch bất động sản tích hợp mô hình DIET để tự động trích xuất và phân loại thông tin, nâng cao chất lượng dữ liệu và trải nghiệm người dùng trong vòng 6 tháng tới.
Phát triển thêm các mô-đun nhận dạng thực thể mở rộng: Mở rộng phạm vi nhận dạng các thực thể như tiện ích xung quanh, pháp lý, và các đặc điểm nội thất để tăng tính toàn diện của hệ thống, thực hiện trong 12 tháng tiếp theo bởi các nhóm nghiên cứu và phát triển sản phẩm.
Tối ưu hóa giao diện người dùng ứng dụng: Cải tiến giao diện frontend và backend để hỗ trợ người bán nhập liệu dễ dàng hơn và người mua tìm kiếm hiệu quả hơn, với mục tiêu giảm thời gian thao tác xuống dưới 2 phút, hoàn thành trong 3 tháng.
Đào tạo và nâng cao nhận thức cho người dùng: Tổ chức các khóa đào tạo, hội thảo cho người bán và môi giới bất động sản về cách sử dụng hệ thống trích xuất nội dung để tận dụng tối đa lợi ích, triển khai liên tục trong năm 2024.

Đối tượng nên tham khảo luận văn

Các nhà phát triển phần mềm và công nghệ: Có thể ứng dụng mô hình DIET và các kỹ thuật học máy trong phát triển các hệ thống trích xuất thông tin, chatbot, và ứng dụng tìm kiếm thông minh trong lĩnh vực bất động sản và các ngành liên quan.
Doanh nghiệp bất động sản và sàn giao dịch: Nắm bắt công nghệ mới để cải thiện quy trình quản lý dữ liệu, nâng cao trải nghiệm khách hàng, và tối ưu hóa hoạt động môi giới, từ đó tăng doanh thu và hiệu quả kinh doanh.
Nhà nghiên cứu và sinh viên ngành khoa học máy tính, trí tuệ nhân tạo: Tham khảo phương pháp nghiên cứu, mô hình DIET, và ứng dụng thực tiễn trong lĩnh vực xử lý ngôn ngữ tự nhiên và học máy, làm cơ sở cho các nghiên cứu tiếp theo.
Người bán và người mua bất động sản: Hiểu rõ hơn về cách công nghệ hỗ trợ trong việc tìm kiếm, phân loại và đề xuất bất động sản phù hợp, giúp ra quyết định nhanh chóng và chính xác hơn trong giao dịch.

Câu hỏi thường gặp

Mô hình DIET có ưu điểm gì so với BERT trong bài toán trích xuất nội dung bất động sản?
DIET cho hiệu suất tương đương BERT nhưng tốc độ huấn luyện nhanh hơn gấp 6 lần, giúp tiết kiệm tài nguyên và thời gian, phù hợp với các ứng dụng cần phản hồi nhanh như hệ thống môi giới bất động sản.
Hệ thống trích xuất nội dung có thể xử lý những loại thông tin nào từ mô tả bất động sản?
Hệ thống nhận dạng các thực thể như giá cả, diện tích, số phòng ngủ, vị trí, loại hình bất động sản, và dự đoán ý định như bán, cho thuê, giúp tổ chức và phân loại thông tin hiệu quả.
Làm thế nào để dữ liệu được đánh nhãn chính xác trong quá trình huấn luyện mô hình?
Dữ liệu được đánh nhãn tự động bằng mô hình Google Bard kết hợp với kiến thức nghiệp vụ để tinh chỉnh, đảm bảo độ chính xác và phù hợp với đặc thù thị trường bất động sản Việt Nam.
Ứng dụng thực tế của hệ thống trích xuất nội dung là gì?
Ứng dụng giúp người bán tiết kiệm thời gian nhập liệu, người mua dễ dàng tìm kiếm và nhận gợi ý bất động sản phù hợp, đồng thời hỗ trợ các quyết định đầu tư thông minh dựa trên dữ liệu chính xác.
Có thể mở rộng hệ thống để nhận dạng các thực thể khác ngoài phạm vi hiện tại không?
Có thể mở rộng để nhận dạng các thực thể như tiện ích xung quanh, pháp lý, nội thất, giúp hệ thống toàn diện hơn và đáp ứng nhu cầu đa dạng của người dùng trong tương lai.

Kết luận

Luận văn đã xây dựng thành công hệ thống trích xuất nội dung bất động sản ứng dụng học máy dựa trên mô hình DIET, đạt độ chính xác cao và tốc độ xử lý nhanh.
Hệ thống tự động nhận dạng các thực thể quan trọng và dự đoán ý định văn bản, giúp tối ưu hóa quá trình nhập liệu và tìm kiếm bất động sản.
Ứng dụng minh họa đã chứng minh tính khả thi và hiệu quả trong thực tế, hỗ trợ người bán và người mua trong giao dịch bất động sản.
Nghiên cứu góp phần thúc đẩy hiện đại hóa ngành bất động sản tại Việt Nam thông qua ứng dụng công nghệ học máy và xử lý ngôn ngữ tự nhiên.
Các bước tiếp theo bao gồm mở rộng phạm vi nhận dạng thực thể, tối ưu hóa giao diện người dùng và triển khai hệ thống trên quy mô lớn để phục vụ thị trường.

Hãy tiếp cận và ứng dụng công nghệ trích xuất nội dung bất động sản để nâng cao hiệu quả kinh doanh và trải nghiệm khách hàng ngay hôm nay!

Trích đoạn nội dung tài liệu

Chương 1, GIỚI THIỆU ĐỀ TÀI: trình bày tổng quan về đề tài, lý do thực hiện đề tài và ý nghĩa thực tiễn của bài toán, cũng như giới hạn và phạm vi của đề tài. Cuối cùng là nhiệm vụ và cấu trúc của luận văn. - Chương 2, CƠ SỞ LÝ THUYẾT: tổng hợp những vấn đề học thuật liên quan nhất sẽ áp dụng để giải quyết bài toán, tập trung chủ yếu vào nội dung trích 6 Giới thiệu về đề tài xuất đặc trưng như nhận dạng thực thể, nhúng từ, cơ chế attention, transformer, BERT và cơ chế của Conditional Random field. - Chương 3, CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: trình bày một cách tổng quát về những nghiên cứu liên quan đã và đang được thực hiện, cũng như xu hướng chung hiện nay trong việc giải quyết bài toán.

- Chương 4, MÔ HÌNH NHẬN DẠNG Ý ĐỊNH VÀ THỰC THỂ ĐƯỢC ĐẶT TÊN: giới thiệu mô hình cơ sở cho Bài toán nhận dạng ý định và thực thể được đặt tên DIET [2]. - Chương 5, KẾT QUẢ THỰC NGHIỆM VÀ THẢO LUẬN: Thu thập dữ liệu, xử lý dữ liệu và đánh giá kết quả thực nghiệm trên tập dữ liệu thu được và xây dựng ứng dụng để minh hoạ tính ứng dụng trong thực tiễn. - Chương 6: KẾT LUẬN: Kết quả đạt được, các vấn đề còn tồn đọng, và hướng phát triển của đề tài 7 Cơ sở lý thuyết CHƯƠNG 2: Cơ sở lý thuyết 2. Nhận dạng thực thể (Named-entity recognition) Nhận dạng thực thể được đặt tên (Named Entity Recognition - NER) là một phần quan trọng của xử lý ngôn ngữ tự nhiên (NLP).

Mục tiêu chính của NER là xử lý dữ liệu có cấu trúc và phi cấu trúc để phân loại các thực thể được đặt tên vào các danh mục xác định trước. Các danh mục phổ biến bao gồm tên, địa điểm, công ty, thời gian, giá trị tiền tệ, sự kiện, và nhiều loại khác. NER có vai trò nhận dạng các cụm từ trong văn bản và phân loại chúng vào các nhóm đã được định nghĩa trước. Một số nhóm phổ biến trong NER bao gồm: - Tên người: Ví dụ: "Nguyễn Văn A", "John Smith" - Tổ chức: Ví dụ: "Google", "Đại học Quốc gia Hà Nội" - Địa điểm: Ví dụ: "Hà Nội", "New York" - Thời gian: Ví dụ: "ngày 1 tháng 1 năm 2024", "tháng 7 năm 2023" - Loại sản phẩm: Ví dụ: "iPhone", "Toyota Camry" - Nhãn hiệu: Ví dụ: "Coca-Cola", "Nike" Kết quả của tác vụ nhận dạng thực thể được đặt tên có thể được sử dụng cho nhiều bài toán phức tạp hơn như: - Chatbot: NER giúp chatbot hiểu và phản hồi chính xác các câu hỏi liên quan đến các thực thể cụ thể.

- Question Answering: Hệ thống có thể tìm kiếm và trả lời các câu hỏi dựa trên thông tin đã được phân loại. - Search: Cải thiện hiệu quả tìm kiếm bằng cách nhận diện và xử lý các thực thể quan trọng trong truy vấn tìm kiếm. - Phân tích dữ liệu: Giúp tổ chức và phân loại thông tin trong các tài liệu lớn để trích xuất các thông tin quan trọng một cách hiệu quả hơn. NER là một kỹ thuật nền tảng trong NLP, đóng vai trò quan trọng trong việc hiểu và xử lý ngôn ngữ tự nhiên, từ đó nâng cao hiệu quả và độ chính xác của các ứng dụng liên quan.

8 Cơ sở lý thuyết Nhận diện thực thể được đặt tên 2. Nhúng từ (word embedding) Máy tính không hiểu những mặt chữ tự nhiên như con người. Thay vào đó, nó chỉ hiểu những dãy số. Để máy tính có thể xử lý và hiểu các từ trong ngôn ngữ tự nhiên, cần phải chuyển đổi các từ này thành các dãy số đặc trưng, gọi là vector.

Mỗi từ, dù thuộc bất kỳ ngôn ngữ nào trên thế giới, đều được biểu diễn bằng một dãy số đặc trưng riêng. Quá trình tạo ra vector cho từ gọi là word embedding (nhúng từ). Có hai loại nhúng từ chính: nhúng từ truyền thống và nhúng từ có ngữ cảnh. Nhúng từ truyền thống (traditional word embedding) Nhúng từ truyền thống, sử dụng các phương pháp như Word2Vec và GloVe, học cách biểu diễn các từ bằng vector một cách toàn cục.

Quá trình này xây dựng một bộ từ điển cho tất cả các từ trong tập dữ liệu mà không quan tâm đến ngữ cảnh của từ đó so với các từ khác trong câu. Phương pháp này triển khai biểu diễn vector tương tự của từ (similar representations) để mô hình học được các từ xuất hiện gần nhau trong bộ từ điển. 9 Cơ sở lý thuyết Cụ thể, các phương pháp nhúng từ truyền thống như Word2Vec sử dụng các mạng nơ-ron để học mối quan hệ giữa các từ trong tập dữ liệu bằng cách dự đoán từ ngữ dựa trên ngữ cảnh xung quanh (CBOW - Continuous Bag of Words) hoặc dự đoán ngữ cảnh xung quanh dựa trên từ ngữ (Skip-gram). GloVe, mặt khác, sử dụng ma trận đồng xuất hiện (co-occurrence matrix) để học biểu diễn vector của từ.

Điểm yếu chính của các phương pháp nhúng từ truyền thống là chúng chỉ tạo ra một vector duy nhất cho mỗi từ trong từ điển, bất kể từ đó xuất hiện trong ngữ cảnh nào. Điều này có nghĩa là các từ giống nhau ở tất cả các câu sẽ được nhúng thành cùng một vector duy nhất, không phản ánh được sự khác biệt về ngữ nghĩa dựa trên ngữ cảnh. Ví dụ, xét hai câu sau: - "Hôm nay tôi chơi đá cầu." - "Viên đá lạnh quá." Trong cả hai câu, từ "đá" có các ý nghĩa khác nhau, nhưng nhúng từ truyền thống sẽ biểu diễn từ "đá" bằng cùng một vector duy nhất, không để ý đến bối cảnh của các câu. Điều này làm giảm khả năng của mô hình trong việc hiểu đúng ngữ nghĩa của từ trong các tình huống khác nhau.

Nhúng từ truyền thống đã đóng góp rất nhiều cho sự phát triển của NLP, nhưng sự hạn chế của nó về việc không thể nắm bắt ngữ cảnh đã dẫn đến sự ra đời của các phương pháp nhúng từ có ngữ cảnh (contextual embedding) như BERT và ELMo, giúp cải thiện độ chính xác và hiệu suất của các mô hình xử lý ngôn ngữ tự nhiên. Nhúng từ có ngữ cảnh (contextual embedding) Nhúng từ có ngữ cảnh (Contextual Embedding) là một kỹ thuật trong xử lý ngôn ngữ tự nhiên (NLP) sử dụng các mô hình như BERT (Bidirectional Encoder Representations from Transformers) và ELMo (Embeddings from Language Models). Khác với các phương pháp nhúng từ truyền thống như Word2Vec hay GloVe, nhúng từ có ngữ cảnh tạo ra các vector nhúng phụ thuộc vào ngữ cảnh của từ trong câu. Cụ thể, BERT và ELMo không chỉ xem xét từ một cách độc lập mà còn tính đến ngữ cảnh xung quanh của từ trong câu.

Điều này có nghĩa là chúng học một cách tuần tự và hai chiều (trái qua phải và phải qua trái) để hiểu rõ hơn về ý nghĩa của từ dựa trên bối cảnh của nó. Ví dụ, từ "đá" trong câu " Hôm nay tôi chơi đá cầu" và " Viên đá lạnh 10 Cơ sở lý thuyết quá" sẽ được gán cho hai vector khác nhau, phản ánh sự khác biệt về ý nghĩa dựa trên bối cảnh. Tóm lại, nhúng từ có ngữ cảnh là một bước tiến quan trọng trong việc xử lý ngôn ngữ tự nhiên, giúp các mô hình hiểu rõ hơn về ý nghĩa của từ dựa trên ngữ cảnh, từ đó cải thiện độ chính xác và hiệu suất của các ứng dụng NLP. Trường ngẫu nhiên có điều kiện (Conditional Random Fields – CRF) Các mô hình phân loại truyền thống giả định rằng các mục dữ liệu là độc lập.

Tuy nhiên, dữ liệu trong thế giới thực thường xen kẽ và có cấu trúc phức tạp. Giả sử chúng ta muốn phân loại các trang web thành các danh mục khác nhau, ví dụ: trang chủ của sinh viên và giảng viên. Danh mục của một trang web thường liên quan đến các danh mục của các trang được liên kết với nó. Thay vì phân loại các trang một cách độc lập, chúng ta nên mô hình hóa chúng cùng nhau để kết hợp các dấu hiệu ngữ cảnh như vậy.

Trường ngẫu nhiên có điều kiện (Conditional Random Field - CRF) [4] là một cách tiếp cận có điều kiện để phân loại dữ liệu có cấu trúc. Trong khi các mô hình phân loại truyền thống dự đoán nhãn cho một mẫu đơn lẻ mà không xem xét các mẫu "lân cận", CRF có thể tính đến ngữ cảnh. Để làm như vậy, các dự đoán được mô hình hóa dưới dạng mô hình đồ họa, mô hình này thể hiện sự hiện diện của các phụ thuộc giữa các dự đoán. Loại đồ thị nào được sử dụng tùy thuộc vào ứng dụng.

Ví dụ: trong xử lý ngôn ngữ tự nhiên, CRF "chuỗi tuyến tính" (linear chain) là phổ biến, mà mỗi dự đoán chỉ phụ thuộc vào các hàng xóm trực tiếp của nó. Trong xử lý hình ảnh, biểu đồ thường kết nối các vị trí với các vị trí lân cận hoặc tương tự để củng cố rằng các vùng ấy nhận được các dự đoán tương tự. CRF là một mô hình xác suất cho các bài toán dự đoán có cấu trúc và đã được áp dụng rất thành công trong rất nhiều lĩnh vực như thị giác máy tính, xử lý ngôn ngữ tự nhiên, sinh-tin học. Cơ chế Attention Cơ chế Attention xuất hiện trong bối cảnh để giải quyết điểm yếu của những mạng hồi quy như RNN, LSTM, ….

Các mạng hồi quy này khi gặp chuỗi đầu vào quá dài sẽ bị mất dần xác suất và ngữ cảnh của 1 từ ở xa so với so với từ hiện tại sẽ bị suy giảm 11 Cơ sở lý thuyết theo cấp số nhân phụ thuộc vào khoảng cách. Điều đó có nghĩa là khi mô hình trở nên quá dài, mô hình thường quên các vị trí các từ ở xa nhau trong chuỗi. Cơ chế Attention, nghĩa là chỉ chú ý vào 1 nhóm từ cụ thể trong từng ngữ cảnh nhất định. Ví dụ khi dịch một câu, tôi đặc biệt chú ý đến từ mà tôi hiện đang dịch.

Khi đang chép lại một bản ghi âm, tôi sẽ lắng nghe cẩn thận phân đoạn mà tôi đang chủ động viết ra. Và nếu bạn yêu cầu tôi mô tả căn phòng tôi đang ngồi, tôi sẽ liếc nhìn xung quanh những đồ vật mà tôi đang mô tả khi tôi làm như vậy. Cơ chế Attention được đề xuất lần đầu tiên bởi với mục đích cải tiến hiệu quả của bài toán machine translation (dịch máy). Sau đó, vào năm 2017, Vaswani và cộng sự đã công bố bài báo "Attention Is All You Need" [1].

Cả hai bài báo này đã thực sự gây được tiếng vang rất lớn trong cộng đồng các nhà nghiên cứu về các mô hình học máy.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Hệ Thống Trích Xuất Nội Dung Bất Động Sản Ứng Dụng Học Máy - Luận Văn Thạc Sĩ Khoa Học Máy Tính" trình bày một hệ thống tiên tiến sử dụng công nghệ học máy để trích xuất và phân tích nội dung liên quan đến bất động sản. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về cách thức hoạt động của các thuật toán học máy trong lĩnh vực bất động sản mà còn chỉ ra những lợi ích mà hệ thống mang lại, như tăng cường hiệu quả tìm kiếm thông tin và hỗ trợ ra quyết định cho người dùng.

Để mở rộng kiến thức của bạn về các ứng dụng học máy trong các lĩnh vực khác, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ khoa học kỳ vọng có điều kiện và một vài lớp biến ngẫu nhiên phụ thuộc, nơi nghiên cứu về các mô hình xác suất có điều kiện. Ngoài ra, tài liệu Luận văn thạc sĩ khoa học máy tính phân lớp dữ liệu chuỗi thời gian dựa vào mạng nơron tích chập cnn sẽ giúp bạn hiểu rõ hơn về việc áp dụng mạng nơron trong phân tích dữ liệu thời gian. Cuối cùng, bạn cũng có thể tìm hiểu về Luận văn thạc sĩ khoa học máy tính kết hợp giải thuật gom cụm dựa vào độ dốc tích lũy có trọng số và kmeans để gom cụm dữ liệu chuỗi thời gian, một nghiên cứu thú vị về các thuật toán gom cụm trong phân tích dữ liệu. Những tài liệu này sẽ cung cấp cho bạn cái nhìn sâu sắc hơn về các ứng dụng của học máy trong nhiều lĩnh vực khác nhau.

#Luận văn Thạc sĩ

#khoa học máy tính

#hệ thống học máy

#ứng dụng học máy

#học máy bất động sản

#trích xuất nội dung

Chủ đề

Khoa học Dữ liệu

Trí tuệ nhân tạo

học máy ứng dụng

bất động sản công nghệ