## Tổng quan nghiên cứu
Lĩnh vực bất động sản tại Việt Nam luôn là một thị trường năng động với lượng tin đăng khổng lồ trên các website rao bán, ước tính khoảng 100 nghìn tin đăng mỗi ngày. Tuy nhiên, nguồn dữ liệu này chưa được khai thác hiệu quả, đặc biệt là trong việc xử lý các tin đăng trùng lặp, gây khó khăn cho các công ty môi giới như Propzy trong việc phát triển nguồn hàng và kết nối đối tác môi giới. Đại dịch COVID-19 đã làm thay đổi mô hình hoạt động của nhiều doanh nghiệp, trong đó có Propzy, thúc đẩy nhu cầu tối ưu hóa quy trình vận hành dựa trên dữ liệu tin đăng công khai.
Mục tiêu nghiên cứu là ứng dụng các phương pháp vector hóa để loại bỏ tin đăng trùng trong lĩnh vực bất động sản, từ đó cải thiện quy trình phát triển nguồn hàng và kết nối môi giới tại Propzy. Nghiên cứu tập trung vào dữ liệu tin đăng bán nhà tại Thành phố Hồ Chí Minh trong giai đoạn từ tháng 01 đến tháng 02 năm 2021. Kết quả nghiên cứu không chỉ giúp nâng cao hiệu quả khai thác dữ liệu mà còn tạo tiền đề cho các mô hình dự đoán giá nhà và phân nhóm thị trường trong tương lai.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
Nghiên cứu dựa trên các lý thuyết và mô hình sau:
- **Vector hóa văn bản**: Bao gồm các phương pháp Onehot, WordCount, TF-IDF và Doc2vec, giúp chuyển đổi dữ liệu văn bản phi cấu trúc thành dạng số để máy tính có thể xử lý. Doc2vec được đánh giá cao nhờ khả năng giữ ngữ nghĩa và thứ tự từ trong văn bản.
- **Phương pháp đo lường tương đồng**: Sử dụng hệ số Cosine và khoảng cách Euclidean để đánh giá mức độ giống nhau giữa các vector văn bản.
- **Giải thuật phân cụm DBSCAN**: Thuật toán phân cụm dựa trên mật độ, có khả năng phát hiện các cụm có hình dạng tùy ý và loại bỏ nhiễu, phù hợp với dữ liệu lớn và phức tạp như tin đăng bất động sản.
Các khái niệm chính bao gồm: vector hóa, tương đồng cosine, khoảng cách Euclidean, phân cụm DBSCAN, và làm sạch dữ liệu văn bản.
### Phương pháp nghiên cứu
Dữ liệu nghiên cứu được thu thập từ các trang web đăng tin bất động sản lớn như Batdongsan.vn, với bộ dữ liệu gồm 1000 tin đăng cho mỗi lần chạy thử nghiệm, và mở rộng đến 10,000 - 100,000 tin đăng để đánh giá tính khả thi thực tế. Dữ liệu được làm sạch qua ba mức độ: cơ bản, tiêu chuẩn và đặc thù, bao gồm chuẩn hóa từ ngữ, tạo từ ghép, loại bỏ dấu và các câu cảm thán không cần thiết.
Phương pháp phân tích sử dụng các thư viện Python như Sklearn cho vector hóa và DBSCAN, Gensim cho Doc2vec, Scipy cho đo lường tương đồng, cùng công cụ phân tích và trực quan hóa dữ liệu như Excel và Plotly. Quá trình nghiên cứu kéo dài từ tháng 02 đến tháng 07 năm 2022, với hai lần chạy thử nghiệm chính để xác định tổ hợp vector hóa, làm sạch và đo lường tối ưu.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- **Hiệu quả làm sạch dữ liệu**: Qua ba mức độ làm sạch, số lượng cặp tin trùng giảm dần, đặc biệt với các phương pháp Onehot, TF-IDF, WordCount và Doc2vec300. Mức độ làm sạch đặc thù giúp chuẩn hóa địa danh, đặc trưng bất động sản và loại bỏ các câu cảm thán, nâng cao độ chính xác phân cụm.
- **Phương pháp vector hóa hiệu quả**: Doc2vec cho tỷ lệ chính xác cao nhất trong việc xác định tin trùng ngay từ mức làm sạch đầu tiên (39%), trong khi các phương pháp khác tăng dần theo mức độ làm sạch, với TF-IDF và Doc2vec300 đạt tới 50% ở mức làm sạch cao nhất.
- **Đo lường tương đồng**: Cosine similarity được sử dụng phổ biến và cho kết quả tốt trong việc phân biệt các cặp tin trùng, với ngưỡng cosine 0.4 được chọn làm điểm cắt để xác định các cặp tin nghi ngờ trùng lặp.
- **Phân cụm DBSCAN**: Thuật toán phân cụm DBSCAN được áp dụng thành công, phân loại các tin đăng thành các cụm tương đồng, giúp giảm thiểu tin trùng và tăng hiệu quả xử lý dữ liệu lớn.
### Thảo luận kết quả
Kết quả cho thấy việc kết hợp làm sạch dữ liệu đặc thù với phương pháp vector hóa Doc2vec và đo lường cosine similarity là tối ưu nhất để phát hiện tin đăng trùng trong lĩnh vực bất động sản. So với các nghiên cứu trước đây, việc áp dụng DBSCAN giúp xử lý dữ liệu lớn hiệu quả hơn, đồng thời giảm thiểu sai sót do tin trùng gây ra trong quy trình phát triển nguồn hàng và kết nối môi giới. Dữ liệu có thể được trình bày qua biểu đồ phân bố số lượng cặp tin trùng theo ngưỡng cosine và bảng tỷ lệ chính xác của từng phương pháp vector hóa qua các mức độ làm sạch.
## Đề xuất và khuyến nghị
- **Triển khai hệ thống tự động phân cụm tin đăng**: Áp dụng phương pháp vector hóa Doc2vec kết hợp DBSCAN để tự động phân loại và loại bỏ tin trùng, giảm thiểu công sức thủ công, nâng cao hiệu suất xử lý dữ liệu. Thời gian thực hiện: 6 tháng; chủ thể: bộ phận công nghệ Propzy.
- **Nâng cao chất lượng dữ liệu đầu vào**: Thực hiện làm sạch dữ liệu đặc thù, chuẩn hóa địa danh và đặc trưng bất động sản trước khi xử lý, nhằm tăng độ chính xác phân cụm. Thời gian: liên tục; chủ thể: đội ngũ thu thập và xử lý dữ liệu.
- **Phát triển công cụ giám sát và đánh giá hiệu quả**: Xây dựng dashboard theo dõi số lượng tin trùng, tỷ lệ chính xác phân cụm để điều chỉnh tham số thuật toán kịp thời. Thời gian: 3 tháng; chủ thể: bộ phận phân tích dữ liệu.
- **Đào tạo nhân sự và nâng cao nhận thức**: Tổ chức các khóa đào tạo về quy trình xử lý dữ liệu và ứng dụng công nghệ mới cho đội ngũ phát triển nguồn hàng và môi giới. Thời gian: 3 tháng; chủ thể: phòng nhân sự và đào tạo.
## Đối tượng nên tham khảo luận văn
- **Các công ty PropTech và môi giới bất động sản**: Nâng cao hiệu quả khai thác dữ liệu tin đăng, giảm thiểu tin trùng, tối ưu quy trình phát triển nguồn hàng.
- **Nhà nghiên cứu và sinh viên ngành hệ thống thông tin quản lý**: Tham khảo phương pháp vector hóa văn bản và ứng dụng phân cụm DBSCAN trong xử lý dữ liệu phi cấu trúc.
- **Bộ phận công nghệ thông tin doanh nghiệp**: Áp dụng các kỹ thuật làm sạch dữ liệu và phân tích dữ liệu lớn để cải thiện hệ thống quản lý dữ liệu.
- **Các tổ chức nghiên cứu thị trường bất động sản**: Sử dụng dữ liệu đã được làm sạch và phân cụm để xây dựng các báo cáo thị trường chính xác hơn.
## Câu hỏi thường gặp
1. **Phương pháp vector hóa nào phù hợp nhất để loại bỏ tin đăng trùng?**
Doc2vec kết hợp với làm sạch dữ liệu đặc thù và đo lường cosine similarity cho kết quả chính xác cao nhất, đặc biệt khi áp dụng ngưỡng cosine 0.4.
2. **Tại sao cần làm sạch dữ liệu trước khi phân cụm?**
Làm sạch dữ liệu giúp chuẩn hóa từ ngữ, loại bỏ các yếu tố nhiễu như từ viết tắt, câu cảm thán, từ không chuẩn, từ đó tăng độ chính xác của việc phân cụm và giảm số lượng dự đoán sai.
3. **Giải thuật DBSCAN có ưu điểm gì trong xử lý tin đăng bất động sản?**
DBSCAN không yêu cầu xác định số cụm trước, phát hiện được các cụm có hình dạng phức tạp và loại bỏ được nhiễu, phù hợp với dữ liệu lớn và phân bố không đồng đều.
4. **Làm thế nào để áp dụng kết quả nghiên cứu vào thực tế doanh nghiệp?**
Triển khai hệ thống tự động phân cụm tin đăng, kết hợp với công cụ giám sát và đào tạo nhân sự để nâng cao hiệu quả vận hành và phát triển nguồn hàng.
5. **Có thể mở rộng nghiên cứu này cho các loại bất động sản khác không?**
Có thể, tuy nhiên cần điều chỉnh phương pháp làm sạch và vector hóa phù hợp với đặc thù từng loại bất động sản và dữ liệu thu thập được.
## Kết luận
- Nghiên cứu đã xác định được phương pháp vector hóa và làm sạch dữ liệu tối ưu để loại bỏ tin đăng trùng trong lĩnh vực bất động sản.
- Phương pháp Doc2vec kết hợp đo lường cosine và thuật toán phân cụm DBSCAN cho hiệu quả cao trong việc phân loại tin đăng.
- Quy trình làm sạch dữ liệu đặc thù đóng vai trò quan trọng trong việc nâng cao độ chính xác phân cụm.
- Giải pháp đề xuất giúp cải thiện quy trình phát triển nguồn hàng và kết nối môi giới tại Propzy, tạo lợi thế cạnh tranh trên thị trường.
- Các bước tiếp theo bao gồm triển khai hệ thống tự động, phát triển công cụ giám sát và đào tạo nhân sự để đảm bảo hiệu quả lâu dài.
Hành động tiếp theo: Áp dụng quy trình phân cụm tự động vào hệ thống vận hành, theo dõi và điều chỉnh tham số dựa trên phản hồi thực tế, đồng thời mở rộng nghiên cứu cho các phân khúc bất động sản khác.