Luận Văn Thạc Sĩ Khoa Học Máy Tính: Ứng Dụng Học Máy Để Dự Đoán Giá Bất Động Sản

Luận văn thạc sĩ nghiên cứu máy tính dự đoán giá bất động sản bằng phương pháp học máy, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện trong lĩnh vực .

Trường đại học

Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT OF DISSERTATION

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu chung

1.2. Mô tả bài toán dự đoán

1.3. Mục tiêu và nhiệm vụ của luận văn

1.4. Giới hạn đề tài

1.5. Đóng góp của luận văn

1.6. Tóm tắt nội dung

2. CHƯƠNG 2: CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Phương pháp hồi quy tuyến tính

2.2. Phương pháp tổng hợp và tăng cường

2.3. Phương pháp dùng mạng nơ-ron nhân tạo

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Tổng quan quá trình giải bài toán học máy

3.2. Giới thiệu các thuật toán trong bài toán dự đoán

3.3. Nhóm mô hình hồi quy tuyến tính

3.4. Nhóm các mô hình tree-based

3.5. Kỹ thuật Boosting

3.6. Các chỉ số đánh giá mô hình trong bài toán dự đoán

3.7. Phân tích các yếu tố ảnh hưởng giá nhà

4. CHƯƠNG 4: PHÂN TÍCH VÀ DỰ ĐOÁN GIÁ

4.1. Giới thiệu tập dữ liệu

4.2. Tổng quan toàn bộ tập dữ liệu

4.3. Đặc điểm của tập dữ liệu xem xét

4.4. Thu thập / trích xuất dữ liệu

4.5. Khám phá dữ liệu

4.6. Tạo đặc trưng mới

4.7. Khám phá thuộc tính ‘giá đăng bán’

4.8. Tổng quan sự tương quan giữa giá và các thuộc tính khác

4.9. Sự tương quan trên tập dữ liệu HCM

4.10. Sự tương quan các thuộc tính trên tập dữ liệu Đồng Nai

4.11. Khám phá các thuộc tính categorical

4.12. Chuẩn bị dữ liệu

4.13. Xoá thuộc tính không cần thiết. Xoá các ngoại lai

4.14. Chuẩn hoá dữ liệu

4.15. Phân tách dữ liệu

4.16. Đường ống (pipeline) xử lý và huấn luyện mô hình

4.17. Đánh giá mô hình

4.18. Tinh chỉnh mô hình

4.19. Tinh chỉnh trên tập dữ liệu ở HCM

4.20. Tinh chỉnh trên tập dữ liệu ở ĐN

4.21. Kiểm tra mô hình trên tập kiểm tra

5. CHƯƠNG 5: ĐỀ XUẤT CẢI THIỆN ĐỘ CHÍNH XÁC

5.1. Cải tiến 1 – Gom cụm sử dụng vị trí (kinh độ và vĩ độ)

5.2. Cải tiến 2 – Gom cụm sử dụng các đặc điểm chính. Lý thuyết gom cụm. Kết quả gom cụm và thảo luận

5.3. Kết quả thực nghiệm

5.4. Tổng kết so sánh các cải tiến

6. CHƯƠNG 6: KẾT LUẬN

6.1. Kết quả đạt được

6.2. Hạn chế và vấn đề tồn đọng

6.3. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu chung

Luận văn tập trung vào việc dự đoán giá bất động sản bằng phương pháp học máy, một lĩnh vực đang thu hút sự quan tâm lớn từ cả cá nhân, doanh nghiệp và nhà quản lý. Giá bất động sản là yếu tố quan trọng ảnh hưởng đến nền kinh tế, đặc biệt trong bối cảnh thị trường biến động. Luận văn sử dụng phân tích dữ liệu và mô hình dự đoán để ước tính giá nhà dựa trên các yếu tố nội tại như vị trí, diện tích, và số tầng. Phương pháp học máy được áp dụng để cải thiện độ chính xác so với các phương pháp thống kê truyền thống.

1.1. Mục tiêu và nhiệm vụ

Mục tiêu chính của luận văn là dự đoán giá bất động sản trên tập dữ liệu thực tế, đồng thời đề xuất các phương pháp cải thiện độ chính xác của mô hình dự đoán. Các nhiệm vụ bao gồm tìm hiểu bài toán học máy, áp dụng vào tập dữ liệu, và đánh giá kết quả. Luận văn cũng đề xuất các giải pháp tối ưu hóa mô hình để nâng cao hiệu suất dự đoán.

1.2. Giới hạn đề tài

Luận văn giới hạn phạm vi nghiên cứu trong việc dự đoán giá bất động sản liên quan đến nhà ở, bao gồm nhà phố, nhà liền kề và biệt thự. Các yếu tố bên ngoài như thị trường cung-cầu và chính sách pháp luật không được xem xét. Các thuật toán học máy truyền thống được ưu tiên sử dụng do quy mô dữ liệu hạn chế.

II. Cơ sở lý thuyết

Chương này trình bày các lý thuyết nền tảng về học máy và thuật toán học máy được áp dụng trong bài toán dự đoán giá bất động sản. Các phương pháp như hồi quy tuyến tính, mạng nơ-ron nhân tạo, và kỹ thuật boosting được phân tích chi tiết. Luận văn cũng đề cập đến các chỉ số đánh giá mô hình như RMSE để đo lường độ chính xác của mô hình dự đoán.

2.1. Phương pháp hồi quy tuyến tính

Hồi quy tuyến tính là phương pháp cơ bản trong học máy, được sử dụng để dự đoán giá trị liên tục. Phương pháp này dễ hiểu và dễ triển khai, nhưng có thể không hiệu quả với dữ liệu phức tạp. Luận văn áp dụng hồi quy tuyến tính để dự đoán giá bất động sản và so sánh với các phương pháp khác.

2.2. Kỹ thuật boosting

Kỹ thuật boosting là một phương pháp nâng cao trong học máy, giúp cải thiện độ chính xác của mô hình dự đoán bằng cách kết hợp nhiều mô hình yếu thành một mô hình mạnh. Luận văn sử dụng các thuật toán như Gradient Boosting và CatBoost để tối ưu hóa kết quả dự đoán.

III. Phân tích và dự đoán giá

Chương này tập trung vào việc phân tích dữ liệu và xây dựng mô hình dự đoán giá bất động sản. Dữ liệu được thu thập từ thị trường bất động sản tại TP. Hồ Chí Minh và Đồng Nai, bao gồm các thông tin như diện tích, số tầng, và vị trí. Luận văn sử dụng các bước tiền xử lý dữ liệu như chuẩn hóa và loại bỏ ngoại lai để đảm bảo chất lượng đầu vào cho mô hình dự đoán.

3.1. Xử lý dữ liệu

Dữ liệu được làm sạch và chuẩn hóa để loại bỏ các giá trị thiếu và ngoại lai. Các thuộc tính mới được tạo ra để cải thiện độ chính xác của mô hình dự đoán. Quá trình này bao gồm việc mã hóa các biến phân loại và chuẩn hóa các biến liên tục.

3.2. Đánh giá mô hình

Các mô hình dự đoán được đánh giá dựa trên chỉ số RMSE để đo lường sai số giữa giá dự đoán và giá thực tế. Kết quả cho thấy các mô hình sử dụng kỹ thuật boosting đạt độ chính xác cao hơn so với hồi quy tuyến tính.

IV. Đề xuất cải thiện mô hình

Luận văn đề xuất hai phương pháp để cải thiện độ chính xác của mô hình dự đoán. Phương pháp đầu tiên là gom cụm dữ liệu dựa trên vị trí địa lý, trong khi phương pháp thứ hai sử dụng các đặc điểm chính của bất động sản như diện tích và số tầng. Các kết quả thực nghiệm cho thấy việc gom cụm dữ liệu giúp cải thiện đáng kể độ chính xác của mô hình dự đoán.

4.1. Gom cụm dữ liệu

Phương pháp gom cụm dữ liệu dựa trên vị trí địa lý được áp dụng để phân nhóm các bất động sản có đặc điểm tương đồng. Kết quả cho thấy việc gom cụm giúp giảm sai số dự đoán và cải thiện hiệu suất của mô hình dự đoán.

4.2. Tối ưu hóa mô hình

Luận văn sử dụng các kỹ thuật tối ưu hóa mô hình như điều chỉnh siêu tham số và kết hợp nhiều mô hình để nâng cao độ chính xác. Các kết quả thực nghiệm cho thấy sự cải thiện đáng kể trong việc dự đoán giá bất động sản.

V. Kết luận

Luận văn đã đạt được các kết quả quan trọng trong việc dự đoán giá bất động sản bằng phương pháp học máy. Các mô hình dự đoán được xây dựng và tối ưu hóa đã cho thấy độ chính xác cao hơn so với các phương pháp truyền thống. Luận văn cũng đề xuất các hướng phát triển trong tương lai, bao gồm việc tích hợp thêm các yếu tố bên ngoài và áp dụng các thuật toán học sâu để cải thiện hiệu suất.

5.1. Kết quả đạt được

Luận văn đã thành công trong việc xây dựng và tối ưu hóa các mô hình dự đoán giá bất động sản. Các kết quả thực nghiệm cho thấy sự cải thiện đáng kể trong độ chính xác dự đoán, đặc biệt khi áp dụng các kỹ thuật boosting và gom cụm dữ liệu.

5.2. Hướng phát triển

Trong tương lai, luận văn có thể được mở rộng bằng cách tích hợp thêm các yếu tố bên ngoài như thị trường cung-cầu và chính sách pháp luật. Việc áp dụng các thuật toán học sâu cũng là một hướng nghiên cứu tiềm năng để cải thiện hiệu suất dự đoán.

21/02/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính dự đoán giá bất động sản bằng phương pháp học máy

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Thị trường bất động sản, đặc biệt là giá nhà đất, luôn là mối quan tâm lớn của cá nhân, doanh nghiệp và các nhà quản lý nhà nước. Với khoảng 1441 mẫu dữ liệu bất động sản được thu thập từ thành phố Hồ Chí Minh và tỉnh Đồng Nai, việc dự đoán giá nhà trở thành một bài toán quan trọng nhằm hỗ trợ người mua, người bán và các tổ chức tài chính trong việc định giá chính xác. Nghiên cứu tập trung vào việc áp dụng các phương pháp học máy để dự đoán giá bất động sản dựa trên các đặc điểm nội tại như diện tích, số lầu, số phòng ngủ, vị trí, và các yếu tố khác. Mục tiêu chính là xây dựng mô hình dự đoán có độ chính xác cao, đồng thời đề xuất các giải pháp cải thiện hiệu suất mô hình trên tập dữ liệu thực tế trong giai đoạn từ đầu năm 2024 đến giữa năm 2024. Kết quả nghiên cứu không chỉ góp phần nâng cao hiệu quả dự đoán giá nhà mà còn hỗ trợ phát triển thị trường bất động sản bền vững, giảm thiểu rủi ro tài chính và thúc đẩy sự ổn định kinh tế xã hội.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Học máy có giám sát (Supervised Learning): Phương pháp chính được sử dụng để dự đoán giá nhà, trong đó mô hình học từ dữ liệu có nhãn (giá nhà thực tế) để dự đoán giá trị tương lai.
Mô hình hồi quy tuyến tính (Linear Regression): Bao gồm các biến thể như hồi quy Ridge, Lasso và Elastic Net, giúp mô hình hóa mối quan hệ tuyến tính giữa các đặc trưng và giá nhà.
Mô hình cây quyết định và kỹ thuật tăng cường (Boosting): Sử dụng các thuật toán như Random Forest, Gradient Boosting, CatBoost để xử lý các mối quan hệ phi tuyến tính và cải thiện độ chính xác dự đoán.
Thuật toán phân cụm (Clustering): Được áp dụng để gom nhóm dữ liệu dựa trên vị trí địa lý và đặc điểm chính của căn nhà nhằm tăng hiệu quả mô hình.
Các chỉ số đánh giá mô hình: RMSE, MAE, MSE và R-squared được sử dụng để đánh giá hiệu suất dự đoán.

Phương pháp nghiên cứu

Nguồn dữ liệu: Tập dữ liệu gồm 1441 mẫu bất động sản, trong đó 591 mẫu được chọn lọc thuộc loại hình nhà ở (nhà phố, biệt thự, nhà phố liền kề) tại TP. Hồ Chí Minh và Đồng Nai.
Phân tích dữ liệu: Tiền xử lý dữ liệu bao gồm làm sạch, loại bỏ ngoại lai, chuẩn hóa và tạo đặc trưng mới như khoảng cách tới trung tâm thành phố, nhóm khổ mặt đường.
Phương pháp phân tích: Áp dụng các thuật toán học máy truyền thống như hồi quy tuyến tính, Random Forest, Gradient Boosting và CatBoost. Thực hiện phân cụm dữ liệu dựa trên vị trí và đặc điểm nhà để cải thiện độ chính xác.
Timeline nghiên cứu: Từ tháng 1/2024 đến tháng 6/2024, bao gồm các bước thu thập, xử lý dữ liệu, xây dựng mô hình, đánh giá và đề xuất cải tiến.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Phân bố dữ liệu: Trong 591 mẫu, 322 mẫu thuộc tỉnh Đồng Nai và 269 mẫu thuộc TP. Hồ Chí Minh. Tỷ lệ dữ liệu thiếu ở một số trường như hướng nhà (89%), chất lượng căn nhà (81%) ảnh hưởng đến quá trình xử lý.
Mối tương quan giữa các đặc trưng và giá nhà: Diện tích sàn có độ tương quan cao nhất với giá bán, tiếp theo là số phòng ngủ, số phòng tắm và khổ mặt đường. Khoảng cách tới trung tâm thành phố có ảnh hưởng nghịch đến giá tại TP. Hồ Chí Minh.
Hiệu suất mô hình: Mô hình hồi quy tuyến tính cho kết quả tốt trên tập dữ liệu TP. Hồ Chí Minh với RMSE thấp hơn so với các mô hình phức tạp. Trong khi đó, các mô hình tree-based như CatBoost, Gradient Boosting và Random Forest cho kết quả vượt trội trên tập dữ liệu Đồng Nai.
Cải tiến mô hình: Việc áp dụng kỹ thuật phân cụm dựa trên vị trí địa lý và đặc điểm chính của căn nhà giúp giảm RMSE đáng kể, nâng cao độ chính xác dự đoán.

Thảo luận kết quả

Nguyên nhân chính của sự khác biệt hiệu suất giữa các mô hình trên hai khu vực là do đặc điểm phân bố dữ liệu và tính chất phi tuyến tính của các yếu tố ảnh hưởng giá nhà. Mô hình hồi quy tuyến tính phù hợp với dữ liệu có mối quan hệ tuyến tính rõ ràng như tại TP. Hồ Chí Minh, trong khi các mô hình tree-based xử lý tốt hơn các mối quan hệ phức tạp và dữ liệu phân tán như tại Đồng Nai. Kết quả này phù hợp với các nghiên cứu trước đây cho thấy kỹ thuật tăng cường và mô hình cây thường cho hiệu quả cao trong dự đoán giá bất động sản. Việc sử dụng phân cụm giúp mô hình tập trung vào các nhóm dữ liệu đồng nhất hơn, từ đó cải thiện độ chính xác. Dữ liệu có thể được trình bày qua biểu đồ phân bố giá theo nhóm cụm và bảng so sánh chỉ số RMSE giữa các mô hình để minh họa rõ ràng hiệu quả cải tiến.

Đề xuất và khuyến nghị

Áp dụng phân cụm dữ liệu: Thực hiện phân cụm dựa trên vị trí và đặc điểm chính của căn nhà để nâng cao độ chính xác dự đoán, hướng tới giảm RMSE ít nhất 10% trong vòng 6 tháng tới, do các công ty bất động sản và các nhà phát triển phần mềm thực hiện.
Tăng cường thu thập dữ liệu đầy đủ: Cải thiện chất lượng dữ liệu đầu vào, đặc biệt là các trường bị thiếu như hướng nhà, chất lượng căn nhà, nhằm giảm thiểu sai số dự đoán, thực hiện trong vòng 3 tháng bởi bộ phận thu thập dữ liệu.
Kết hợp mô hình đa thuật toán: Sử dụng kết hợp mô hình hồi quy tuyến tính và các mô hình tree-based để tận dụng ưu điểm của từng mô hình, nâng cao độ chính xác tổng thể, triển khai trong 4 tháng bởi nhóm nghiên cứu và phát triển.
Phát triển hệ thống dự đoán trực tuyến: Xây dựng công cụ dự đoán giá nhà trực tuyến dựa trên mô hình học máy đã được tinh chỉnh, giúp người dùng cá nhân và doanh nghiệp dễ dàng tiếp cận thông tin giá cả chính xác, hoàn thành trong 6 tháng tới.
Nghiên cứu mở rộng yếu tố bên ngoài: Khuyến nghị nghiên cứu thêm các yếu tố kinh tế vĩ mô, chính sách pháp luật để cải thiện mô hình dự đoán trong tương lai, thực hiện theo kế hoạch dài hạn.

Đối tượng nên tham khảo luận văn

Nhà đầu tư bất động sản: Giúp đánh giá chính xác giá trị tài sản, tối ưu hóa quyết định mua bán và đầu tư.
Ngân hàng và tổ chức tài chính: Hỗ trợ thẩm định giá trị tài sản đảm bảo, giảm rủi ro tín dụng.
Các công ty công nghệ phát triển phần mềm: Cung cấp nền tảng để xây dựng các ứng dụng dự đoán giá nhà thông minh, nâng cao trải nghiệm người dùng.
Nhà nghiên cứu và sinh viên ngành khoa học máy tính, kinh tế: Tham khảo phương pháp ứng dụng học máy trong lĩnh vực bất động sản, phát triển các nghiên cứu tiếp theo.

Câu hỏi thường gặp

Phương pháp học máy nào phù hợp nhất để dự đoán giá nhà?
Các mô hình tree-based như Random Forest và Gradient Boosting thường cho kết quả chính xác hơn trên dữ liệu phức tạp, trong khi hồi quy tuyến tính phù hợp với dữ liệu có mối quan hệ tuyến tính rõ ràng.
Làm thế nào để xử lý dữ liệu bị thiếu trong tập dữ liệu bất động sản?
Có thể sử dụng kỹ thuật trích xuất thông tin từ mô tả chi tiết, hoặc áp dụng các phương pháp nội suy, loại bỏ mẫu dữ liệu không đầy đủ để đảm bảo chất lượng mô hình.
Tại sao cần phân cụm dữ liệu trong dự đoán giá nhà?
Phân cụm giúp nhóm các căn nhà có đặc điểm tương đồng, từ đó mô hình có thể học chính xác hơn và giảm sai số dự đoán.
Chỉ số RMSE có ý nghĩa gì trong đánh giá mô hình?
RMSE đo lường sai số trung bình căn bậc hai giữa giá dự đoán và giá thực tế, chỉ số càng thấp chứng tỏ mô hình càng chính xác.
Có thể áp dụng mô hình này cho các khu vực khác ngoài TP. Hồ Chí Minh và Đồng Nai không?
Có thể, tuy nhiên cần thu thập dữ liệu đặc thù của khu vực đó và điều chỉnh mô hình phù hợp với đặc điểm phân bố dữ liệu mới.

Kết luận

Nghiên cứu đã xây dựng thành công mô hình dự đoán giá bất động sản dựa trên phương pháp học máy với tập dữ liệu thực tế gồm 591 mẫu tại TP. Hồ Chí Minh và Đồng Nai.
Mô hình hồi quy tuyến tính phù hợp với dữ liệu TP. Hồ Chí Minh, trong khi các mô hình tree-based như CatBoost và Gradient Boosting hiệu quả hơn tại Đồng Nai.
Việc áp dụng kỹ thuật phân cụm dựa trên vị trí và đặc điểm nhà giúp cải thiện đáng kể độ chính xác dự đoán.
Các đề xuất cải tiến mô hình và thu thập dữ liệu đầy đủ được khuyến nghị để nâng cao hiệu quả trong tương lai.
Hướng phát triển tiếp theo bao gồm mở rộng nghiên cứu các yếu tố bên ngoài và phát triển hệ thống dự đoán trực tuyến phục vụ người dùng rộng rãi.

Hãy áp dụng các giải pháp đề xuất để nâng cao hiệu quả dự đoán giá bất động sản, góp phần phát triển thị trường bền vững và ổn định kinh tế xã hội.

Trích đoạn nội dung tài liệu

Chương 1 – GIỚI THIỆU ĐỀ TÀI: trình bày tổng quan về đề tài, giới thiệu bài toán dự đoán, cũng như mục tiêu, nhiệm vụ, giới hạn và phạm vi của đề tài. Cuối cùng là đóng góp của luận văn và cấu trúc phần trình bày báo cáo của luận văn. - Chương 2 – CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: trình bày một cách tổng quát về những nghiên cứu liên quan đã và đang được thực hiện bài toán dự đoán. - Chương 3 – CƠ SỞ LÝ THUYẾT: học viên phân tích các yếu tố ảnh hưởng tới giá nhà, sau đó trình bày các lý thuyết liên quan để giải bài toán học máy gồm các bước chung giải quyết bài toán dự đoán và tổng quan các thuật toán được sử dụng.

- Chương 4 – PHÂN TÍCH VÀ DỰ ĐOÁN GIÁ: phần này học viên giới thiệu về tập dữ liệu, trình bày phương pháp xử lý tập dữ liệu, pipeline dự đoán giá và đánh giá kết quả đạt được dựa vào chỉ số RMSE. - Chương 5 – ĐỀ XUẤT CẢI THIỆN MÔ HÌNH: học viên trình bày hai đề xuất để cải thiện chỉ số RMSE, thực nghiệm giải phải đề xuất và đánh giá kết quả đạt được. - Chương 6 – KẾT LUẬN: tổng hợp các kết quả đạt được trong quá trình thực hiện luận văn từ bước nghiên cứu và xây dựng giả thuyết đến triển khai thực nghiệm. Phần này cũng trình bày những hạn chế và vấn đề tồn đọng, cuối cùng đề xuất các giải pháp cải tiến trong tương lai.

Mục lục, Danh sách hình vẽ, Danh sách bảng được cung cấp ở đầu luận văn. Tài liệu tham khảo và phần Phụ lục được trình bày ở cuối luận văn. 6 CHƯƠNG 2 CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN Thị trường bđs nói chung và giá nhà đất nói riêng là một trong những vấn đề được cả cá nhân, doanh nghiệp và các nhà quản lý hành chính nhà nước quan tâm. Việc dự đoán giá bất động sản vì thế mà thu hút nhiều nghiên cứu từ lĩnh vực kinh tế lượng (econometric) và gần đây là lĩnh vực trí tuệ nhân tạo.

Trong lĩnh vực kinh tế lượng, các mô hình thống kê (statistical models) thường được sử dụng để dự đoán xu hướng kinh tế và tài chính theo chuỗi thời gian (time series). Một vài mô hình cơ bản như Autoregressive, Vector Autoregressive, Vector Error Correction approaches, và một vài biến thể khác được sử dụng rộng rãi với nhiều mục đích khác nhau. Ví dụ, The Autoregressive Integrated Moving Average (ARIMA) là một mô hình thống kê dùng để dự báo theo thời gian, và thường được sử dụng như là một mô hình nền (baseline) để dự đoán giá nhà. Gần đây, với sự phát triển của lĩnh vực trí tuệ nhân tạo, nhiều nhà nghiên cứu đã ứng dụng vào dự đoán giá nhà.

Nhiều kỹ thuật học máy truyền thống được sử dụng như Support Vector Regression (SVR), Regression Tree, Random Forest (RF), và các kỹ thuật tổng hợp - Ensemble Methods. Bên cạnh đó, cũng có một vài nhà nghiên cứu áp dụng mạng nơ-ron - Neural Network (NN) để dự đoán và đưa ra kết quả khá tốt. Đối với tập dữ liệu, các nhà nghiên cứu đa số sử dụng dữ liệu đầu vào là các đặc điểm chính của ngôi nhà như loại nhà, năm xây dựng, vị trí, diện tích, số tầng, số phòng ngủ, số phòng tắm, …Bên cạnh đó, cũng có một vài nhà nghiên cứu còn kết hợp sử dụng với các yếu tố khác có thể ảnh hưởng tới giá nhà như tổng sản phẩm quốc nội (GDP), tổng sản lượng quốc gia (GNP), chỉ số giá tiêu dùng (CPI), chỉ số thị trường chứng khoán, lãi suất, tỷ lệ vỡ nợ (default rate) và tỷ lệ thất nghiệp. Nhìn chung, kết quả dự đoán mà các thuật toán học máy đưa ra có kết quả tốt với sai số ở mức có thể chấp nhận được.

Việc sử dụng các thuật toán học máy để dự đoán giá nhà nhìn chung có thể chia làm 3 giai đoạn phát triển, từ dùng các phương pháp học máy cổ điển, tiếp đến là dùng 7 các kỹ thuật tổng hợp, tăng cường để tăng độ chính xác cho mô hình, và gần nhất là dùng mạng nơ-ron nhân tạo.1: Các phương pháp để giải quyết bài toán dự đoán giá nhà 2. Phương pháp hồi quy tuyến tính Phương pháp hồi quy tuyến tính (Linear Regression – LR) là phương pháp sớm nhất được sử dụng để dự đoán giá nhà. Phương pháp này dựa vào giả sử rằng các đặc điểm của ngôi nhà như diện tích, số lầu, số phòng ngủ, số phòng tắm,… có mối quan hệ tuyến tính với giá của ngôi nhà. Ưu điểm của mô hình này là đơn giản, dễ dàng giải thích được mức độ ảnh hưởng của các thuộc tính độc lập lên thuộc tính phụ thuộc, và thường được sử dụng như một mô hình nền để so sánh với các mô hình phức tạp hơn.

Tuy nhiên, do giả sử mối quan hệ tuyến tính nên mô hình này sẽ không hoạt động tốt trên các tập dữ liệu có mối quan hệ phức tạp. Satish [1] sử dụng một vài thuật toán như LR, hồi quy LASSO, Gradient Boosting Algorithm (GBA) để dự đoán giá nhà trên tập 89412 giao dịch mua bán nhà ở Los Angeles California và kết luận rằng hồi quy LASSO đưa ra kết quả dự đoán tốt nhất. Phương pháp tổng hợp và tăng cường Để tiếp tục cải thiện độ chính xác trong việc dự đoán giá nhà, các nhà nghiên cứu sử dụng các thuật toán tổng hợp như RandomForest (RF) và các thuật toán tăng cường như Gradient Boosting Machine (GBM). 8 RF là thuật toán kết hợp nhiều cây quyết định để thực hiện dự đoán.

Không giống như các mô hình hồi quy, cây quyết định không phụ thuộc vào giả sử quan hệ tuyến tính giữa thuộc tính độc lập và phụ thuộc. Tuy nhiên hạn chế của cây quyết định đó là quá khớp. RF sẽ giảm hạn chế trên bằng cách kết hợp nhiều cây quyết định với nhau giúp tổng quát hoá mô hình hơn. Mỗi cây quyết định được huấn luyện trên các tập con và đặc điểm ngẫu nhiên của tập dữ liệu.

Giá trị dự đoán là giá trị trung bình trên các nhánh cây. Wang and Wu [2] sử dụng tập dữ liệu gồm 27649 mẫu từ Airling- ton Virginia USA năm 2015 và kết luận rằng RF cho kết quả tốt hơn LR. Mohd [3], dựa vào một vài thông số kỹ thuật của căn nhà như số phòng ngủ, số tầng, tuổi của ngôi nhà, diện tích các tầng để dự đoán giá căn nhà. Họ sử dụng các thuật toán RF, cây quyết định, hồi quy Ridge, LN, hồi quy LASSO kết hợp với độ đo RMSE, họ kết luận RF là thuật toán thích hợp nhất cho tập dữ liệu của họ.

Rico-Juan và De La Paz (2021) [4] cũng đã kết luận rằng RF cho ra kết quả tốt hơn khi so sánh với AdaBoost, Cat- Boost, cây quyết định, hồi quy LASSO, hồi quy Ridge và XGBRegressor. Kỹ thuật tăng cường cũng thực hiện kết hợp nhiều cây để cải thiện độ chính xác của mô hình, tuy nhiên các cây được kết hợp theo thứ tự, và cây sau sửa lỗi sai của cây trước nó. Do phải huấn luyện lần lượt các mô hình con nên hạn chế lớn nhất của kỹ thuật này là tốn thời gian. Có nhiều thuật toán sử dụng kỹ thuật tăng cường như AdaBoost, XGBoost (eXtreme Gradient Boosting), LightGBM và CatBoost.

Các thuật toán này cho kết quả khá tốt trong việc dự đoán giá nhà so với các phương pháp trước đó. Yan và Zong (2020) [5] kết luận trong bài nghiên cứu của họ rằng XGBoost cho ra kết quả tốt hơn LN, RF, hồi quy Ridge, hồi quy LASSO. Nhóm tác giả [6] sử dụng các thuật toán Naive Bayesian, AdaBoost để dự đoán giá nhà. Kết luận họ đưa ra khẳng định rằng AdaBoost cho kết quả tốt hơn thuật toán còn lại áp dụng trên tập dữ liệu họ đang làm thí nghiệm townhouse.

Bên cạnh đó, Support Vector Machine (SVM) cũng được sử dụng cho bài toán dự đoán nhà. Mô hình này hoạt động tốt trên các tập dữ liệu có sự phân tách rõ ràng 9 giữa các mẫu và có thể xử lý dữ liệu nhiều chiều. Tuy nhiên, mô hình đòi hỏi tinh chỉnh cẩn thận siêu tham số và là một black-box. Li [7] đã sử dụng Support Vector Regression (SVR) để dự đoán giá nhà, dữ liệu được thu thập từ 1998 tới 2008.

Dựa trên các chỉ số đánh giá như MAE, MAPE và RMSE, Li kết luận rằng SVR là một thuật toán tốt để dự đoán giá nhà. Huang [8] so sánh giữa các thuật toán LN, cây quyết định, Boosting, RF, SVM và kết luận rằng SVM đưa ra kết quả dự đoán chính xác hơn. Ho (2021)[9] thì kết luận RF và Gradient Boosting Machine đánh bại thuật toán SVM. Các tác giả [10] sử dụng RF, XGBoost, LightGBM, Hybrid Regression Model, Stack Generalization Regression để dự đoán giá nhà trên tập dữ liệu ‘Housing Price in Bei- jing’.

Họ kết luận rằng Stacked Generalization Regression và Hybrid Regression đưa ra kết quả tốt hơn các thuật toán còn lại. Nhóm tác giả [11] đã sử dụng 3 thuật toán gồm SVM, RF và GBM để dự đoán giá nhà ở Hồng Kông. Tập dữ liệu gồm 40000 giao dịch nhà đất từ 2002-2020. Các chỉ số được dùng để đánh giá độ hiệu quả của thuật toán gồm có MSE, RMSE và MAPE.

Họ kết luận rằng thuật toán RF và GBM cho kết quả tốt hơn so với SVM, nhưng SVM là một thuật toán cho kết quả chấp nhận được với ràng buộc thời gian ngắn. Phương pháp dùng mạng nơ-ron nhân tạo Các mô hình nơ-ron nhân tạo gồm nhiều lớp nơ-ron nên có thể bắt (capture) được những mối quan hệ không tuyến tính trong tập dữ liệu. Có nhiều nhà nghiên cứu thực nghiệm chứng tỏ được sử cải thiện độ chính xác lớn khi dùng mô hình này. Tuy nhiên, những mô hình này đòi hỏi tập dữ liệu có kích thước lớn và tài nguyên tính toán.

Nghiep and AI [12] dự đoán giá nhà bằng cách sử dụng phân tích hồi quy đa biến (multiple regression analysis) và mạng nơ-ron nhân tạo (Artificial Neural Network). Kết quả cho thấy rằng ANN cho kết quả tốt hơn MRA khi kích thước tập dữ liệu lớn. Rotimi [13] thực hiện so sánh giữa Hedonic Pricing Model (HPM) và ANN trong việc dự đoán bất động sản. Nhóm tác giả kết luận rằng ANN dự đoán kết quả tốt hơn HPM.

Chỉ số MAPE của ANN là 15. 10 CHƯƠNG 3 CƠ SỞ LÝ THUYẾT 3. Tổng quan quá trình giải bài toán học máy Để giải bài toán học máy thường sẽ phải đi qua một vài bước chính, từ xác định bài toán, thu thập dữ liệu, xử lý dữ liệu, phân tích xử liệu, lựa chọn đặc trưng, chọn lựa mô hình, huấn luyện mô hình, đánh giá mô hình và tinh chỉnh mô hình.1 thể hiện các bước đã trình bày ở trên.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận Văn Thạc Sĩ: Dự Đoán Giá Bất Động Sản Bằng Học Máy là một nghiên cứu chuyên sâu ứng dụng các phương pháp học máy để dự đoán giá bất động sản, một lĩnh vực đang thu hút sự quan tâm lớn trong cả học thuật và thực tiễn. Tài liệu này không chỉ cung cấp cái nhìn tổng quan về các mô hình học máy phổ biến mà còn phân tích chi tiết cách thức áp dụng chúng vào dữ liệu bất động sản, từ đó đưa ra các dự đoán chính xác và đáng tin cậy. Độc giả sẽ được hưởng lợi từ việc hiểu rõ hơn về quy trình xử lý dữ liệu, lựa chọn mô hình, và đánh giá kết quả, giúp họ có thể áp dụng vào các bài toán thực tế trong lĩnh vực bất động sản hoặc các ngành liên quan.

Nếu bạn quan tâm đến các phương pháp học máy và xử lý dữ liệu, bạn có thể khám phá thêm qua Luận văn thạc sĩ khoa học máy tính phân lớp dữ liệu chuỗi thời gian dựa vào mạng nơron tích chập CNN, nghiên cứu này tập trung vào việc phân loại dữ liệu chuỗi thời gian, một kỹ thuật quan trọng trong học máy. Bên cạnh đó, Luận văn thạc sĩ khoa học máy tính cải tiến giải thuật KMeans cho bài toán gom cụm dữ liệu chuỗi thời gian cung cấp cái nhìn sâu hơn về việc cải tiến các thuật toán gom cụm, một phương pháp hữu ích trong phân tích dữ liệu. Cuối cùng, Luận văn thạc sĩ khoa học máy tính khai phá cụm hướng thời gian trên dữ liệu giáo dục mở rộng ứng dụng của học máy vào lĩnh vực giáo dục, giúp bạn có thêm góc nhìn đa chiều về tiềm năng của các phương pháp này.

#Luận văn Thạc sĩ

#khoa học máy tính

#mô hình học máy

#phân tích dữ liệu bất động sản

#thuật toán dự đoán

#dự đoán giá bất động sản

Chủ đề

Khoa học Dữ liệu

Trí tuệ nhân tạo

Luận Văn Thạc Sĩ Khoa Học Máy Tính: Ứng Dụng Học Máy Để Dự Đoán Giá Bất Động Sản

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

ABSTRACT OF DISSERTATION

LỜI CAM ĐOAN

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Giới thiệu chung

1.2. Mô tả bài toán dự đoán

1.3. Mục tiêu và nhiệm vụ của luận văn

1.4. Giới hạn đề tài

1.5. Đóng góp của luận văn

1.6. Tóm tắt nội dung

2. CHƯƠNG 2: CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

2.1. Phương pháp hồi quy tuyến tính

2.2. Phương pháp tổng hợp và tăng cường

2.3. Phương pháp dùng mạng nơ-ron nhân tạo

3. CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1. Tổng quan quá trình giải bài toán học máy

3.2. Giới thiệu các thuật toán trong bài toán dự đoán

3.3. Nhóm mô hình hồi quy tuyến tính

3.4. Nhóm các mô hình tree-based

3.5. Kỹ thuật Boosting

3.6. Các chỉ số đánh giá mô hình trong bài toán dự đoán

3.7. Phân tích các yếu tố ảnh hưởng giá nhà

4. CHƯƠNG 4: PHÂN TÍCH VÀ DỰ ĐOÁN GIÁ

4.1. Giới thiệu tập dữ liệu

4.2. Tổng quan toàn bộ tập dữ liệu

4.3. Đặc điểm của tập dữ liệu xem xét

4.4. Thu thập / trích xuất dữ liệu

4.5. Khám phá dữ liệu

4.6. Tạo đặc trưng mới

4.7. Khám phá thuộc tính ‘giá đăng bán’

4.8. Tổng quan sự tương quan giữa giá và các thuộc tính khác

4.9. Sự tương quan trên tập dữ liệu HCM

4.10. Sự tương quan các thuộc tính trên tập dữ liệu Đồng Nai

4.11. Khám phá các thuộc tính categorical

4.12. Chuẩn bị dữ liệu

4.13. Xoá thuộc tính không cần thiết. Xoá các ngoại lai

4.14. Chuẩn hoá dữ liệu

4.15. Phân tách dữ liệu

4.16. Đường ống (pipeline) xử lý và huấn luyện mô hình

4.17. Đánh giá mô hình

4.18. Tinh chỉnh mô hình

4.19. Tinh chỉnh trên tập dữ liệu ở HCM

4.20. Tinh chỉnh trên tập dữ liệu ở ĐN

4.21. Kiểm tra mô hình trên tập kiểm tra

5. CHƯƠNG 5: ĐỀ XUẤT CẢI THIỆN ĐỘ CHÍNH XÁC

5.1. Cải tiến 1 – Gom cụm sử dụng vị trí (kinh độ và vĩ độ)

5.2. Cải tiến 2 – Gom cụm sử dụng các đặc điểm chính. Lý thuyết gom cụm. Kết quả gom cụm và thảo luận

5.3. Kết quả thực nghiệm

5.4. Tổng kết so sánh các cải tiến

6. CHƯƠNG 6: KẾT LUẬN

6.1. Kết quả đạt được

6.2. Hạn chế và vấn đề tồn đọng

6.3. Hướng phát triển

TÀI LIỆU THAM KHẢO

I. Giới thiệu chung

1.1. Mục tiêu và nhiệm vụ

1.2. Giới hạn đề tài

II. Cơ sở lý thuyết

2.1. Phương pháp hồi quy tuyến tính

2.2. Kỹ thuật boosting

III. Phân tích và dự đoán giá

3.1. Xử lý dữ liệu

3.2. Đánh giá mô hình

IV. Đề xuất cải thiện mô hình

4.1. Gom cụm dữ liệu

4.2. Tối ưu hóa mô hình

V. Kết luận

5.1. Kết quả đạt được

5.2. Hướng phát triển

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Phạm Hoàng Sơn

Người hướng dẫn: PGS. Bùi Hoài Thắng

Trường học: Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành: Khoa học máy tính

Đề tài: Dự đoán giá bất động sản bằng phương pháp học máy

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2024