## Tổng quan nghiên cứu
Quản lý đất đai là một lĩnh vực then chốt trong quản lý nhà nước, ảnh hưởng trực tiếp đến phát triển kinh tế - xã hội. Theo báo cáo của ngành, hệ thống thông tin đất đai hiện tại tại Việt Nam còn nhiều hạn chế như thiếu đồng bộ, chưa toàn diện và hiệu quả thấp trong xử lý dữ liệu. Đặc biệt, việc số hóa và tự động hóa trích xuất thông tin từ giấy chứng nhận quyền sử dụng đất vẫn chưa được ứng dụng rộng rãi, dẫn đến sai sót và mất nhiều thời gian trong quản lý.
Luận văn tập trung nghiên cứu và phát triển giải pháp số hóa dữ liệu nhà đất sử dụng thuật toán nhận dạng ảnh, nhằm tự động hóa việc nhận dạng và trích xuất thông tin từ giấy chứng nhận quyền sử dụng đất. Mục tiêu cụ thể là xây dựng mô hình nhận dạng đối tượng (Object Detection) kết hợp với nhận dạng ký tự quang học (OCR) và nhận dạng thực thể có tên (NER) để trích xuất chính xác các trường thông tin quan trọng như tên chủ sử dụng, số thửa, diện tích, mục đích sử dụng, v.v.
Nghiên cứu được thực hiện trên dữ liệu giấy chứng nhận đã số hóa tại tỉnh Bà Rịa – Vũng Tàu trong năm 2023, với phạm vi tập trung vào các giấy chứng nhận theo mẫu mới áp dụng từ năm 2009. Giải pháp này có ý nghĩa lớn trong việc nâng cao hiệu quả quản lý đất đai, giảm thiểu sai sót do nhập liệu thủ công và hỗ trợ cải cách thủ tục hành chính trong lĩnh vực địa chính.
## Cơ sở lý thuyết và phương pháp nghiên cứu
### Khung lý thuyết áp dụng
- **Thuật toán nhận dạng đối tượng (Object Detection):** Nghiên cứu sử dụng các mô hình CNN tiên tiến như SSD (Single Shot MultiBox Detector), Faster R-CNN và YOLO để xác định các vùng chứa thông tin trên ảnh giấy chứng nhận. SSD được lựa chọn do cân bằng tốt giữa tốc độ và độ chính xác, phù hợp với yêu cầu xử lý ảnh kích thước lớn (2158 x 3010 pixels).
- **Nhận dạng ký tự quang học (OCR):** Tesseract OCR được áp dụng để chuyển đổi vùng ảnh đã nhận dạng thành văn bản có thể xử lý, hỗ trợ tiếng Việt và nhiều định dạng ảnh phổ biến.
- **Nhận dạng thực thể có tên (NER):** Sử dụng mô hình NER dựa trên thư viện SpaCy để phân loại và gán nhãn các thực thể quan trọng trong văn bản như tên người, địa chỉ, số giấy tờ, diện tích, mục đích sử dụng đất. Phương pháp học có giám sát được áp dụng với dữ liệu được gán nhãn theo định dạng BIO.
Các khái niệm chính bao gồm: giấy chứng nhận quyền sử dụng đất, Object Detection, OCR, NER, và các thuật toán học máy liên quan.
### Phương pháp nghiên cứu
- **Nguồn dữ liệu:** Tập dữ liệu gồm 150 file ảnh giấy chứng nhận quyền sử dụng đất đã số hóa, trong đó 133 ảnh dùng để huấn luyện và 17 ảnh dùng để kiểm thử, thu thập từ Trung tâm Công nghệ thông tin Tài nguyên và Môi trường tỉnh Bà Rịa – Vũng Tàu.
- **Phương pháp phân tích:** Dữ liệu ảnh được tiền xử lý (chuyển sang ảnh xám, làm mịn, nhị phân hóa) để nâng cao chất lượng nhận dạng. Mô hình SSD Mobilenet v2 được huấn luyện trên dữ liệu đã gán nhãn bằng công cụ LabelImg, dữ liệu được chuyển sang định dạng TFRecord để tối ưu cho TensorFlow Object Detection API. Sau khi nhận dạng vùng thông tin, OCR Tesseract trích xuất văn bản, tiếp theo mô hình NER SpaCy phân loại thực thể trong văn bản.
- **Timeline nghiên cứu:** Quá trình thu thập và chuẩn bị dữ liệu diễn ra trong 3 tháng đầu năm 2023, huấn luyện mô hình và thử nghiệm trong 4 tháng tiếp theo, đánh giá và hoàn thiện giải pháp trong 1 tháng cuối cùng.
## Kết quả nghiên cứu và thảo luận
### Những phát hiện chính
- Mô hình SSD đạt độ chính xác nhận dạng vùng thông tin trên ảnh giấy chứng nhận khoảng 92%, vượt trội so với các mô hình truyền thống như Faster R-CNN (đạt khoảng 88%).
- OCR Tesseract trích xuất văn bản với độ chính xác trên 90% đối với các vùng ảnh đã được nhận dạng chính xác, giảm thiểu lỗi do ảnh mờ hoặc nhiễu.
- Mô hình NER SpaCy phân loại các thực thể trong văn bản với độ chính xác đạt 89%, giúp tự động gán nhãn các trường thông tin như tên chủ sử dụng, số thửa, diện tích, mục đích sử dụng.
- Giải pháp tổng thể kết hợp Object Detection, OCR và NER đạt hiệu quả trích xuất thông tin chính xác trên 87%, so với phương pháp thủ công truyền thống chỉ đạt khoảng 75% do lỗi nhập liệu và sai sót con người.
### Thảo luận kết quả
Nguyên nhân chính của hiệu quả cao là do việc kết hợp đồng bộ các mô hình nhận dạng vùng ảnh và xử lý ngôn ngữ tự nhiên, giúp giảm thiểu sai sót trong từng bước xử lý. So với các nghiên cứu trước đây chỉ tập trung vào OCR hoặc NER riêng lẻ, giải pháp này tối ưu hóa quy trình trích xuất thông tin từ giấy chứng nhận đất đai một cách toàn diện.
Kết quả có thể được trình bày qua biểu đồ so sánh độ chính xác của từng mô hình và tổng thể, cũng như bảng thống kê lỗi phổ biến và tỷ lệ khắc phục. Ý nghĩa của nghiên cứu là góp phần nâng cao hiệu quả quản lý dữ liệu địa chính, giảm thời gian xử lý hồ sơ và tăng tính chính xác trong quản lý đất đai.
## Đề xuất và khuyến nghị
- **Triển khai hệ thống tự động hóa:** Áp dụng giải pháp số hóa dữ liệu nhà đất trên quy mô toàn tỉnh trong vòng 12 tháng, nhằm nâng cao hiệu quả quản lý và giảm thiểu sai sót nhập liệu thủ công. Chủ thể thực hiện là Sở Tài nguyên và Môi trường phối hợp với Trung tâm Công nghệ thông tin.
- **Đào tạo cán bộ quản lý:** Tổ chức các khóa đào tạo về công nghệ nhận dạng ảnh và xử lý dữ liệu số cho cán bộ quản lý đất đai, nâng cao kỹ năng sử dụng công nghệ trong 6 tháng tiếp theo.
- **Mở rộng dữ liệu và mô hình:** Thu thập thêm dữ liệu giấy chứng nhận có nhiều thửa đất và các loại giấy chứng nhận cũ để mở rộng phạm vi áp dụng, đồng thời cải tiến mô hình nhận dạng để xử lý các trường hợp phức tạp trong 18 tháng tới.
- **Phát triển giao diện người dùng:** Xây dựng phần mềm giao diện thân thiện, hỗ trợ nhập liệu, kiểm tra và chỉnh sửa kết quả trích xuất, giúp cán bộ dễ dàng sử dụng và kiểm soát dữ liệu trong 9 tháng.
## Đối tượng nên tham khảo luận văn
- **Cán bộ quản lý đất đai:** Nâng cao hiểu biết về ứng dụng công nghệ trong quản lý hồ sơ đất đai, cải thiện quy trình làm việc và giảm thiểu sai sót.
- **Nhà nghiên cứu công nghệ thông tin:** Tham khảo phương pháp kết hợp thuật toán nhận dạng ảnh và xử lý ngôn ngữ tự nhiên trong lĩnh vực địa chính.
- **Chuyên gia phát triển phần mềm:** Áp dụng các mô hình học máy và xử lý ảnh trong phát triển các giải pháp tự động hóa quản lý dữ liệu.
- **Cơ quan hành chính nhà nước:** Tăng cường hiệu quả cải cách thủ tục hành chính, nâng cao chất lượng dịch vụ công liên quan đến đất đai.
## Câu hỏi thường gặp
1. **Giải pháp này có thể áp dụng cho các loại giấy chứng nhận khác nhau không?**
Giải pháp hiện tập trung vào mẫu giấy chứng nhận mới áp dụng từ năm 2009, tuy nhiên có thể mở rộng để xử lý các mẫu cũ với điều chỉnh mô hình và dữ liệu huấn luyện phù hợp.
2. **Độ chính xác của mô hình nhận dạng ảnh và OCR là bao nhiêu?**
Mô hình nhận dạng vùng ảnh đạt khoảng 92% độ chính xác, OCR Tesseract đạt trên 90% khi xử lý vùng ảnh rõ nét, giúp tổng thể giải pháp đạt hiệu quả trích xuất trên 87%.
3. **Giải pháp có thể xử lý ảnh giấy chứng nhận bị mờ hoặc nhiễu không?**
Các bước tiền xử lý ảnh như làm mịn, nhị phân hóa giúp cải thiện chất lượng ảnh đầu vào, tuy nhiên ảnh quá mờ hoặc nhiễu nặng vẫn có thể ảnh hưởng đến độ chính xác.
4. **Mô hình NER được huấn luyện như thế nào?**
Mô hình NER sử dụng dữ liệu văn bản được gán nhãn thủ công theo định dạng BIO, huấn luyện trên thư viện SpaCy với phương pháp học có giám sát, đạt độ chính xác khoảng 89%.
5. **Giải pháp có thể tích hợp vào hệ thống quản lý hiện tại không?**
Có thể tích hợp thông qua API hoặc xuất dữ liệu định dạng JSON/XML, giúp dễ dàng kết nối với các hệ thống quản lý đất đai hiện có.
## Kết luận
- Đã xây dựng thành công giải pháp số hóa dữ liệu nhà đất sử dụng thuật toán nhận dạng ảnh kết hợp OCR và NER, đạt độ chính xác trích xuất thông tin trên 87%.
- Giải pháp giúp tự động hóa quy trình xử lý giấy chứng nhận quyền sử dụng đất, giảm thiểu sai sót và tăng hiệu quả quản lý.
- Mô hình SSD Mobilenet v2 được lựa chọn tối ưu giữa tốc độ và độ chính xác trong nhận dạng vùng ảnh.
- Nghiên cứu góp phần thúc đẩy cải cách thủ tục hành chính và nâng cao chất lượng quản lý dữ liệu địa chính tại Việt Nam.
- Hướng phát triển tiếp theo là mở rộng phạm vi dữ liệu, cải tiến mô hình và phát triển giao diện người dùng thân thiện.
Đề nghị các cơ quan quản lý và nhà nghiên cứu tiếp tục ứng dụng và phát triển giải pháp nhằm nâng cao hiệu quả quản lý đất đai trong thời gian tới.