Trường đại học
Trường Đại Học Bà Rịa - Vũng TàuChuyên ngành
Công Nghệ Thông TinNgười đăng
Ẩn danhThể loại
Luận Văn Thạc Sĩ2023
Phí lưu trữ
30.000 VNĐMục lục chi tiết
Tóm tắt
Quản lý đất đai đóng vai trò then chốt trong quản lý nhà nước, ảnh hưởng trực tiếp đến kinh tế và xã hội. Mặc dù chính phủ đã nỗ lực cải thiện, vẫn còn tồn tại, đặc biệt là ứng dụng công nghệ thông tin. Hệ thống thông tin đất đai còn lạc hậu, thiếu đồng bộ, gây khó khăn cho tra cứu và quản lý. Đào tạo cán bộ quản lý đất đai về công nghệ thông tin cũng hạn chế. Hạ tầng thông tin đất đai cần được cải thiện để hỗ trợ công tác chuyên môn, cải cách thủ tục hành chính và phối hợp liên ngành. Hệ thống hiện tại thiếu đồng bộ, toàn diện và hiệu quả. Trong bối cảnh đó, đề tài "Số Hóa Dữ Liệu Nhà Đất Sử Dụng Thuật Toán Nhận Dạng Ảnh" ra đời, tập trung vào giải quyết một phần vấn đề này. Mục tiêu là trích xuất thông tin từ giấy chứng nhận quyền sử dụng đất đã số hóa bằng thuật toán nhận dạng ảnh, nhằm thu thập dữ liệu nhanh chóng, chính xác, và giảm thiểu sai sót do nhập liệu thủ công.
Mục tiêu chung của đề tài là ứng dụng thuật toán xử lý ảnh và mô hình máy học để nhận dạng dữ liệu trên giấy chứng nhận quyền sử dụng đất và trích xuất thông tin địa chính từ hình ảnh. Mục tiêu cụ thể bao gồm áp dụng thuật toán xử lý ảnh để phân tích hình ảnh, sử dụng mô hình nhận dạng đối tượng để xác định vị trí các thông tin cần trích xuất (quyền sở hữu, diện tích, số tờ, số thửa, địa chỉ thửa đất, hình thức sử dụng, mục đích sử dụng, thời hạn sử dụng, nguồn gốc giao đất), và đánh giá hiệu quả, độ chính xác của giải pháp. Đối tượng nghiên cứu là các file scan hoặc ảnh số của giấy chứng nhận quyền sử dụng đất đã được số hóa.
Phương pháp nghiên cứu tập trung vào xây dựng tập dữ liệu huấn luyện và kiểm tra từ các giấy chứng nhận quyền sử dụng đất đã số hóa. Tiến hành phân tích và xây dựng giải pháp xử lý ảnh và nhận dạng, sử dụng các kỹ thuật xử lý ảnh (chuẩn hóa, nhị phân ảnh) và mô hình nhận dạng (máy học chuyên sâu, mạng nơ-ron nhân tạo). Giải pháp sau đó được triển khai và thử nghiệm trên ngôn ngữ lập trình Python, kết quả được đánh giá để đảm bảo tính chính xác. Luận văn được cấu trúc thành 5 chương: tổng quan đề tài, cơ sở lý thuyết, xây dựng giải pháp số hóa, kết quả thử nghiệm và đánh giá, kết luận và kiến nghị.
Việc quản lý thông tin địa chính truyền thống đối mặt với nhiều thách thức. Dữ liệu thường được lưu trữ dưới dạng bản cứng, gây khó khăn cho việc tìm kiếm, truy cập và chia sẻ thông tin. Quy trình cập nhật thông tin thủ công tốn nhiều thời gian và công sức, dễ xảy ra sai sót. Sự thiếu đồng bộ giữa các cơ quan quản lý đất đai khác nhau dẫn đến tình trạng dữ liệu không nhất quán. Việc số hóa dữ liệu nhà đất bằng thuật toán nhận dạng ảnh nhằm giải quyết những vấn đề này, tăng cường hiệu quả và độ chính xác trong quản lý dữ liệu địa chính. Theo [2], hạ tầng thông tin đất đai còn nhiều hạn chế, thiếu đồng bộ và thống nhất về dữ liệu, quy trình nghiệp vụ và tiêu chuẩn kỹ thuật.
Việc số hóa cần xử lý nhiều loại giấy chứng nhận quyền sử dụng đất khác nhau, tùy thuộc vào từng giai đoạn. Các loại giấy chứng nhận bao gồm: giấy chứng nhận quyền sử dụng đất, giấy chứng nhận quyền sở hữu nhà ở và quyền sử dụng đất ở, và giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất. Mẫu giấy chứng nhận mới, áp dụng từ 10/12/2009, có tên gọi đầy đủ là "Giấy chứng nhận quyền sử dụng đất, quyền sở hữu nhà ở và tài sản khác gắn liền với đất". Các giấy chứng nhận cũ vẫn có giá trị pháp lý. Việc nhận dạng chính xác loại giấy tờ là bước đầu tiên quan trọng trong quá trình số hóa.
Trích xuất thông tin thủ công từ giấy chứng nhận tốn thời gian, công sức và dễ mắc lỗi. Quá trình này thường đòi hỏi nhân viên phải đọc, hiểu và nhập thông tin từ các giấy tờ, vốn có thể phức tạp và khó đọc. Sự không nhất quán trong cách trình bày thông tin trên các giấy tờ khác nhau cũng gây khó khăn cho quá trình này. Các lỗi nhập liệu có thể dẫn đến những hậu quả nghiêm trọng trong quản lý đất đai. Tự động hóa quy trình trích xuất thông tin giúp giảm thiểu các vấn đề này và nâng cao hiệu quả công việc.
Trong lĩnh vực xử lý ảnh, Object Detection là một bài toán quan trọng, nhằm xác định và phát hiện các đối tượng cụ thể trong hình ảnh. Một số thuật toán được sử dụng là R-CNN, Faster R-CNN và YOLO. R-CNN là một mô hình phát hiện đối tượng theo hai bước, trong đó bước đầu tiên là đề xuất các vùng có thể chứa đối tượng (region proposals), bước thứ hai là sử dụng CNN để phân loại các vùng này và ước tính vị trí của các đối tượng. Faster R-CNN kết hợp việc sử dụng mạng CNN với một mô-đun đặc biệt được gọi là Region Proposal Network (RPN), giúp tự động tạo ra các vùng đề xuất (region proposals) trong ảnh. YOLO tiếp cận bài toán nhận dạng đối tượng một cách hoàn toàn khác biệt so với các phương pháp truyền thống.
R-CNN có độ chính xác cao nhờ sử dụng mạng nơ-ron tích chập để trích xuất đặc trưng từ các vùng đề xuất và khả năng phát hiện nhiều đối tượng. Tuy nhiên, tốc độ xử lý chậm do việc trích xuất đặc trưng từ các vùng đề xuất và phân loại chúng một cách riêng lẻ. R-CNN không chia sẻ đặc trưng và đòi hỏi bộ nhớ lớn. R-CNN hiệu quả và chính xác, nhưng thời gian đào tạo lâu và sử dụng nhiều bộ nhớ có thể gây khó khăn trong các ứng dụng thực tế.
YOLO có tốc độ nhanh, có thể thực hiện nhận dạng đối tượng nhanh chóng và hiệu quả, phân loại đa lớp cùng một lúc và không chia sẻ đặc trưng. YOLO không bị giới hạn bởi kích thước đề xuất như các phương pháp R-CNN, giúp xử lý hiệu quả cả các đối tượng nhỏ và lớn. Tuy nhiên, YOLO có thể gặp khó khăn trong việc phát hiện các đối tượng nhỏ hoặc chồng chéo lên nhau. Độ chính xác có thể không cao bằng các phương pháp khác như R-CNN. Khả năng nhận diện chính xác các đối tượng nhỏ, nằm xa hoặc bị che khuất vẫn còn hạn chế so với các phương pháp khác.
Giải pháp số hóa thông tin giấy chứng nhận kết hợp các mô hình nhận dạng đối tượng, OCR (Optical Character Recognition) và NER (Named Entity Recognition). Đầu tiên, mô hình nhận dạng đối tượng được sử dụng để xác định vị trí các vùng chứa thông tin trên giấy chứng nhận (ví dụ: thông tin chủ sở hữu, thông tin thửa đất). Tiếp theo, OCR được sử dụng để trích xuất văn bản từ các vùng này. Cuối cùng, mô hình NER được sử dụng để xác định loại thông tin trong văn bản (ví dụ: tên chủ sở hữu, diện tích thửa đất, số tờ, số thửa).
Bước đầu tiên là xác định các trường thông tin quan trọng cần trích xuất từ giấy chứng nhận, bao gồm thông tin về chủ sở hữu (tên, địa chỉ, số CMND), thông tin về thửa đất (số thửa, số tờ bản đồ, diện tích, mục đích sử dụng, thời hạn sử dụng, địa chỉ). Các trường thông tin này được sử dụng để huấn luyện mô hình NER. Bảng 3.1 và 3.2 trong tài liệu gốc liệt kê chi tiết các trường thông tin quan trọng này.
Mô hình NER được huấn luyện để xác định loại thông tin trong văn bản đã trích xuất bằng OCR. Quá trình huấn luyện bao gồm chuẩn bị dữ liệu, gán nhãn dữ liệu (ví dụ: gán nhãn "Tên chủ sở hữu" cho phần văn bản chứa tên chủ sở hữu), và huấn luyện mô hình sử dụng các thuật toán máy học. Các công cụ phổ biến để huấn luyện mô hình NER bao gồm spaCy và BERT. Hình 3.13 đến 3.16 trong tài liệu gốc minh họa quá trình chuẩn bị dữ liệu và gán nhãn cho mô hình NER.
Giải pháp số hóa được thử nghiệm trên một tập dữ liệu giấy chứng nhận thực tế. Kết quả cho thấy giải pháp kết hợp các mô hình nhận dạng đạt được độ chính xác cao trong việc trích xuất thông tin từ giấy chứng nhận. Tuy nhiên, độ chính xác có thể bị ảnh hưởng bởi chất lượng ảnh đầu vào (ví dụ: ảnh bị mờ, bị nghiêng). Bảng 4.1 trong tài liệu gốc trình bày kết quả thực nghiệm chi tiết.
Dữ liệu thử nghiệm bao gồm một tập hợp các giấy chứng nhận quyền sử dụng đất đã được số hóa. Kịch bản thử nghiệm bao gồm việc đưa các giấy chứng nhận này vào giải pháp số hóa và so sánh kết quả trích xuất thông tin tự động với thông tin được trích xuất thủ công. Các trường hợp ảnh bị mờ, bị nghiêng cũng được đưa vào thử nghiệm để đánh giá khả năng xử lý của giải pháp.
Kết quả được phân tích dựa trên độ chính xác (precision), độ phủ (recall) và F1-score. Độ chính xác đo lường tỷ lệ thông tin được trích xuất đúng so với tổng số thông tin được trích xuất. Độ phủ đo lường tỷ lệ thông tin được trích xuất đúng so với tổng số thông tin cần trích xuất. F1-score là trung bình điều hòa của độ chính xác và độ phủ. Các chỉ số này được sử dụng để đánh giá hiệu quả của giải pháp.
Luận văn đã trình bày một giải pháp hiệu quả cho việc số hóa dữ liệu nhà đất bằng thuật toán nhận dạng ảnh. Giải pháp này giúp tự động hóa quy trình trích xuất thông tin từ giấy chứng nhận, giảm thiểu sai sót và tăng cường hiệu quả quản lý đất đai. Tuy nhiên, vẫn còn một số hạn chế cần được khắc phục.Hướng nghiên cứu tiếp theo là mở rộng giải pháp để xử lý thông tin biến động về quyền sử dụng đất, dữ liệu thuộc tính của thửa đất và tài sản gắn liền với đất.
Đề tài đã xây dựng và triển khai thành công một giải pháp số hóa thông tin giấy chứng nhận quyền sử dụng đất sử dụng thuật toán nhận dạng ảnh. Giải pháp này bao gồm các mô hình nhận dạng đối tượng, OCR và NER. Đề tài cũng đã đánh giá hiệu quả của giải pháp trên một tập dữ liệu thực tế và chứng minh tính khả thi của phương pháp này.
Để cải tiến giải pháp, cần tập trung vào việc nâng cao chất lượng ảnh đầu vào, cải thiện độ chính xác của mô hình OCR và NER, và mở rộng phạm vi của giải pháp để xử lý các loại giấy tờ khác. Định hướng phát triển bao gồm tích hợp giải pháp vào hệ thống thông tin địa chính quốc gia, xây dựng các ứng dụng di động để người dân có thể dễ dàng truy cập thông tin đất đai, và sử dụng trí tuệ nhân tạo để phân tích dữ liệu đất đai và đưa ra các quyết định quản lý hiệu quả hơn.
Bạn đang xem trước tài liệu:
Số hóa dữ liệu nhà đất sử dụng thuật toán nhận dạng ảnh
Tài liệu có tiêu đề Số Hóa Dữ Liệu Nhà Đất Bằng Thuật Toán Nhận Dạng Ảnh khám phá cách mà công nghệ nhận dạng ảnh có thể được áp dụng để số hóa dữ liệu bất động sản. Bài viết nhấn mạnh tầm quan trọng của việc chuyển đổi thông tin nhà đất thành định dạng số, giúp cải thiện khả năng truy cập và quản lý dữ liệu. Một trong những lợi ích chính mà tài liệu mang lại là khả năng tối ưu hóa quy trình tìm kiếm và phân tích thông tin bất động sản, từ đó hỗ trợ người dùng trong việc ra quyết định nhanh chóng và chính xác hơn.
Để mở rộng kiến thức của bạn về chủ đề này, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ số hóa dữ liệu nhà đất sử dụng thuật toán nhận dạng ảnh, nơi cung cấp cái nhìn sâu sắc hơn về ứng dụng của thuật toán trong lĩnh vực này. Ngoài ra, tài liệu Luận văn thạc sĩ hệ thống thông tin quản lý bản đồ bất động sản số việt nam cũng sẽ giúp bạn hiểu rõ hơn về hệ thống thông tin quản lý bản đồ trong bối cảnh số hóa bất động sản tại Việt Nam. Những tài liệu này không chỉ bổ sung kiến thức mà còn mở ra nhiều cơ hội để bạn khám phá sâu hơn về công nghệ và ứng dụng trong ngành bất động sản.