Tổng quan nghiên cứu

Lĩnh vực du lịch được xem là ngành kinh tế mũi nhọn, đóng góp quan trọng vào giải quyết an sinh xã hội và tạo việc làm. Việt Nam, với tài nguyên thiên nhiên đa dạng, hướng tới phát triển du lịch bền vững theo chương trình 17 mục tiêu phát triển bền vững (SDGs) của Liên Hợp Quốc năm 2015. Tính đến tháng 5/2022, 17/22 bộ, ngành và 51/63 tỉnh, thành phố đã ban hành kế hoạch hành động thực hiện chương trình nghị sự 2030. Tuy nhiên, các văn bản pháp luật liên quan đến du lịch hiện nay mới chỉ được lưu trữ và tra cứu cơ bản, thiếu khả năng khai thác sâu, liên kết và trích xuất thông tin theo tiêu chí phát triển bền vững.

Mục tiêu nghiên cứu của luận văn là xây dựng mô hình học máy phân lớp đa nhãn để nhận diện và phân loại các văn bản pháp luật trong lĩnh vực du lịch theo các tiêu chí phát triển bền vững, đồng thời xây dựng ontology miền để lưu trữ, truy vấn và khai thác thông tin hiệu quả. Phạm vi nghiên cứu tập trung vào hệ thống văn bản pháp luật Việt Nam liên quan đến du lịch và các mục tiêu phát triển bền vững, trong giai đoạn từ năm 2015 đến 2022. Nghiên cứu có ý nghĩa thiết thực trong việc nâng cao hiệu quả tra cứu, phân tích và ứng dụng dữ liệu pháp luật phục vụ quản lý nhà nước, hoạch định chính sách và phát triển ngành du lịch bền vững.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

  • Phân lớp đa nhãn (Multi-label Classification): Phân loại văn bản có thể thuộc nhiều nhãn cùng lúc, khác với phân lớp đơn nhãn truyền thống. Phân lớp đa nhãn được áp dụng để phân loại các văn bản pháp luật theo nhiều tiêu chí phát triển bền vững đồng thời.

  • Mô hình học máy Transformer và BERT: Sử dụng kiến trúc Transformer với cơ chế attention để hiểu ngữ cảnh và ngữ nghĩa trong văn bản. Mô hình BERT (Bidirectional Encoder Representations from Transformers) và phiên bản tiếng Việt PhoBERT được tinh chỉnh để phù hợp với bài toán phân lớp đa nhãn văn bản pháp luật.

  • Ontology: Mô hình biểu diễn tri thức miền du lịch, bao gồm các lớp, cá thể, thuộc tính và quan hệ, giúp tổ chức, lưu trữ và truy vấn thông tin pháp luật một cách có cấu trúc và hiệu quả. Ontology được xây dựng theo quy trình bảy bước, từ xác định phạm vi đến tạo thể hiện.

Các khái niệm chính bao gồm: phân lớp đa nhãn, mô hình PhoBERT, ontology miền du lịch, truy vấn SPARQL, và các chỉ số đánh giá mô hình như độ chính xác, độ F1.

Phương pháp nghiên cứu

  • Nguồn dữ liệu: Tập hợp khoảng 500 văn bản pháp luật Việt Nam liên quan đến lĩnh vực du lịch và các mục tiêu phát triển bền vững, được thu thập từ các cơ quan nhà nước và thư viện pháp luật chính thức.

  • Phương pháp phân tích: Áp dụng mô hình học máy PhoBERT để phân lớp đa nhãn văn bản pháp luật. Dữ liệu được chia thành tập huấn luyện (80%) và tập kiểm thử (20%). Quá trình huấn luyện sử dụng thuật toán Adam với hàm mất mát CrossEntropyLoss, tinh chỉnh mô hình để tối ưu hiệu suất.

  • Xây dựng ontology: Thực hiện theo quy trình bảy bước, bao gồm xác định phạm vi, tái sử dụng ontology có sẵn, liệt kê thuật ngữ, phân cấp lớp, xác định thuộc tính và giới hạn thuộc tính, cuối cùng tạo thể hiện. Ontology được triển khai trên nền tảng Apache Jena Fuseki, hỗ trợ truy vấn SPARQL.

  • Timeline nghiên cứu: Từ tháng 11/2018 đến tháng 12/2022, bao gồm thu thập dữ liệu, xây dựng mô hình, huấn luyện, đánh giá và triển khai hệ thống truy vấn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả phân lớp đa nhãn với PhoBERT: Mô hình đạt độ chính xác trung bình khoảng 87%, độ F1 đạt 85% trên tập kiểm thử, vượt trội so với các mô hình truyền thống như Naive Bayes và SVM (độ chính xác khoảng 75-80%). Điều này chứng tỏ khả năng hiểu ngữ cảnh và ngữ nghĩa của PhoBERT trong phân loại văn bản pháp luật.

  2. Xây dựng ontology miền du lịch: Ontology bao gồm hơn 150 lớp, 300 thuộc tính và 500 cá thể, mô hình hóa đầy đủ các khía cạnh của văn bản pháp luật và các mục tiêu phát triển bền vững. Ontology hỗ trợ truy vấn phức tạp, cho phép người dùng tìm kiếm văn bản theo tiêu chí, cơ quan ban hành, thời gian và mối quan hệ liên quan.

  3. Ứng dụng truy vấn SPARQL: Hệ thống truy vấn trả về kết quả chính xác với thời gian trung bình dưới 2 giây cho các truy vấn phức tạp, giúp người dùng dễ dàng tra cứu và khai thác thông tin pháp luật liên quan đến du lịch bền vững.

  4. Khả năng mở rộng và cập nhật: Ontology và mô hình học máy có thể được cập nhật liên tục khi có văn bản mới, đảm bảo tính chính xác và kịp thời trong việc quản lý dữ liệu pháp luật.

Thảo luận kết quả

Kết quả cho thấy việc ứng dụng mô hình học máy hiện đại như PhoBERT trong phân lớp đa nhãn văn bản pháp luật giúp nâng cao độ chính xác và hiệu quả phân loại so với các phương pháp truyền thống. Việc xây dựng ontology miền du lịch tạo ra một lưới tri thức có cấu trúc, hỗ trợ truy vấn và khai thác thông tin một cách khoa học, góp phần giải quyết hạn chế của các hệ thống lưu trữ văn bản pháp luật hiện tại.

So với các nghiên cứu trước đây tập trung chủ yếu vào lưu trữ và tra cứu cơ bản, nghiên cứu này mở rộng khả năng phân tích, nhận diện và liên kết thông tin theo các tiêu chí phát triển bền vững, phù hợp với yêu cầu quản lý nhà nước và phát triển ngành du lịch bền vững tại Việt Nam. Dữ liệu có thể được trình bày qua biểu đồ so sánh độ chính xác các mô hình, bảng thống kê số lượng lớp và thuộc tính ontology, cũng như biểu đồ thời gian truy vấn.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống phân lớp đa nhãn và ontology trên quy mô quốc gia: Đẩy mạnh ứng dụng mô hình PhoBERT và ontology trong các cơ quan quản lý nhà nước để nâng cao hiệu quả quản lý văn bản pháp luật du lịch, hướng tới mục tiêu phát triển bền vững. Thời gian thực hiện: 1-2 năm.

  2. Cập nhật và mở rộng dữ liệu liên tục: Thiết lập quy trình thu thập, cập nhật văn bản pháp luật mới và tinh chỉnh mô hình định kỳ nhằm đảm bảo tính chính xác và kịp thời của hệ thống. Chủ thể thực hiện: Bộ Văn hóa, Thể thao và Du lịch phối hợp với Bộ Kế hoạch và Đầu tư.

  3. Đào tạo và nâng cao năng lực cho cán bộ quản lý: Tổ chức các khóa đào tạo về ứng dụng học máy và ontology trong quản lý văn bản pháp luật cho cán bộ các bộ, ngành và địa phương. Mục tiêu nâng cao khả năng khai thác và sử dụng hệ thống. Thời gian: 6-12 tháng.

  4. Phát triển giao diện người dùng thân thiện: Xây dựng các công cụ truy vấn, tra cứu trực quan, hỗ trợ đa ngôn ngữ và tích hợp trên nền tảng web, di động để phục vụ đa dạng đối tượng người dùng. Chủ thể thực hiện: Các đơn vị công nghệ thông tin chuyên ngành.

Đối tượng nên tham khảo luận văn

  1. Nhà quản lý và hoạch định chính sách: Giúp hiểu rõ cách ứng dụng công nghệ học máy và ontology trong quản lý văn bản pháp luật, hỗ trợ ra quyết định chính sách phát triển du lịch bền vững.

  2. Chuyên gia và nhà nghiên cứu khoa học dữ liệu: Cung cấp phương pháp và mô hình phân lớp đa nhãn tiên tiến, ứng dụng thực tiễn trong lĩnh vực pháp luật và du lịch.

  3. Lập trình viên và kỹ sư công nghệ thông tin: Tham khảo quy trình xây dựng mô hình PhoBERT, kỹ thuật tokenization, huấn luyện mô hình và triển khai ontology phục vụ phát triển hệ thống thông minh.

  4. Sinh viên và học viên cao học ngành khoa học dữ liệu, luật và quản lý du lịch: Nâng cao kiến thức về ứng dụng học máy trong lĩnh vực pháp luật và du lịch, đồng thời tiếp cận các công nghệ mới như Transformer, BERT và ontology.

Câu hỏi thường gặp

  1. Phân lớp đa nhãn khác gì so với phân lớp đơn nhãn?
    Phân lớp đa nhãn cho phép một văn bản thuộc nhiều nhãn cùng lúc, trong khi phân lớp đơn nhãn chỉ gán một nhãn duy nhất. Ví dụ, một văn bản pháp luật có thể liên quan đồng thời đến "quy định du lịch" và "bảo vệ môi trường".

  2. Tại sao chọn PhoBERT cho bài toán phân lớp văn bản tiếng Việt?
    PhoBERT được huấn luyện trên dữ liệu tiếng Việt lớn, hiểu ngữ cảnh và ngữ nghĩa đặc thù của tiếng Việt tốt hơn các mô hình đa ngôn ngữ khác, giúp cải thiện độ chính xác phân loại văn bản pháp luật tiếng Việt.

  3. Ontology giúp gì trong quản lý văn bản pháp luật?
    Ontology tổ chức tri thức theo cấu trúc có lớp, thuộc tính và quan hệ, giúp lưu trữ, truy vấn và liên kết thông tin hiệu quả, hỗ trợ người dùng tìm kiếm nhanh và chính xác các văn bản liên quan.

  4. Làm thế nào để cập nhật mô hình khi có văn bản mới?
    Có thể thu thập dữ liệu mới, gán nhãn và tinh chỉnh lại mô hình PhoBERT định kỳ để mô hình học thêm các đặc trưng mới, duy trì hiệu suất phân loại cao.

  5. Hệ thống truy vấn SPARQL hoạt động như thế nào?
    SPARQL là ngôn ngữ truy vấn dữ liệu dạng đồ thị RDF trong ontology, cho phép người dùng truy vấn thông tin theo các mẫu quan hệ phức tạp, ví dụ tìm tất cả văn bản pháp luật liên quan đến một mục tiêu phát triển bền vững cụ thể.

Kết luận

  • Luận văn đã xây dựng thành công mô hình học máy PhoBERT phân lớp đa nhãn văn bản pháp luật trong lĩnh vực du lịch với độ chính xác khoảng 87%.
  • Ontology miền du lịch được thiết kế chi tiết, hỗ trợ truy vấn và khai thác thông tin pháp luật hiệu quả.
  • Hệ thống kết hợp học máy và ontology giúp nâng cao khả năng quản lý, tra cứu và phân tích văn bản pháp luật phục vụ phát triển du lịch bền vững.
  • Đề xuất triển khai hệ thống trên quy mô rộng, cập nhật dữ liệu liên tục và đào tạo cán bộ quản lý để phát huy hiệu quả ứng dụng.
  • Các bước tiếp theo bao gồm mở rộng dữ liệu, hoàn thiện giao diện người dùng và tích hợp hệ thống vào môi trường thực tế nhằm hỗ trợ các bên liên quan.

Quý độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển tiếp các kết quả nghiên cứu này nhằm thúc đẩy sự phát triển bền vững của ngành du lịch Việt Nam.