Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của các hệ quản trị cơ sở dữ liệu quan hệ, việc khai thác thông tin từ lượng dữ liệu khổng lồ lưu trữ trong các hệ này ngày càng trở nên cấp thiết. Theo thống kê của DB-Engines tính đến tháng 11/2023, các hệ quản trị cơ sở dữ liệu quan hệ như Oracle, MySQL, Microsoft SQL Server, PostgreSQL chiếm vị trí hàng đầu về mức độ sử dụng. Tuy nhiên, để truy vấn dữ liệu hiệu quả, người dùng cần có kiến thức chuyên sâu về ngôn ngữ truy vấn SQL, điều này gây khó khăn cho người không chuyên. Do đó, bài toán chuyển đổi ngôn ngữ tự nhiên sang câu truy vấn SQL (Text-to-SQL) trở thành một hướng nghiên cứu quan trọng nhằm hỗ trợ người dùng truy vấn dữ liệu dễ dàng hơn.

Luận văn tập trung nghiên cứu bài toán Text-to-SQL trên ngôn ngữ tiếng Việt, sử dụng tập dữ liệu Spider tiếng Việt được dịch từ tập Spider tiếng Anh, bao gồm 9691 câu hỏi và 5263 câu truy vấn SQL trên 166 cơ sở dữ liệu thuộc nhiều miền tri thức khác nhau. Bài toán đặt ra nhiều thách thức như đặc điểm ngôn ngữ tiếng Việt khác biệt so với tiếng Anh, sự phức tạp của câu truy vấn với 4 mức độ khó (Easy, Medium, Hard, Extra Hard), và đặc biệt là vấn đề chuyển miền tri thức (Domain Shift) khi các cơ sở dữ liệu trong tập huấn luyện và kiểm thử không trùng nhau.

Mục tiêu nghiên cứu gồm khảo sát ảnh hưởng của các mô hình ngôn ngữ tiền huấn luyện (Pre-trained Language Models - PLMs) và các phương pháp huấn luyện khác nhau đến hiệu suất bài toán, đề xuất phương pháp huấn luyện mới nhằm nâng cao khả năng tổng quát hóa trên các miền tri thức khác nhau, đồng thời thực nghiệm và phân tích kết quả trên tập Spider tiếng Việt. Nghiên cứu có ý nghĩa thực tiễn lớn trong việc hỗ trợ người dùng không chuyên truy vấn dữ liệu, đồng thời đóng góp khoa học trong lĩnh vực xử lý ngôn ngữ tự nhiên và semantic parsing.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Bài toán Text-to-SQL là một dạng semantic parsing, chuyển đổi câu hỏi ngôn ngữ tự nhiên thành câu truy vấn SQL có cấu trúc. Luận văn sử dụng mô hình RAT-SQL, một mô hình thuộc nhóm grammar-based, với kiến trúc Relation-Aware Transformer (RAT) được thiết kế để khai thác các mối quan hệ giữa các thành phần trong câu hỏi và lược đồ cơ sở dữ liệu. RAT-SQL sử dụng Relation-Aware Self-Attention (RASA) để nhấn mạnh các liên kết như khóa chính, khóa ngoại, bảng-cột, từ khóa trong câu hỏi với các thành phần trong lược đồ.

Các mô hình ngôn ngữ tiền huấn luyện được khảo sát gồm mBERT (đa ngôn ngữ), PhoBERT, vELECTRA, vibert4news (đơn ngôn ngữ tiếng Việt). Mỗi mô hình có kiến trúc và phương pháp tiền huấn luyện khác nhau, ảnh hưởng đến khả năng biểu diễn ngữ nghĩa và hiệu suất bài toán.

Về phương pháp huấn luyện, luận văn khảo sát các phương pháp cơ sở như Empirical Risk Minimization (ERM), Meta-learning (DG-MAML), đồng thời đề xuất hai phương pháp mới: Empirical Quantile Risk Minimization (EQRM) và InterRAT. EQRM dựa trên tối ưu hóa rủi ro định lượng nhằm cải thiện tổng quát hóa miền tri thức, còn InterRAT kết hợp ensemble và tối ưu hóa particle-based (SVGD) để tăng tính đa dạng đặc trưng trích xuất từ mô hình ngôn ngữ.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là tập Spider tiếng Việt gồm 9691 câu hỏi và 5263 câu truy vấn SQL trên 166 cơ sở dữ liệu, được phân loại theo 4 mức độ khó. Mô hình cơ sở là RAT-SQL với các siêu tham số được giữ nguyên theo nghiên cứu gốc, sử dụng bộ tối ưu Adam.

Phương pháp chọn mẫu là sử dụng toàn bộ tập dữ liệu Spider tiếng Việt, chia thành tập huấn luyện, phát triển và kiểm thử theo chuẩn. Các mô hình ngôn ngữ được tinh chỉnh trên tập huấn luyện với các siêu tham số được điều chỉnh thủ công để tối ưu hiệu suất trên tập phát triển.

Thời gian nghiên cứu kéo dài trong năm 2023, tập trung vào việc khảo sát tác động của các mô hình ngôn ngữ, thử nghiệm các phương pháp huấn luyện khác nhau, và đề xuất phương pháp mới nhằm nâng cao hiệu quả và khả năng tổng quát hóa của mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Ảnh hưởng của mô hình ngôn ngữ:

    • Mô hình vELECTRA đạt hiệu suất cao nhất với độ đo Exact Match (EM) lần lượt 59.8% trên tập dev và 59.8% trên tập test, vượt trội hơn 2.1% so với mBERT (57.9% dev, 57.9% test).
    • Mô hình embedding truyền thống PhoW2V300 cho hiệu suất thấp nhất, kém hơn 15.2% so với mô hình ngôn ngữ thấp nhất (PhoBERT).
    • Mô hình đa ngôn ngữ mBERT có kết quả tốt thứ hai, do tập dữ liệu Spider tiếng Việt giữ lại một số giá trị chuỗi tiếng Anh, hỗ trợ cho mô hình đa ngôn ngữ.
  2. Phân tích theo mức độ khó:

    • vELECTRA đạt hiệu suất cao nhất ở mức độ dễ (Easy) với 70.6%, nhưng hiệu suất giảm ở các mức độ khó hơn, cho thấy hạn chế trong việc xử lý các câu truy vấn phức tạp, lồng ghép.
    • Các mô hình khác như PhoBERT, vibert4news có hiệu suất tương đương nhau ở các mức độ khó.
  3. Ảnh hưởng của phương pháp huấn luyện:

    • Phương pháp InterRAT đề xuất đạt hiệu suất cao nhất trên tập dev với 64.3%, vượt trội so với ERM (56.6%) và DG-MAML (60.4%).
    • Trên tập test, InterRAT đạt 64.3%, thấp hơn 3.7% so với nghiên cứu sử dụng đặc trưng liên kết NPMI, nhưng không cần huấn luyện thêm mô hình phụ để trích xuất đặc trưng liên kết.
    • EQRM và DG-MAML có hiệu suất tương đương nhau, nhưng DG-MAML mất gần 64 giờ huấn luyện trên GPU RTX 3090, trong khi EQRM chỉ mất khoảng 9 giờ, cho thấy EQRM hiệu quả hơn về mặt thời gian.

Thảo luận kết quả

Kết quả cho thấy việc sử dụng các mô hình ngôn ngữ tiền huấn luyện hiện đại như vELECTRA giúp cải thiện đáng kể hiệu suất bài toán Text-to-SQL trên tiếng Việt so với các kỹ thuật embedding truyền thống. Tác vụ tiền huấn luyện của vELECTRA, với thành phần Discriminator phân biệt token giả và thật, được cho là giúp mô hình học được các liên kết ngữ nghĩa sâu hơn, từ đó nâng cao khả năng biểu diễn.

Phương pháp huấn luyện InterRAT tận dụng ensemble và tối ưu hóa particle-based giúp tăng tính đa dạng đặc trưng trích xuất, cải thiện khả năng tổng quát hóa trên các miền tri thức chưa từng gặp. Mặc dù chưa vượt qua được phương pháp sử dụng đặc trưng liên kết NPMI, InterRAT không cần huấn luyện thêm mô hình phụ, giảm thiểu chi phí tính toán và phức tạp.

Việc hiệu suất giảm ở các mức độ khó cao cho thấy các mô hình hiện tại còn hạn chế trong việc xử lý các câu truy vấn phức tạp, đặc biệt là các câu truy vấn lồng ghép và có nhiều bảng liên kết. Đây là hướng cần cải tiến trong các nghiên cứu tiếp theo.

Dữ liệu có thể được trình bày qua biểu đồ cột so sánh hiệu suất EM của các mô hình ngôn ngữ trên tập dev và test, cũng như biểu đồ đường thể hiện hiệu suất theo từng mức độ khó. Bảng tổng hợp kết quả các phương pháp huấn luyện cũng giúp minh họa rõ ràng sự khác biệt về hiệu suất và thời gian huấn luyện.

Đề xuất và khuyến nghị

  1. Tăng cường sử dụng mô hình ngôn ngữ tiền huấn luyện hiện đại:

    • Áp dụng các mô hình như vELECTRA hoặc các mô hình tiền huấn luyện có cấu trúc tương tự để nâng cao khả năng biểu diễn ngữ nghĩa.
    • Thời gian thực hiện: 6-12 tháng.
    • Chủ thể thực hiện: Các nhóm nghiên cứu và phát triển AI trong lĩnh vực xử lý ngôn ngữ tự nhiên.
  2. Phát triển và ứng dụng phương pháp huấn luyện InterRAT kết hợp đặc trưng liên kết:

    • Kết hợp phương pháp InterRAT với các đặc trưng liên kết heuristic hoặc học sâu để cải thiện hiệu suất trên các miền tri thức khác nhau.
    • Thời gian thực hiện: 12-18 tháng.
    • Chủ thể thực hiện: Các nhà nghiên cứu và kỹ sư phát triển mô hình.
  3. Mở rộng khảo sát các mô hình ngôn ngữ với quy mô lớn hơn:

    • Nghiên cứu tác động của các mô hình ngôn ngữ kích thước lớn (large-scale PLMs) đến bài toán Text-to-SQL tiếng Việt.
    • Thời gian thực hiện: 12-24 tháng.
    • Chủ thể thực hiện: Các trung tâm nghiên cứu có nguồn lực tính toán mạnh.
  4. Cải tiến khả năng xử lý câu truy vấn phức tạp:

    • Phát triển mô hình cơ sở có khả năng biểu diễn cấu trúc lồng ghép và liên kết phức tạp trong câu truy vấn SQL.
    • Thời gian thực hiện: 12-24 tháng.
    • Chủ thể thực hiện: Các nhóm nghiên cứu chuyên sâu về semantic parsing và học sâu.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Xử lý Ngôn ngữ Tự nhiên:

    • Lợi ích: Hiểu sâu về bài toán Text-to-SQL trên tiếng Việt, các mô hình ngôn ngữ tiền huấn luyện và phương pháp huấn luyện hiện đại.
    • Use case: Phát triển các đề tài nghiên cứu mới, cải tiến mô hình semantic parsing.
  2. Kỹ sư phát triển hệ thống AI, chatbot, trợ lý ảo:

    • Lợi ích: Áp dụng mô hình Text-to-SQL để hỗ trợ người dùng truy vấn dữ liệu bằng ngôn ngữ tự nhiên.
    • Use case: Tích hợp vào hệ thống hỏi đáp, chatbot doanh nghiệp.
  3. Doanh nghiệp và tổ chức quản lý dữ liệu lớn:

    • Lợi ích: Nâng cao khả năng khai thác dữ liệu quan hệ mà không cần chuyên gia SQL.
    • Use case: Tự động hóa truy vấn dữ liệu, giảm chi phí đào tạo nhân sự.
  4. Nhà phát triển phần mềm và công cụ hỗ trợ học tập:

    • Lợi ích: Phát triển công cụ hỗ trợ học SQL, chuyển đổi ngôn ngữ tự nhiên sang câu truy vấn.
    • Use case: Ứng dụng trong giáo dục, đào tạo kỹ năng truy vấn dữ liệu.

Câu hỏi thường gặp

  1. Text-to-SQL là gì và tại sao lại quan trọng?
    Text-to-SQL là bài toán chuyển đổi câu hỏi ngôn ngữ tự nhiên thành câu truy vấn SQL có cấu trúc, giúp người dùng không chuyên truy vấn dữ liệu dễ dàng. Ví dụ, câu hỏi "Có tất cả bao nhiêu kiến trúc sư nữ?" được chuyển thành câu SQL tương ứng. Điều này giúp mở rộng khả năng khai thác dữ liệu cho nhiều đối tượng.

  2. Tại sao cần sử dụng mô hình ngôn ngữ tiền huấn luyện (PLMs)?
    PLMs như BERT, vELECTRA được huấn luyện trên lượng lớn dữ liệu văn bản, giúp mô hình học được biểu diễn ngữ nghĩa sâu sắc, từ đó cải thiện hiệu suất chuyển đổi ngôn ngữ tự nhiên sang SQL. Ví dụ, vELECTRA đạt hiệu suất cao nhất trong nghiên cứu nhờ khả năng phân biệt token giả và thật.

  3. Vấn đề chuyển miền tri thức (Domain Shift) là gì?
    Đây là thách thức khi mô hình được huấn luyện trên một tập cơ sở dữ liệu (miền tri thức) nhưng phải dự đoán trên các cơ sở dữ liệu khác chưa từng gặp. Ví dụ, mô hình huấn luyện trên dữ liệu ngành công ty nhưng kiểm thử trên ngành kiến trúc. Điều này đòi hỏi mô hình có khả năng tổng quát hóa tốt.

  4. Phương pháp InterRAT có ưu điểm gì?
    InterRAT kết hợp ensemble và tối ưu hóa particle-based giúp tăng tính đa dạng đặc trưng trích xuất, nâng cao khả năng tổng quát hóa mà không cần huấn luyện thêm mô hình phụ. Thời gian huấn luyện nhanh hơn so với các phương pháp meta-learning truyền thống.

  5. Làm thế nào để cải thiện hiệu suất trên các câu truy vấn phức tạp?
    Cần phát triển mô hình có khả năng biểu diễn cấu trúc lồng ghép và liên kết phức tạp trong câu truy vấn SQL, đồng thời kết hợp các đặc trưng liên kết ngữ nghĩa sâu hơn. Đây là hướng nghiên cứu tiếp theo nhằm nâng cao hiệu quả xử lý các câu truy vấn khó.

Kết luận

  • Khảo sát và phân tích thành công tác động của các mô hình ngôn ngữ tiền huấn luyện dạng BERT đến hiệu suất bài toán Text-to-SQL trên tiếng Việt.
  • Đánh giá và so sánh các phương pháp huấn luyện hiện có, đồng thời đề xuất hai phương pháp mới EQRM và InterRAT nhằm cải thiện khả năng tổng quát hóa và thời gian huấn luyện.
  • Thực nghiệm trên tập Spider tiếng Việt cho thấy vELECTRA là mô hình ngôn ngữ hiệu quả nhất, InterRAT đạt hiệu suất cao nhất trong các phương pháp huấn luyện đề xuất.
  • Nghiên cứu góp phần giải quyết thách thức chuyển miền tri thức trong bài toán Text-to-SQL, có ý nghĩa thực tiễn và khoa học lớn.
  • Hướng phát triển tiếp theo tập trung vào mở rộng khảo sát các mô hình ngôn ngữ quy mô lớn, kết hợp đặc trưng liên kết, và cải tiến khả năng xử lý câu truy vấn phức tạp.

Call-to-action: Các nhà nghiên cứu và kỹ sư phát triển hệ thống AI được khuyến khích áp dụng và tiếp tục phát triển các phương pháp đề xuất để nâng cao hiệu quả khai thác dữ liệu quan hệ bằng ngôn ngữ tự nhiên trên tiếng Việt.