Ứng Dụng Mô Hình Ngôn Ngữ Lớn trong Text-to-SQL

Luận văn thạc sĩ về ứng dụng mô hình ngôn ngữ lớn (LLM) trong chuyển đổi văn bản thành câu truy vấn SQL. Nghiên cứu khoa học máy tính chuyên sâu.

Trường đại học

Ho Chi Minh City University Of Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

Luận Văn Thạc Sĩ

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

ACKNOWLEDGEMENTS

ABSTRACT

TÓM TẮT LUẬN VĂN THẠC SĨ

DECLARATION OF AUTHORSHIP

1. CHƯƠNG 1: TOPIC INTRODUCTION

1.1. General Introduction

1.2. Overview about Text-to-SQL

1.3. Thesis objectives

1.4. Scope of thesis

2. CHƯƠNG 2: RELATED WORKS

2.1. RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers

Tóm tắt

I. Tổng Quan Về LLM Trong Chuyển Đổi Văn Bản Sang SQL 55 ký tự

Sự tiến bộ vượt bậc trong xử lý ngôn ngữ tự nhiên (NLP) được thúc đẩy bởi mô hình ngôn ngữ lớn (LLM) như GPT-3 và BERT. Các LLM này thể hiện khả năng hiểu và tạo ra văn bản gần giống con người, mở ra ứng dụng đột phá trong nhiều nhiệm vụ ngôn ngữ. Trong bối cảnh quản lý dữ liệu, SQL đóng vai trò then chốt. Việc chuyển đổi văn bản sang SQL, hay Text-to-SQL, giúp người không chuyên dễ dàng truy cập thông tin từ cơ sở dữ liệu. Tuy nhiên, nhiệm vụ này đi kèm với nhiều thách thức, đòi hỏi LLM phải có khả năng hiểu sâu sắc ngữ nghĩa, tạo ra truy vấn SQL hiệu quả và diễn giải ý định của người dùng một cách chính xác. Luận văn này tập trung vào việc khám phá và ứng dụng LLM trong Text-to-SQL, hướng đến giải pháp liền mạch, hiệu quả và có khả năng mở rộng. Theo khảo sát của StackOverflow, SQL vẫn là một trong những ngôn ngữ thống trị toàn cầu. Javascript, HTML/CSS và SQL nổi lên là top 3 công nghệ được các chuyên gia sử dụng thường xuyên nhất.

1.1. Vai trò của SQL trong Quản Lý và Phân Tích Dữ Liệu

Trong kỷ nguyên dữ liệu, vai trò của SQL trong việc quản lý và phân tích dữ liệu là vô cùng quan trọng. SQL cho phép người dùng truy xuất, cập nhật và thao tác dữ liệu trong các cơ sở dữ liệu quan hệ, phục vụ cho nhiều mục đích khác nhau. Sự phổ biến của SQL trong nhiều lĩnh vực nhấn mạnh tầm quan trọng của nó trong việc tổ chức và truy xuất thông tin quan trọng. Việc sử dụng SQL giúp cho việc quản lý dữ liệu trở nên có cấu trúc và hiệu quả hơn, đồng thời cung cấp các công cụ mạnh mẽ cho việc phân tích và ra quyết định. Truy vấn SQL được xây dựng dựa trên một tập các quy tắc và cú pháp cụ thể, giúp người dùng có thể tương tác với cơ sở dữ liệu một cách chính xác. Cơ sở dữ liệu đóng vai trò quan trọng trong việc lưu trữ và bảo quản dữ liệu một cách an toàn và có hệ thống.

1.2. Thách Thức của Chuyển Đổi Văn Bản Sang SQL Text to SQL

Chuyển đổi văn bản sang SQL đặt ra nhiều thách thức đáng kể. LLM cần hiểu chính xác ý định của người dùng, ngữ cảnh của truy vấn và cấu trúc của cơ sở dữ liệu. Các truy vấn SQL có thể phức tạp, đòi hỏi LLM phải có khả năng tạo ra mã SQL cú pháp chính xác và ngữ nghĩa phù hợp. Thêm vào đó, sự đa dạng của ngôn ngữ tự nhiên khiến việc diễn giải các truy vấn trở nên khó khăn. Các mô hình LLM cần được huấn luyện trên bộ dữ liệu lớn và đa dạng để có thể xử lý các trường hợp khác nhau. Kỹ thuật Prompt engineering đóng vai trò quan trọng trong việc hướng dẫn LLM tạo ra các câu truy vấn SQL chính xác.

II. Các Phương Pháp Tiếp Cận Chuyển Đổi Văn Bản Sang SQL Bằng LLM 58 ký tự

Hiện nay, có nhiều phương pháp tiếp cận khác nhau trong việc ứng dụng LLM vào Text-to-SQL. Một phương pháp phổ biến là sử dụng kiến trúc hai tầng, bao gồm một mô hình tạo (generator) và một mô hình xếp hạng (ranker). Mô hình tạo chịu trách nhiệm tạo ra nhiều ứng viên truy vấn SQL từ truy vấn ngôn ngữ tự nhiên. Sau đó, mô hình xếp hạng đánh giá và chọn ra truy vấn tốt nhất dựa trên các tiêu chí như độ chính xác và độ tin cậy. Kỹ thuật giải mã ràng buộc theo quy tắc ngữ pháp SQL cũng được sử dụng để đảm bảo tính hợp lệ về cú pháp của các truy vấn được tạo ra. Ngoài ra, các kỹ thuật zero-shot learning và few-shot learning cũng được áp dụng để giảm sự phụ thuộc vào dữ liệu huấn luyện.

2.1. Kiến Trúc Hai Tầng Generator và Ranker cho Text to SQL

Kiến trúc hai tầng bao gồm generator và ranker là một phương pháp hiệu quả để ứng dụng LLM trong Text-to-SQL. Generator, thường dựa trên các mô hình LLM mạnh mẽ, tạo ra nhiều ứng viên truy vấn SQL từ truy vấn ngôn ngữ tự nhiên. Sau đó, ranker, có thể là một mô hình học máy khác hoặc một bộ quy tắc, đánh giá và chọn ra truy vấn tốt nhất dựa trên các tiêu chí như độ chính xác, độ tin cậy và tính phù hợp với cơ sở dữ liệu. Cách tiếp cận này cho phép tận dụng sức mạnh của LLM trong việc tạo ra các ứng viên truy vấn, đồng thời đảm bảo chất lượng và tính chính xác của kết quả cuối cùng.

2.2. Giải Mã Ràng Buộc Ngữ Pháp SQL Đảm Bảo Tính Hợp Lệ

Để đảm bảo tính hợp lệ về cú pháp của các truy vấn SQL được tạo ra bởi LLM, kỹ thuật giải mã ràng buộc theo quy tắc ngữ pháp SQL được sử dụng. Kỹ thuật này giới hạn không gian tìm kiếm của LLM trong quá trình tạo truy vấn, chỉ cho phép tạo ra các chuỗi ký tự tuân thủ cú pháp SQL hợp lệ. Điều này giúp giảm thiểu khả năng tạo ra các truy vấn sai cú pháp, tăng độ tin cậy của hệ thống Text-to-SQL. SQL Grammar đóng vai trò quan trọng trong việc ràng buộc quá trình giải mã và đảm bảo tính chính xác.

III. Đánh Giá Hiệu Suất Ứng Dụng LLM Trong Chuyển Đổi SQL 53 ký tự

Việc đánh giá hiệu suất của LLM trong Text-to-SQL là rất quan trọng để xác định mức độ hiệu quả và độ tin cậy của mô hình. Các chỉ số đánh giá phổ biến bao gồm độ chính xác (accuracy), độ phủ (coverage) và F1-score. Các bộ dữ liệu benchmark như Spider và WikiSQL thường được sử dụng để đánh giá các mô hình Text-to-SQL. Việc so sánh hiệu suất của các mô hình khác nhau trên cùng một bộ dữ liệu benchmark giúp xác định các phương pháp tiếp cận tốt nhất và các lĩnh vực cần cải thiện. Ngoài ra, cần xem xét các yếu tố như khả năng xử lý các truy vấn SQL phức tạp, khả năng khái quát hóa sang các cơ sở dữ liệu mới và khả năng xử lý các lỗi thường gặp.

3.1. Các Chỉ Số Đánh Giá Hiệu Suất Phổ Biến Trong Text to SQL

Để đánh giá hiệu suất của mô hình Text-to-SQL sử dụng LLM, một số chỉ số đánh giá được sử dụng rộng rãi. Độ chính xác đo lường tỷ lệ các truy vấn SQL được tạo ra chính xác so với tổng số truy vấn. Độ phủ đánh giá khả năng của mô hình trong việc tạo ra các truy vấn SQL phù hợp với tất cả các trường hợp. F1-score là sự kết hợp giữa độ chính xác và độ phủ, cung cấp một thước đo toàn diện về hiệu suất của mô hình. Ngoài ra, các chỉ số khác như BLEU score và ROUGE score cũng có thể được sử dụng để đánh giá chất lượng của các truy vấn SQL được tạo ra.

3.2. Sử Dụng Benchmark Datasets Spider WikiSQL Để So Sánh

Các bộ dữ liệu benchmark như Spider và WikiSQL đóng vai trò quan trọng trong việc đánh giá và so sánh các mô hình Text-to-SQL. Spider là một bộ dữ liệu lớn và phức tạp, bao gồm nhiều cơ sở dữ liệu khác nhau và các truy vấn SQL tương ứng. WikiSQL là một bộ dữ liệu nhỏ hơn, tập trung vào các truy vấn SQL đơn giản. Việc sử dụng các bộ dữ liệu benchmark này giúp đảm bảo tính khách quan và khả năng so sánh của các kết quả nghiên cứu. Các nhà nghiên cứu có thể sử dụng các bộ dữ liệu này để huấn luyện và đánh giá mô hình của mình, sau đó so sánh kết quả với các mô hình khác đã được công bố.

IV. Ứng Dụng Thực Tế LLM Trong Chuyển Đổi Văn Bản Sang SQL 58 ký tự

Ứng dụng LLM trong Text-to-SQL mở ra nhiều cơ hội trong thực tế. Các hệ thống quản lý cơ sở dữ liệu có thể tích hợp LLM để cung cấp giao diện truy vấn bằng ngôn ngữ tự nhiên cho người dùng không chuyên. Các ứng dụng phân tích dữ liệu có thể sử dụng LLM để tự động tạo ra các truy vấn SQL từ yêu cầu của người dùng, giúp tăng tốc quá trình phân tích và ra quyết định. Ngoài ra, LLM cũng có thể được sử dụng để xây dựng các trợ lý ảo có khả năng tương tác với cơ sở dữ liệu thông qua ngôn ngữ tự nhiên. Việc triển khai LLM trong Text-to-SQL đòi hỏi sự cân nhắc kỹ lưỡng về hiệu suất, độ tin cậy và khả năng mở rộng.

4.1. Tích Hợp LLM Vào Hệ Thống Quản Lý Cơ Sở Dữ Liệu DBMS

Việc tích hợp LLM vào các hệ thống quản lý cơ sở dữ liệu (DBMS) mang lại lợi ích lớn cho người dùng. LLM có thể cung cấp một giao diện truy vấn bằng ngôn ngữ tự nhiên, cho phép người dùng không chuyên dễ dàng truy xuất thông tin từ cơ sở dữ liệu mà không cần phải học SQL. Điều này giúp democrat hóa dữ liệu và mở rộng khả năng tiếp cận dữ liệu cho nhiều người dùng hơn. Các DBMS có thể sử dụng LLM để tự động tạo ra các truy vấn SQL từ yêu cầu của người dùng, giúp giảm thiểu thời gian và công sức cần thiết để tạo ra các truy vấn thủ công.

4.2. LLM Hỗ Trợ Phân Tích Dữ Liệu và Ra Quyết Định Nhanh Chóng

LLM có thể đóng vai trò quan trọng trong việc hỗ trợ phân tích dữ liệu và ra quyết định nhanh chóng. Các nhà phân tích dữ liệu có thể sử dụng LLM để tự động tạo ra các truy vấn SQL từ yêu cầu của họ, giúp họ khám phá dữ liệu và tìm ra các thông tin chi tiết quan trọng một cách nhanh chóng và hiệu quả. LLM cũng có thể được sử dụng để tạo ra các báo cáo tự động và trực quan hóa dữ liệu, giúp người dùng hiểu rõ hơn về dữ liệu và đưa ra các quyết định dựa trên dữ liệu.

V. Thách Thức và Hướng Nghiên Cứu Tương Lai Về Text to SQL 59 ký tự

Mặc dù có nhiều tiến bộ, việc ứng dụng LLM trong Text-to-SQL vẫn còn nhiều thách thức. Một trong những thách thức lớn nhất là khả năng xử lý các truy vấn SQL phức tạp, đòi hỏi LLM phải có khả năng hiểu sâu sắc ngữ nghĩa và cấu trúc của cơ sở dữ liệu. Các nghiên cứu trong tương lai có thể tập trung vào việc phát triển các kiến trúc LLM mới, các kỹ thuật tối ưu hóa hiệu suất và độ tin cậy, cũng như các phương pháp giải quyết các vấn đề bias và tính công bằng. Ứng dụng Deep learning vào bài toán này đang ngày càng phát triển và mở ra nhiều hướng nghiên cứu mới.

5.1. Xử Lý Truy Vấn SQL Phức Tạp Cần Nâng Cao Khả Năng LLM

Khả năng xử lý các truy vấn SQL phức tạp vẫn là một thách thức đối với các LLM hiện tại. Các truy vấn phức tạp thường liên quan đến nhiều bảng, nhiều điều kiện và các phép toán phức tạp. Để xử lý các truy vấn này, LLM cần có khả năng hiểu sâu sắc ngữ nghĩa của truy vấn, cấu trúc của cơ sở dữ liệu và các mối quan hệ giữa các bảng. Các nghiên cứu trong tương lai có thể tập trung vào việc phát triển các kiến trúc LLM mới, các kỹ thuật học sâu và các phương pháp tối ưu hóa để cải thiện khả năng xử lý các truy vấn SQL phức tạp.

5.2. Nghiên Cứu Giải Quyết Bias và Đảm Bảo Tính Công Bằng

Một vấn đề quan trọng cần được giải quyết trong ứng dụng LLM là bias và tính công bằng. Các LLM có thể bị bias do dữ liệu huấn luyện có chứa các thành kiến xã hội và văn hóa. Điều này có thể dẫn đến việc các truy vấn SQL được tạo ra phản ánh các thành kiến này, gây ra sự bất công và phân biệt đối xử. Các nghiên cứu trong tương lai cần tập trung vào việc phát triển các phương pháp loại bỏ bias khỏi dữ liệu huấn luyện, cũng như các kỹ thuật đánh giá và giảm thiểu bias trong các mô hình LLM. Để làm được điều đó chúng ta cần am hiểu về Semantic parsing.

28/04/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính application of large language model in text to sql

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh dữ liệu ngày càng trở nên quan trọng trong nhiều lĩnh vực, việc truy vấn và khai thác dữ liệu từ các cơ sở dữ liệu quan hệ trở thành một thách thức lớn, đặc biệt với người dùng không chuyên về SQL. Theo báo cáo của ngành công nghệ, SQL vẫn là một trong những ngôn ngữ lập trình phổ biến nhất, được sử dụng rộng rãi trong quản lý và phân tích dữ liệu. Nhiệm vụ Text-to-SQL, tức chuyển đổi câu truy vấn ngôn ngữ tự nhiên thành câu lệnh SQL, nhằm mục tiêu giúp người dùng không chuyên có thể truy cập và khai thác dữ liệu một cách hiệu quả hơn. Luận văn này tập trung nghiên cứu và ứng dụng mô hình ngôn ngữ lớn (LLM), cụ thể là Flan-T5, để giải quyết bài toán Text-to-SQL. Mục tiêu chính là thiết kế, triển khai và đánh giá một mô hình có khả năng sinh câu truy vấn SQL chính xác từ câu hỏi ngôn ngữ tự nhiên, sử dụng kiến trúc hai tầng gồm mô hình tạo và mô hình xếp hạng. Phạm vi nghiên cứu tập trung vào dữ liệu thực tế từ cơ sở dữ liệu của một công ty tại Việt Nam, với thời gian thực hiện từ tháng 1 đến tháng 5 năm 2024. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc nâng cao khả năng truy cập dữ liệu, giảm thiểu rào cản kỹ thuật và mở rộng phạm vi sử dụng dữ liệu cho nhiều đối tượng người dùng khác nhau.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình tiên tiến trong lĩnh vực xử lý ngôn ngữ tự nhiên và học sâu, bao gồm:

Mô hình Transformer và cơ chế Self-Attention: Giúp mô hình hiểu và xử lý mối quan hệ phức tạp giữa các từ trong câu, nâng cao khả năng biểu diễn ngữ nghĩa.
Mô hình Flan-T5: Một biến thể của T5 được huấn luyện với kỹ thuật instruction fine-tuning, giúp cải thiện khả năng tổng quát hóa và thực thi các tác vụ ngôn ngữ tự nhiên.
Kỹ thuật giải mã bị ràng buộc (Constrained Decoding) dựa trên ngữ pháp SQL: Đảm bảo các câu truy vấn sinh ra tuân thủ cú pháp SQL, giảm thiểu lỗi cú pháp.
Kiến trúc hai tầng (Generator và Ranker): Mô hình tạo sinh nhiều câu truy vấn SQL ứng viên, sau đó mô hình xếp hạng đánh giá và chọn ra câu truy vấn chính xác nhất.

Các khái niệm chính bao gồm: Text-to-SQL, mô hình ngôn ngữ lớn (LLM), giải mã bị ràng buộc, kiến trúc Transformer, và kỹ thuật fine-tuning.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là cơ sở dữ liệu thực tế của công ty tác giả đang làm việc, được xử lý dựa trên cấu trúc của bộ dữ liệu Spider. Mô hình Flan-T5 base được sử dụng làm nền tảng, được fine-tune trên tập dữ liệu huấn luyện để thực hiện nhiệm vụ Text-to-SQL. Phương pháp phân tích bao gồm:

Tiền xử lý dữ liệu: Chuẩn hóa câu hỏi ngôn ngữ tự nhiên và biểu diễn cấu trúc bảng dưới dạng chuỗi.
Huấn luyện mô hình tạo (generator) với beam search để sinh ra nhiều câu truy vấn SQL ứng viên.
Sử dụng mô hình xếp hạng (ranker) để đánh giá và chọn câu truy vấn phù hợp nhất.
Đánh giá hiệu quả mô hình bằng chỉ số ROUGE-1 và ROUGE-L, đo lường độ tương đồng giữa câu truy vấn sinh ra và câu truy vấn chuẩn.

Quy trình nghiên cứu kéo dài từ tháng 1 đến tháng 5 năm 2024, với cỡ mẫu dữ liệu đủ lớn để đảm bảo tính đại diện và độ tin cậy của kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của kiến trúc hai tầng: Mô hình generator sinh ra trung bình 5 câu truy vấn SQL ứng viên cho mỗi câu hỏi, trong đó mô hình ranker đã chọn được câu truy vấn chính xác nhất với độ chính xác đạt khoảng 85% trên tập kiểm thử. Việc sử dụng ranker giúp tăng 12% độ chính xác so với chỉ dùng generator.
Tác động của giải mã bị ràng buộc: Kỹ thuật constrained decoding dựa trên ngữ pháp SQL đã giảm thiểu lỗi cú pháp xuống dưới 3%, so với mức khoảng 15% khi không áp dụng kỹ thuật này.
Chỉ số ROUGE-1 và ROUGE-L: Mô hình đạt ROUGE-1 F1 score khoảng 0.78 và ROUGE-L F1 score khoảng 0.74, cho thấy khả năng sinh câu truy vấn có nội dung và cấu trúc gần với câu truy vấn chuẩn.
So sánh với các nghiên cứu trước: Kết quả này tương đương hoặc vượt trội hơn một số mô hình Text-to-SQL sử dụng LLM khác như RAT-SQL hay Graphix-T5, đặc biệt về tính hợp lệ cú pháp và khả năng tổng quát hóa trên dữ liệu thực tế.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả cao đến từ việc kết hợp mô hình Flan-T5 có khả năng hiểu ngữ cảnh tốt với kỹ thuật constrained decoding giúp đảm bảo tính hợp lệ cú pháp. Việc sử dụng mô hình ranker như một bước kiểm tra bổ sung giúp giảm thiểu các câu truy vấn không chính xác hoặc không phù hợp với ngữ cảnh câu hỏi. So với các nghiên cứu trước, phương pháp này không chỉ tập trung vào việc sinh câu truy vấn mà còn chú trọng đến việc đánh giá và lựa chọn kết quả, từ đó nâng cao độ chính xác tổng thể. Kết quả có thể được minh họa qua biểu đồ so sánh độ chính xác giữa các phương pháp và bảng thống kê lỗi cú pháp trước và sau khi áp dụng constrained decoding. Ý nghĩa của nghiên cứu là mở ra hướng tiếp cận hiệu quả, khả thi cho việc ứng dụng LLM trong các hệ thống truy vấn dữ liệu thực tế, giúp người dùng không chuyên dễ dàng khai thác dữ liệu hơn.

Đề xuất và khuyến nghị

Triển khai hệ thống Text-to-SQL dựa trên Flan-T5 trong doanh nghiệp: Áp dụng mô hình đã huấn luyện để hỗ trợ truy vấn dữ liệu nội bộ, giảm thiểu sự phụ thuộc vào chuyên gia SQL, dự kiến hoàn thành trong 6 tháng tới, do bộ phận công nghệ thông tin thực hiện.
Mở rộng tập dữ liệu huấn luyện và fine-tune định kỳ: Thu thập thêm dữ liệu truy vấn thực tế từ người dùng để cải thiện khả năng tổng quát hóa của mô hình, thực hiện hàng quý, do nhóm nghiên cứu và phát triển đảm nhiệm.
Phát triển giao diện người dùng thân thiện: Thiết kế giao diện nhập câu hỏi ngôn ngữ tự nhiên và hiển thị kết quả truy vấn SQL, giúp người dùng cuối dễ dàng tương tác, hoàn thành trong 3 tháng, do nhóm phát triển phần mềm thực hiện.
Tích hợp hệ thống kiểm tra và sửa lỗi câu truy vấn tự động: Sử dụng mô hình ranker và kỹ thuật constrained decoding để tự động phát hiện và chỉnh sửa lỗi, nâng cao độ chính xác và trải nghiệm người dùng, triển khai trong 4 tháng, do nhóm AI và phát triển phần mềm phối hợp thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính: Tìm hiểu về ứng dụng mô hình ngôn ngữ lớn trong xử lý ngôn ngữ tự nhiên và truy vấn cơ sở dữ liệu, phục vụ cho các đề tài nghiên cứu liên quan.
Chuyên gia phát triển hệ thống dữ liệu và AI: Áp dụng kiến thức và phương pháp trong luận văn để xây dựng các hệ thống truy vấn dữ liệu thông minh, nâng cao hiệu quả khai thác dữ liệu.
Doanh nghiệp và tổ chức sử dụng cơ sở dữ liệu lớn: Nâng cao khả năng truy cập dữ liệu cho người dùng không chuyên, giảm chi phí đào tạo và vận hành hệ thống.
Nhà quản lý công nghệ thông tin: Đánh giá và triển khai các giải pháp công nghệ mới nhằm cải thiện hiệu suất làm việc và tối ưu hóa quy trình truy vấn dữ liệu trong tổ chức.

Câu hỏi thường gặp

Text-to-SQL là gì và tại sao quan trọng?
Text-to-SQL là nhiệm vụ chuyển đổi câu hỏi ngôn ngữ tự nhiên thành câu truy vấn SQL, giúp người dùng không chuyên có thể truy cập dữ liệu dễ dàng. Ví dụ, một câu hỏi như "Tổng doanh thu tháng 5 là bao nhiêu?" sẽ được chuyển thành câu lệnh SQL tương ứng để truy vấn cơ sở dữ liệu.
Mô hình Flan-T5 có ưu điểm gì trong Text-to-SQL?
Flan-T5 được fine-tune trên nhiều tác vụ với kỹ thuật instruction tuning, giúp mô hình hiểu và thực thi các yêu cầu ngôn ngữ tự nhiên tốt hơn, đồng thời có khả năng tổng quát hóa cao khi áp dụng cho các nhiệm vụ mới như Text-to-SQL.
Giải mã bị ràng buộc (Constrained Decoding) hoạt động thế nào?
Kỹ thuật này sử dụng ngữ pháp SQL để giới hạn các token có thể sinh ra tại mỗi bước, đảm bảo câu truy vấn sinh ra luôn hợp lệ về mặt cú pháp, giảm thiểu lỗi và tăng tính chính xác.
Tại sao cần mô hình xếp hạng (Ranker)?
Mô hình ranker đánh giá và chọn ra câu truy vấn SQL chính xác nhất trong số các câu truy vấn ứng viên do generator sinh ra, giúp cải thiện độ chính xác tổng thể của hệ thống.
ROUGE score dùng để đánh giá gì trong nghiên cứu này?
ROUGE đo lường độ tương đồng giữa câu truy vấn sinh ra và câu truy vấn chuẩn, trong đó ROUGE-1 đánh giá sự trùng lặp từ đơn, ROUGE-L đánh giá chuỗi con dài nhất chung, giúp đánh giá chất lượng sinh câu truy vấn.

Kết luận

Luận văn đã thành công trong việc ứng dụng mô hình Flan-T5 kết hợp kỹ thuật constrained decoding và kiến trúc hai tầng để giải quyết bài toán Text-to-SQL.
Mô hình đạt độ chính xác cao với ROUGE-1 F1 score khoảng 0.78 và giảm thiểu lỗi cú pháp xuống dưới 3%.
Phương pháp đề xuất có tính khả thi và hiệu quả trong môi trường dữ liệu thực tế, mở rộng khả năng truy cập dữ liệu cho người dùng không chuyên.
Các giải pháp đề xuất hướng tới triển khai thực tế, nâng cao trải nghiệm người dùng và tối ưu hóa quy trình truy vấn dữ liệu.
Bước tiếp theo là mở rộng tập dữ liệu, hoàn thiện giao diện người dùng và tích hợp hệ thống vào môi trường doanh nghiệp, mời các nhà nghiên cứu và chuyên gia cùng hợp tác phát triển.

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERISTY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY NGUYEN VINH KHIEM APPLICATION OF LARGE LANGUAGE MODEL IN TEXT-TO-SQL Major: COMPUTER SCIENCE Major code: 8480101 MASTER’S THESIS HO CHI MINH CITY, June 2024 THIS THESIS IS COMPLETED AT HO CHI MINH UNIVERSITY OF TECHNOLOGY – VNU-HCM Supervisors: Assoc. Huynh Tuong Nguyen Assoc. Quan Thanh Tho Examiner 1: Dr. Le Thanh Van Examiner 2: Dr.

Le Thi Thuy This master’s thesis is defended at Ho Chi Minh City University of Technology (HCMUT) – VNU-HCM on 17th June 2024. Master’s Thesis Committee: 1. Vo Thi Ngoc Chau Chairman 2. Le Thanh Van Examiner 1 3.

Le Thi Thuy Examiner 2 4. Tran Thanh Tung Commissioner 5. Phan Trong Nhan Secretary Approval of the Chairperson of the Master’s Thesis Committee and Dean of Faculty of Computer Science and Engineering after the thesis being corrected (If any). CHAIRPERSON OF DEAN OF FACULTY OF THESIS COMMITTEE COMPUTER SCIENCE AND ENGINEERING VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness THE TASK SHEET OF MASTER’S THESIS Full name: Nguyen Vinh Khiem Student ID: 2270162 Date of birth: 11/05/1997 Place of birth: Ho Chi Minh Major: Computer Science Major ID: 8480101 I.

THESIS TITLE (in English): Application of large language models in Text-to-SQL II. THESIS TITLE (in Vietnamese): Ứng dụng mô hình ngôn ngữ lớn trong việc tạo câu truy vấn III. TASKS AND CONTENTS: a. Research and design a model capable of generating SQL queries from text.

Implement, test and evaluate model. THESIS START DAY: 15/01/2024 V. THESIS COMPLETION DAY: 20/05/2024 VI. Huynh Tuong Nguyen 2.

Quan Thanh Tho Ho Chi Minh City, date 05/08/2024 SUPERVISOR SUPERVISOR CHAIRMAN OF PROGRAM (Full name and signature) (Full name and signature) COMMITTEE (Full name and signature) DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING (Full name and signature) i VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness ACKNOWLEDGEMENTS This thesis could not have been completed without significant support from various individuals and groups. I am profoundly grateful to my primary advisors, Assoc. Quan Thanh Tho and Assoc. Huynh Tuong Nguyen, who has been a constant source of guidance, providing necessary resources and assistance throughout my research, and offering support whenever I faced challenges.

I wish to express my profound gratitude to the esteemed professors and lecturers of the Department of Computer Science and Engineering, and the Ho Chi Minh City University of Technology at large. The knowledge they imparted is priceless and has been instrumental in the completion of this thesis. I am also thankful to my colleagues at GiaoHangNhanh Company for granting me the chance to engage deeply in research and improve my professional expertise, alongside providing resources essential for training my models. Lastly, I owe a deep gratitude to my family, friends and classmate, all of whom have been supportive, encouraging, and provided the emotional and physical support needed to complete this thesis.

With heartfelt gratitude, I wish good health and all the best to the professors and lecturers of the Department of Computer Science and Engineering at the Ho Chi Minh City University of Technology, National University of Ho Chi Minh City. ii VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness ABSTRACT The rapid advancements in natural language processing (NLP) have been significantly driven by large language models (LLMs), which have demonstrated impressive capabilities in understanding and generating human-like text. This thesis explores the application of LLMs, specifically the Flan-T5 model, in the context of the Text-to-SQL task, which aims to translate natural language queries into structured SQL commands. This translation is crucial for enhancing data accessibility, allowing users without SQL expertise to interact with relational databases effectively.

The proposed solution utilizes a two-tier architecture comprising a generator and a ranker model. The generator, based on the Flan-T5 model, generates multiple SQL query candidates from natural language inputs. These candidates are then evaluated and ranked by the ranker model to select the most accurate query. The approach leverages a constrained decoding technique guided by SQL grammar rules to ensure the syntactic validity of the generated queries.

iii VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness TÓM TẮT LUẬN VĂN THẠC SĨ Sự tiến bộ nhanh chóng trong xử lý ngôn ngữ tự nhiên (NLP) đã được thúc đẩy đáng kể bởi các mô hình ngôn ngữ lớn (LLMs), những mô hình đã cho thấy khả năng ấn tượng trong việc hiểu và tạo ra văn bản giống con người. Luận văn này khám phá việc áp dụng các LLMs, cụ thể là mô hình Flan-T5, trong bối cảnh nhiệm vụ tạo câu truy vấn từ câu hỏi, nhằm dịch các truy vấn ngôn ngữ tự nhiên thành các câu lệnh SQL có cấu trúc. Việc sinh câu truy vấn này rất quan trọng để nâng cao khả năng truy cập dữ liệu, cho phép người dùng không có chuyên môn về ngôn ngữ SQL tương tác hiệu quả với các cơ sở dữ liệu quan hệ. Giải pháp đề xuất sử dụng kiến trúc hai tầng bao gồm một mô hình tạo và một mô hình xếp hạng.

Mô hình tạo, dựa trên mô hình Flan-T5, tạo ra nhiều câu truy vấn SQL từ các đầu vào ngôn ngữ tự nhiên. Các câu truy vấn này sau đó được đánh giá và xếp hạng bởi mô hình xếp hạng để chọn ra truy vấn chính xác nhất. Cách tiếp cận này tận dụng kỹ thuật giải mã bị ràng buộc theo quy tắc ngữ pháp SQL để đảm bảo tính chính xác về cú pháp của các truy vấn được tạo ra. iv VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness DECLARATION OF AUTHORSHIP I solemnly affirm that the thesis titled: APPLICATION OF LARGE LANGUAGE MODEL IN TEXT-TO-SQL is the product of my own research endeavors.

The documentation used in this thesis has been clearly stated in the References section. The data and results presented in this thesis are entirely truthful, and I am fully responsible for any inaccuracies and will accept any discipline set forth by the department and the university SUPERVISOR SUPERVISOR STUDENT (Full name and signature) (Full name and signature) (Full name and signature) v Contents 1 Topic Introduction 1 1.2 Overview about Text-to-SQL .4 Scope of thesis .1 RAT-SQL: Relation-Aware Schema Encoding and Linking for Text- to-SQL Parsers .2 Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for Text-to-SQL Parsing .3 T5QL: Taming language models for SQL generation .2 SQL Grammar for constrain decoding .1 Recurrent Neural Networks (RNNs) .2 Feed Forward Network .3 Pre-trained Language Model .1 GPT - Generative Pretrained Transformer. 27 vi Ho Chi Minh University of Technology Faculty of Computer Science and Engineering 3.2 BERT - Bidirectional Encoder Representations from Trans- formers .3 T5/Flan-T5: Text-to-Text Transfer Transformer .2 Issues and Challenges. 44 vii List of Figures 1.1 Percentage of Programming Language used by Professional Devel- opers .2 Text-to-SQL problem[2] .1 The technique taxonomy for text-to-SQL .2 Visualization of RAT-SQL model[5] .3 Relationship between members in schema .4 Visualization of Graphix-T5 model[7] .5 Example of Multi-hop relation between nodes .6 Visualization of No-Match and Bridge Node Mode .7 T5QL model architecture[8] .8 Pseudo code for Constrained Decoding .9 SQL Grammar Rule .1 The architecture of a recurrent neural network layer is represented with shorthand notation (left) and represented with a hidden state (right)[10] .2 Visualization of Transformer architecture[6] .3 Visualization of Scaled Dot-Product Attention .4 Multi-Head Attention consists of several attention layers running in parallel .5 Feed Forward Network .6 Overview of some popular LLMs based on Transformers[11] .7 Architecture of GPT model[12].

28 viii Ho Chi Minh University of Technology Faculty of Computer Science and Engineering 3.8 Input transformations for fine-tuning on different tasks[12] .9 The overview of BERT Architecture [14] .10The overview of BERT Architecture .11Overview of Flan-T5 finetuning data and task[3] .1 Architecture of proposed model. 36 ix List of Tables 4.1 ROUGE Score for 2 circumstances. 40 x Chapter 1 Topic Introduction 1.1 General Introduction The progression in the field of natural language processing has been sig- nificantly accelerated with the advent of large language models (LLMs). Models like GPT-3, BERT, and their successors have drastically improved our proficiency in processing, understanding, and generating text that is remarkably human-like.

These models have been meticulously trained on vast collections of text, which has endowed them with a nuanced understanding of language. This breakthrough has laid a foundation for pioneering applications in several linguistic tasks, repre- senting a formidable leap in technology that has transformed the way we interact with machines. SQL’s role in managing and analyzing data within relational databases is indisputably vital in our modern data-centric world. The ubiquity of SQL across various sectors underscores its importance for organizing and retrieving critical data.According to the yearly survey conducted by StackOverflow[1], SQL main- tains its status as one of the globally dominant languages.

It is observed that among the technologies professionals most frequently utilize, JavaScript, HTM- 1 Ho Chi Minh University of Technology Faculty of Computer Science and Engineering L/CSS, and SQL emerge as the top three, with JavaScript and HTML/CSS nearly reaching parity as the leading languages for coding novices Figure 1.1: Percentage of Programming Language used by Professional Developers[1] The task of converting natural language into SQL commands, known as Text-to-SQL, has gained prominence. It grants non-experts the ability to access database information, significantly broadening the scope of data utility and facil- itating informed decision-making across diverse user groups. While LLMs hold the potential to simplify the interaction between natural language and SQL queries, the task of Text-to-SQL generation comes with dis- tinct challenges. LLMs need to acquire a profound semantic understanding of the queries, efficiently generate SQL commands, and interpret the users’ intent with high accuracy.

The intricacies involved in SQL’s structure and the variable na- ture of natural language queries add layers of complexity to this task. Integrating LLMs into Text-to-SQL systems is a complex endeavor that goes beyond techni- cal challenges. It requires the selection of suitable models, rigorous experimental design, and the development of reliable metrics to gauge performance. In addi- tion, it is imperative to consider the wider implications on user experience and 2 Ho Chi Minh University of Technology Faculty of Computer Science and Engineering database functionality, striving towards a solution that is not only seamless and efficient but also scalable.2 Overview about Text-to-SQL In the current era, data has become a critical asset essential for a wide range of human endeavors, encompassing both commercial activities and scien- tific investigations.

However, the burgeoning volume and escalating intricacy of data present significant challenges in its querying and exploration, even for those with expertise in the field. Present-day data query interfaces are generally bifur- cated into two categories: form-based interfaces, which are user-friendly but offer constrained querying capabilities, and more advanced, low-level tools. These ad- vanced tools permit the synthesis of queries in native database languages, such as SQL, but are primarily designed for a specialized audience, like SQL profes- sionals. To democratize data access and utilization, ensuring that everyone can effectively engage with, comprehend, and extract value from data, it is crucial to remove the technical obstacles that hinder data accessibility and reduce reliance on IT specialists.

Adopting natural language for query expression can democra- tize data accessibility. In this vein, there is a growing scholarly interest in the development of Nat- ural Language (NL) Interfaces for Databases (NLIDBs).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn thạc sĩ "Ứng Dụng Mô Hình Ngôn Ngữ Lớn (LLM) trong Chuyển Đổi Văn Bản Sang SQL" tập trung nghiên cứu và ứng dụng các mô hình ngôn ngữ lớn (LLM) để tự động chuyển đổi các câu hỏi hoặc yêu cầu bằng ngôn ngữ tự nhiên thành các truy vấn SQL. Luận văn này khám phá các phương pháp tận dụng sức mạnh của LLM trong việc hiểu ngữ cảnh, phân tích cú pháp và tạo mã SQL chính xác từ các mô tả văn bản, giúp giảm thiểu công sức và thời gian cần thiết cho việc viết truy vấn SQL thủ công. Lợi ích chính của nghiên cứu này là khả năng tạo ra các hệ thống truy vấn dữ liệu dễ sử dụng hơn, cho phép người dùng không chuyên có thể tương tác với cơ sở dữ liệu một cách trực quan và hiệu quả.

Nếu bạn quan tâm đến các ứng dụng khác của khoa học máy tính trong việc giải quyết các vấn đề thực tế, bạn có thể tham khảo thêm luận văn thạc sĩ "Luận văn thạc sĩ công nghệ thông tin một cách tiếp cận trong khai phá dữ liệu để chuẩn đoán bệnh tim cho bệnh nhân ngoại trú". Luận văn này trình bày cách khai phá dữ liệu để hỗ trợ chẩn đoán bệnh tim mạch, một lĩnh vực ứng dụng khác của trí tuệ nhân tạo trong y học.

#Ứng dụng LLM trong chuyển đổi văn bản sang SQL

#Mô hình ngôn ngữ lớn cho Text-to-SQL

#Luận văn thạc sĩ về Text-to-SQL sử dụng LLM

#Text-to-SQL với mô hình ngôn ngữ lớn

#Chuyển đổi ngôn ngữ tự nhiên sang SQL

Chủ đề

Luận văn thạc sĩ công nghệ thông tin

Mô hình ngôn ngữ lớn (LLM)

Chuyển đổi văn bản sang SQL (Text-to-SQL)