Luận văn thạc sĩ: Ứng dụng mô hình ngôn ngữ lớn trong chuyển đổi văn bản thành SQL

Luận văn thạc sĩ phân tích máy tính application of large language model in texttosql, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả thi cho thực tiễn.

Trường đại học

Ho Chi Minh City University of Technology

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

master’s thesis

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

ACKNOWLEDGEMENTS

ABSTRACT

TÓM TẮT LUẬN VĂN THẠC SĨ

DECLARATION OF AUTHORSHIP

1. CHƯƠNG 1: Topic Introduction

1.1. General Introduction

1.2. Overview about Text-to-SQL

1.3. Thesis objectives

1.4. Scope of thesis

2. CHƯƠNG 2: Related Works

2.1. RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers

Tóm tắt

I. Tổng quan về ứng dụng mô hình ngôn ngữ lớn trong chuyển đổi văn bản thành SQL

Mô hình ngôn ngữ lớn (LLM) đã trở thành một công cụ mạnh mẽ trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP). Việc ứng dụng LLM trong chuyển đổi văn bản thành SQL không chỉ giúp đơn giản hóa quy trình truy vấn dữ liệu mà còn mở ra cơ hội cho những người không chuyên về SQL có thể tương tác với cơ sở dữ liệu. Nghiên cứu này sẽ đi sâu vào cách mà LLM có thể cải thiện khả năng truy vấn dữ liệu và giải quyết các thách thức hiện tại trong lĩnh vực này.

1.1. Mô hình ngôn ngữ lớn và vai trò trong xử lý ngôn ngữ tự nhiên

Mô hình ngôn ngữ lớn như GPT-3 và BERT đã chứng minh khả năng vượt trội trong việc hiểu và tạo ra văn bản tự nhiên. Chúng được đào tạo trên tập dữ liệu khổng lồ, giúp chúng nắm bắt ngữ nghĩa và ngữ pháp của ngôn ngữ. Điều này tạo điều kiện thuận lợi cho việc chuyển đổi văn bản thành SQL, giúp người dùng dễ dàng truy cập dữ liệu.

1.2. Tầm quan trọng của SQL trong quản lý dữ liệu

SQL là ngôn ngữ chủ yếu được sử dụng để quản lý và truy vấn dữ liệu trong các cơ sở dữ liệu quan hệ. Sự phổ biến của SQL trong nhiều lĩnh vực cho thấy vai trò quan trọng của nó trong việc tổ chức và truy xuất thông tin. Việc chuyển đổi văn bản thành SQL giúp mở rộng khả năng truy cập dữ liệu cho nhiều người dùng hơn.

II. Thách thức trong việc chuyển đổi văn bản thành SQL

Mặc dù việc chuyển đổi văn bản thành SQL mang lại nhiều lợi ích, nhưng cũng tồn tại nhiều thách thức đáng kể. Các mô hình ngôn ngữ lớn cần phải hiểu sâu sắc ngữ nghĩa của câu hỏi và tạo ra các câu lệnh SQL chính xác. Những phức tạp trong cấu trúc của SQL và sự đa dạng của ngôn ngữ tự nhiên tạo ra nhiều khó khăn trong quá trình này.

2.1. Khó khăn trong việc hiểu ngữ nghĩa câu hỏi

Một trong những thách thức lớn nhất là việc mô hình cần phải nắm bắt được ý định của người dùng từ câu hỏi tự nhiên. Điều này đòi hỏi mô hình phải có khả năng phân tích ngữ nghĩa và ngữ pháp một cách chính xác để tạo ra câu lệnh SQL phù hợp.

2.2. Độ phức tạp của cấu trúc SQL

Cấu trúc của SQL có thể rất phức tạp, với nhiều loại câu lệnh và cú pháp khác nhau. Việc tạo ra câu lệnh SQL chính xác từ văn bản tự nhiên yêu cầu mô hình phải hiểu rõ các quy tắc ngữ pháp của SQL, điều này làm tăng độ khó cho quá trình chuyển đổi.

III. Phương pháp giải quyết thách thức chuyển đổi văn bản thành SQL

Để giải quyết các thách thức trong việc chuyển đổi văn bản thành SQL, nhiều phương pháp đã được đề xuất. Một trong những phương pháp hiệu quả là sử dụng kiến trúc hai tầng, bao gồm mô hình tạo và mô hình xếp hạng. Mô hình tạo sẽ sinh ra nhiều ứng viên câu lệnh SQL từ đầu vào văn bản tự nhiên, trong khi mô hình xếp hạng sẽ đánh giá và chọn ra câu lệnh chính xác nhất.

3.1. Kiến trúc hai tầng trong chuyển đổi văn bản thành SQL

Kiến trúc hai tầng bao gồm một mô hình tạo và một mô hình xếp hạng. Mô hình tạo sử dụng LLM để sinh ra nhiều câu lệnh SQL từ câu hỏi tự nhiên, trong khi mô hình xếp hạng đánh giá các ứng viên này dựa trên độ chính xác và tính hợp lệ của chúng.

3.2. Kỹ thuật giải mã ràng buộc theo quy tắc ngữ pháp SQL

Kỹ thuật giải mã ràng buộc giúp đảm bảo rằng các câu lệnh SQL được tạo ra tuân thủ các quy tắc ngữ pháp của SQL. Điều này không chỉ giúp tăng cường tính chính xác của các câu lệnh mà còn giảm thiểu lỗi trong quá trình chuyển đổi.

IV. Ứng dụng thực tiễn của mô hình ngôn ngữ lớn trong chuyển đổi văn bản thành SQL

Việc ứng dụng mô hình ngôn ngữ lớn trong chuyển đổi văn bản thành SQL đã cho thấy nhiều kết quả khả quan. Các nghiên cứu đã chỉ ra rằng việc sử dụng LLM có thể cải thiện đáng kể độ chính xác và hiệu quả của các câu lệnh SQL được tạo ra từ văn bản tự nhiên. Điều này mở ra nhiều cơ hội cho việc phát triển các ứng dụng mới trong lĩnh vực quản lý dữ liệu.

4.1. Kết quả nghiên cứu từ ứng dụng mô hình Flan T5

Nghiên cứu đã chỉ ra rằng mô hình Flan-T5 có khả năng tạo ra các câu lệnh SQL chính xác từ các câu hỏi tự nhiên. Kết quả này cho thấy tiềm năng của LLM trong việc cải thiện khả năng truy vấn dữ liệu cho người dùng không chuyên.

4.2. Ứng dụng trong các hệ thống cơ sở dữ liệu

Việc tích hợp LLM vào các hệ thống cơ sở dữ liệu có thể giúp người dùng dễ dàng truy cập và khai thác dữ liệu mà không cần có kiến thức chuyên sâu về SQL. Điều này không chỉ nâng cao trải nghiệm người dùng mà còn tăng cường hiệu quả trong việc ra quyết định.

V. Kết luận và tương lai của ứng dụng mô hình ngôn ngữ lớn trong SQL

Ứng dụng mô hình ngôn ngữ lớn trong chuyển đổi văn bản thành SQL đang mở ra nhiều cơ hội mới trong lĩnh vực quản lý dữ liệu. Mặc dù còn nhiều thách thức cần phải vượt qua, nhưng tiềm năng của LLM trong việc cải thiện khả năng truy vấn dữ liệu là rất lớn. Tương lai của công nghệ này hứa hẹn sẽ mang lại nhiều cải tiến đáng kể trong cách mà người dùng tương tác với cơ sở dữ liệu.

5.1. Triển vọng phát triển công nghệ LLM trong SQL

Công nghệ LLM đang phát triển nhanh chóng và có thể sẽ tiếp tục cải thiện khả năng chuyển đổi văn bản thành SQL. Các nghiên cứu trong tương lai có thể tập trung vào việc tối ưu hóa mô hình và cải thiện độ chính xác của các câu lệnh SQL được tạo ra.

5.2. Tác động đến trải nghiệm người dùng

Việc ứng dụng LLM trong SQL không chỉ giúp cải thiện độ chính xác mà còn nâng cao trải nghiệm người dùng. Người dùng sẽ có thể truy cập dữ liệu một cách dễ dàng hơn, từ đó đưa ra quyết định chính xác hơn trong công việc và cuộc sống hàng ngày.

07/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính application of large language model in texttosql

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh dữ liệu ngày càng trở nên quan trọng trong nhiều lĩnh vực, việc truy vấn và khai thác dữ liệu từ các cơ sở dữ liệu quan hệ trở thành một thách thức lớn, đặc biệt với người dùng không chuyên về SQL. Theo báo cáo của ngành công nghệ thông tin, SQL vẫn giữ vị trí hàng đầu trong các ngôn ngữ lập trình được sử dụng phổ biến, chiếm khoảng 50% trong số các ngôn ngữ được các lập trình viên chuyên nghiệp sử dụng. Nhiệm vụ Text-to-SQL, tức chuyển đổi câu truy vấn ngôn ngữ tự nhiên thành câu lệnh SQL, nhằm mục tiêu giúp người dùng không có kiến thức chuyên sâu về SQL có thể truy cập và khai thác dữ liệu một cách hiệu quả. Luận văn này tập trung nghiên cứu và ứng dụng mô hình ngôn ngữ lớn (LLM) Flan-T5 trong việc giải quyết bài toán Text-to-SQL, với phạm vi nghiên cứu dựa trên dữ liệu thực tế từ cơ sở dữ liệu của một công ty tại Việt Nam, được xử lý dựa trên bộ dữ liệu Spider. Mục tiêu chính là thiết kế, triển khai và đánh giá một mô hình có khả năng sinh câu truy vấn SQL chính xác từ câu hỏi ngôn ngữ tự nhiên, góp phần nâng cao khả năng truy cập dữ liệu và hỗ trợ ra quyết định trong các tổ chức. Thời gian nghiên cứu kéo dài từ tháng 1 đến tháng 5 năm 2024, tại Trường Đại học Bách Khoa, Đại học Quốc gia TP. Hồ Chí Minh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình tiên tiến trong lĩnh vực xử lý ngôn ngữ tự nhiên và học sâu, bao gồm:

Mô hình Transformer và cơ chế Self-Attention: Giúp mô hình hiểu được mối quan hệ phức tạp giữa các từ trong câu, nâng cao khả năng biểu diễn ngữ nghĩa.
Mô hình Flan-T5: Một biến thể của T5 được huấn luyện với kỹ thuật instruction fine-tuning, giúp cải thiện khả năng tổng quát hóa và thực thi các tác vụ ngôn ngữ tự nhiên.
Kỹ thuật constrained decoding dựa trên ngữ pháp SQL: Đảm bảo các câu truy vấn SQL sinh ra có tính hợp lệ về cú pháp, giảm thiểu lỗi trong quá trình sinh câu.
Mô hình hai tầng generator và ranker: Generator tạo ra nhiều câu truy vấn SQL ứng viên, ranker đánh giá và chọn ra câu truy vấn chính xác nhất dựa trên ngữ cảnh câu hỏi.

Các khái niệm chính bao gồm: Text-to-SQL, Large Language Models (LLMs), constrained decoding, beam search, và ROUGE score.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là cơ sở dữ liệu thực tế của công ty tác giả, được chuẩn hóa dựa trên bộ dữ liệu Spider. Cỡ mẫu dữ liệu gồm hàng nghìn cặp câu hỏi ngôn ngữ tự nhiên và câu truy vấn SQL tương ứng. Phương pháp chọn mẫu là lấy toàn bộ dữ liệu có sẵn để đảm bảo tính đại diện và đa dạng.

Phương pháp phân tích sử dụng mô hình Flan-T5 được fine-tune trên tập dữ liệu huấn luyện, kết hợp kỹ thuật constrained decoding để sinh câu truy vấn SQL hợp lệ. Mô hình ranker được huấn luyện để đánh giá và xếp hạng các câu truy vấn sinh ra. Quá trình huấn luyện và đánh giá diễn ra trong khoảng 5 tháng, từ tháng 1 đến tháng 5 năm 2024.

Đánh giá hiệu quả mô hình dựa trên chỉ số ROUGE-1 và ROUGE-L, đo lường độ chính xác và độ bao phủ nội dung của câu truy vấn sinh ra so với câu truy vấn chuẩn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả sinh câu truy vấn SQL hợp lệ: Mô hình Flan-T5 với constrained decoding đạt tỷ lệ câu truy vấn hợp lệ về cú pháp trên 95%, cao hơn khoảng 10% so với các phương pháp không sử dụng kỹ thuật ràng buộc ngữ pháp.
Độ chính xác trong việc chuyển đổi ngôn ngữ tự nhiên sang SQL: ROUGE-1 đạt khoảng 0.78 và ROUGE-L đạt khoảng 0.75, cho thấy mô hình có khả năng sinh câu truy vấn sát với câu chuẩn, cải thiện 8-12% so với các mô hình baseline.
Hiệu quả của mô hình hai tầng generator-ranker: Việc sử dụng ranker giúp tăng tỷ lệ chọn đúng câu truy vấn chính xác lên đến 85%, so với chỉ dùng generator đơn lẻ chỉ đạt khoảng 70%.
Khả năng xử lý đa dạng câu hỏi và cấu trúc cơ sở dữ liệu: Mô hình thể hiện sự linh hoạt khi áp dụng trên các câu hỏi phức tạp và các schema cơ sở dữ liệu khác nhau, với độ chính xác giảm nhẹ khoảng 5% khi chuyển sang các schema chưa từng gặp.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả cao đến từ việc áp dụng kỹ thuật constrained decoding, giúp mô hình tránh được các lỗi cú pháp phổ biến trong SQL. So với các nghiên cứu trước đây như RAT-SQL hay Graphix-T5, phương pháp sử dụng Flan-T5 kết hợp ranker cho thấy ưu thế về khả năng tổng quát hóa và hiệu quả tính toán.

Kết quả cũng cho thấy mô hình hai tầng giúp cân bằng giữa đa dạng câu truy vấn sinh ra và độ chính xác lựa chọn, phù hợp với các ứng dụng thực tế cần độ tin cậy cao. Biểu đồ so sánh ROUGE giữa các mô hình có thể minh họa rõ ràng sự cải thiện này.

Ý nghĩa của nghiên cứu nằm ở việc mở rộng khả năng truy cập dữ liệu cho người dùng không chuyên, giảm thiểu sự phụ thuộc vào chuyên gia SQL, đồng thời cung cấp nền tảng cho các hệ thống truy vấn dữ liệu tự nhiên trong doanh nghiệp và nghiên cứu.

Đề xuất và khuyến nghị

Triển khai hệ thống Text-to-SQL dựa trên Flan-T5 trong doanh nghiệp: Tổ chức nên áp dụng mô hình này để hỗ trợ nhân viên không chuyên truy vấn dữ liệu, hướng tới tăng 30% hiệu quả truy xuất thông tin trong vòng 6 tháng.
Phát triển giao diện người dùng thân thiện tích hợp mô hình: Thiết kế giao diện nhập câu hỏi ngôn ngữ tự nhiên kết hợp phản hồi trực quan, giúp giảm thời gian học tập và tăng trải nghiệm người dùng, hoàn thành trong 3 tháng.
Mở rộng dữ liệu huấn luyện và fine-tune theo từng ngành nghề: Thu thập thêm dữ liệu đặc thù ngành để tăng độ chính xác mô hình lên ít nhất 10% trong vòng 1 năm, do bộ phận nghiên cứu và phát triển thực hiện.
Tích hợp hệ thống kiểm thử và đánh giá liên tục: Thiết lập quy trình đánh giá định kỳ dựa trên các chỉ số ROUGE và phản hồi người dùng để cải tiến mô hình, đảm bảo độ tin cậy và hiệu quả lâu dài.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính: Có thể sử dụng luận văn làm tài liệu tham khảo về ứng dụng mô hình ngôn ngữ lớn trong xử lý ngôn ngữ tự nhiên và truy vấn cơ sở dữ liệu.
Chuyên gia phát triển hệ thống dữ liệu và AI trong doanh nghiệp: Áp dụng các giải pháp Text-to-SQL để nâng cao khả năng truy cập dữ liệu cho người dùng không chuyên, giảm chi phí đào tạo và hỗ trợ kỹ thuật.
Nhà quản lý công nghệ thông tin: Hiểu rõ tiềm năng và giới hạn của công nghệ Text-to-SQL để hoạch định chiến lược chuyển đổi số và đầu tư công nghệ phù hợp.
Các nhà phát triển phần mềm và startup công nghệ: Khai thác mô hình Flan-T5 và kiến trúc hai tầng generator-ranker để xây dựng các sản phẩm mới trong lĩnh vực truy vấn dữ liệu và trợ lý ảo.

Câu hỏi thường gặp

Mô hình Flan-T5 có ưu điểm gì so với các mô hình khác trong Text-to-SQL?
Flan-T5 được fine-tune theo hướng instruction tuning, giúp cải thiện khả năng tổng quát hóa và thực thi các tác vụ ngôn ngữ tự nhiên phức tạp. Kết hợp với constrained decoding, nó đảm bảo sinh ra câu truy vấn SQL hợp lệ và chính xác hơn.
Constrained decoding hoạt động như thế nào trong việc sinh câu truy vấn SQL?
Kỹ thuật này sử dụng ngữ pháp SQL để giới hạn các token có thể được sinh ra tại mỗi bước, đảm bảo câu truy vấn tuân thủ cú pháp SQL, giảm thiểu lỗi và tăng tính hợp lệ của kết quả.
Tại sao cần mô hình ranker trong kiến trúc hai tầng?
Ranker giúp đánh giá và chọn ra câu truy vấn SQL chính xác nhất trong số các câu sinh ra bởi generator, nâng cao độ chính xác tổng thể của hệ thống, đặc biệt khi câu hỏi có nhiều cách diễn đạt khác nhau.
Phạm vi dữ liệu huấn luyện có ảnh hưởng thế nào đến hiệu quả mô hình?
Dữ liệu huấn luyện đa dạng và phong phú giúp mô hình học được nhiều cấu trúc câu hỏi và schema khác nhau, tăng khả năng tổng quát hóa. Ngược lại, dữ liệu hạn chế có thể làm giảm độ chính xác khi áp dụng vào các trường hợp mới.
Mô hình này có thể áp dụng cho các ngôn ngữ tự nhiên khác ngoài tiếng Anh không?
Về lý thuyết, mô hình có thể được fine-tune với dữ liệu ngôn ngữ khác để thích nghi. Tuy nhiên, hiệu quả phụ thuộc vào chất lượng và số lượng dữ liệu huấn luyện bằng ngôn ngữ đó.

Kết luận

Luận văn đã thành công trong việc ứng dụng mô hình Flan-T5 kết hợp kỹ thuật constrained decoding và kiến trúc hai tầng generator-ranker để giải quyết bài toán Text-to-SQL.
Mô hình đạt tỷ lệ câu truy vấn hợp lệ trên 95% và ROUGE-1 khoảng 0.78, thể hiện hiệu quả vượt trội so với các phương pháp truyền thống.
Giải pháp đề xuất giúp mở rộng khả năng truy cập dữ liệu cho người dùng không chuyên, giảm thiểu rào cản kỹ thuật trong truy vấn cơ sở dữ liệu.
Các đề xuất triển khai và phát triển tiếp theo tập trung vào mở rộng dữ liệu, cải tiến giao diện và quy trình đánh giá liên tục nhằm nâng cao hiệu quả ứng dụng thực tế.
Khuyến khích các nhà nghiên cứu, chuyên gia và doanh nghiệp quan tâm áp dụng và phát triển thêm các giải pháp Text-to-SQL dựa trên mô hình ngôn ngữ lớn để thúc đẩy chuyển đổi số và khai thác dữ liệu thông minh.

Hãy bắt đầu áp dụng các giải pháp này để nâng cao hiệu quả truy vấn dữ liệu và hỗ trợ ra quyết định trong tổ chức của bạn ngay hôm nay!

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERISTY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY NGUYEN VINH KHIEM APPLICATION OF LARGE LANGUAGE MODEL IN TEXT-TO-SQL Major: COMPUTER SCIENCE Major code: 8480101 MASTER’S THESIS HO CHI MINH CITY, June 2024 THIS THESIS IS COMPLETED AT HO CHI MINH UNIVERSITY OF TECHNOLOGY – VNU-HCM Supervisors: Assoc. Huynh Tuong Nguyen Assoc. Quan Thanh Tho Examiner 1: Dr. Le Thanh Van Examiner 2: Dr.

Le Thi Thuy This master’s thesis is defended at Ho Chi Minh City University of Technology (HCMUT) – VNU-HCM on 17th June 2024. Master’s Thesis Committee: 1. Vo Thi Ngoc Chau Chairman 2. Le Thanh Van Examiner 1 3.

Le Thi Thuy Examiner 2 4. Tran Thanh Tung Commissioner 5. Phan Trong Nhan Secretary Approval of the Chairperson of the Master’s Thesis Committee and Dean of Faculty of Computer Science and Engineering after the thesis being corrected (If any). CHAIRPERSON OF DEAN OF FACULTY OF THESIS COMMITTEE COMPUTER SCIENCE AND ENGINEERING VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness THE TASK SHEET OF MASTER’S THESIS Full name: Nguyen Vinh Khiem Student ID: 2270162 Date of birth: 11/05/1997 Place of birth: Ho Chi Minh Major: Computer Science Major ID: 8480101 I.

THESIS TITLE (in English): Application of large language models in Text-to-SQL II. THESIS TITLE (in Vietnamese): Ứng dụng mô hình ngôn ngữ lớn trong việc tạo câu truy vấn III. TASKS AND CONTENTS: a. Research and design a model capable of generating SQL queries from text.

Implement, test and evaluate model. THESIS START DAY: 15/01/2024 V. THESIS COMPLETION DAY: 20/05/2024 VI. Huynh Tuong Nguyen 2.

Quan Thanh Tho Ho Chi Minh City, date 05/08/2024 SUPERVISOR SUPERVISOR CHAIRMAN OF PROGRAM (Full name and signature) (Full name and signature) COMMITTEE (Full name and signature) DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING (Full name and signature) i VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness ACKNOWLEDGEMENTS This thesis could not have been completed without significant support from various individuals and groups. I am profoundly grateful to my primary advisors, Assoc. Quan Thanh Tho and Assoc. Huynh Tuong Nguyen, who has been a constant source of guidance, providing necessary resources and assistance throughout my research, and offering support whenever I faced challenges.

I wish to express my profound gratitude to the esteemed professors and lecturers of the Department of Computer Science and Engineering, and the Ho Chi Minh City University of Technology at large. The knowledge they imparted is priceless and has been instrumental in the completion of this thesis. I am also thankful to my colleagues at GiaoHangNhanh Company for granting me the chance to engage deeply in research and improve my professional expertise, alongside providing resources essential for training my models. Lastly, I owe a deep gratitude to my family, friends and classmate, all of whom have been supportive, encouraging, and provided the emotional and physical support needed to complete this thesis.

With heartfelt gratitude, I wish good health and all the best to the professors and lecturers of the Department of Computer Science and Engineering at the Ho Chi Minh City University of Technology, National University of Ho Chi Minh City. ii VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness ABSTRACT The rapid advancements in natural language processing (NLP) have been significantly driven by large language models (LLMs), which have demonstrated impressive capabilities in understanding and generating human-like text. This thesis explores the application of LLMs, specifically the Flan-T5 model, in the context of the Text-to-SQL task, which aims to translate natural language queries into structured SQL commands. This translation is crucial for enhancing data accessibility, allowing users without SQL expertise to interact with relational databases effectively.

The proposed solution utilizes a two-tier architecture comprising a generator and a ranker model. The generator, based on the Flan-T5 model, generates multiple SQL query candidates from natural language inputs. These candidates are then evaluated and ranked by the ranker model to select the most accurate query. The approach leverages a constrained decoding technique guided by SQL grammar rules to ensure the syntactic validity of the generated queries.

iii VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness TÓM TẮT LUẬN VĂN THẠC SĨ Sự tiến bộ nhanh chóng trong xử lý ngôn ngữ tự nhiên (NLP) đã được thúc đẩy đáng kể bởi các mô hình ngôn ngữ lớn (LLMs), những mô hình đã cho thấy khả năng ấn tượng trong việc hiểu và tạo ra văn bản giống con người. Luận văn này khám phá việc áp dụng các LLMs, cụ thể là mô hình Flan-T5, trong bối cảnh nhiệm vụ tạo câu truy vấn từ câu hỏi, nhằm dịch các truy vấn ngôn ngữ tự nhiên thành các câu lệnh SQL có cấu trúc. Việc sinh câu truy vấn này rất quan trọng để nâng cao khả năng truy cập dữ liệu, cho phép người dùng không có chuyên môn về ngôn ngữ SQL tương tác hiệu quả với các cơ sở dữ liệu quan hệ. Giải pháp đề xuất sử dụng kiến trúc hai tầng bao gồm một mô hình tạo và một mô hình xếp hạng.

Mô hình tạo, dựa trên mô hình Flan-T5, tạo ra nhiều câu truy vấn SQL từ các đầu vào ngôn ngữ tự nhiên. Các câu truy vấn này sau đó được đánh giá và xếp hạng bởi mô hình xếp hạng để chọn ra truy vấn chính xác nhất. Cách tiếp cận này tận dụng kỹ thuật giải mã bị ràng buộc theo quy tắc ngữ pháp SQL để đảm bảo tính chính xác về cú pháp của các truy vấn được tạo ra. iv VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness DECLARATION OF AUTHORSHIP I solemnly affirm that the thesis titled: APPLICATION OF LARGE LANGUAGE MODEL IN TEXT-TO-SQL is the product of my own research endeavors.

The documentation used in this thesis has been clearly stated in the References section. The data and results presented in this thesis are entirely truthful, and I am fully responsible for any inaccuracies and will accept any discipline set forth by the department and the university SUPERVISOR SUPERVISOR STUDENT (Full name and signature) (Full name and signature) (Full name and signature) v Contents 1 Topic Introduction 1 1.2 Overview about Text-to-SQL .4 Scope of thesis .1 RAT-SQL: Relation-Aware Schema Encoding and Linking for Text- to-SQL Parsers .2 Graphix-T5: Mixing Pre-Trained Transformers with Graph-Aware Layers for Text-to-SQL Parsing .3 T5QL: Taming language models for SQL generation .2 SQL Grammar for constrain decoding .1 Recurrent Neural Networks (RNNs) .2 Feed Forward Network .3 Pre-trained Language Model .1 GPT - Generative Pretrained Transformer. 27 vi Ho Chi Minh University of Technology Faculty of Computer Science and Engineering 3.2 BERT - Bidirectional Encoder Representations from Trans- formers .3 T5/Flan-T5: Text-to-Text Transfer Transformer .2 Issues and Challenges. 44 vii List of Figures 1.1 Percentage of Programming Language used by Professional Devel- opers .2 Text-to-SQL problem[2] .1 The technique taxonomy for text-to-SQL .2 Visualization of RAT-SQL model[5] .3 Relationship between members in schema .4 Visualization of Graphix-T5 model[7] .5 Example of Multi-hop relation between nodes .6 Visualization of No-Match and Bridge Node Mode .7 T5QL model architecture[8] .8 Pseudo code for Constrained Decoding .9 SQL Grammar Rule .1 The architecture of a recurrent neural network layer is represented with shorthand notation (left) and represented with a hidden state (right)[10] .2 Visualization of Transformer architecture[6] .3 Visualization of Scaled Dot-Product Attention .4 Multi-Head Attention consists of several attention layers running in parallel .5 Feed Forward Network .6 Overview of some popular LLMs based on Transformers[11] .7 Architecture of GPT model[12].

28 viii Ho Chi Minh University of Technology Faculty of Computer Science and Engineering 3.8 Input transformations for fine-tuning on different tasks[12] .9 The overview of BERT Architecture [14] .10The overview of BERT Architecture .11Overview of Flan-T5 finetuning data and task[3] .1 Architecture of proposed model. 36 ix List of Tables 4.1 ROUGE Score for 2 circumstances. 40 x Chapter 1 Topic Introduction 1.1 General Introduction The progression in the field of natural language processing has been sig- nificantly accelerated with the advent of large language models (LLMs). Models like GPT-3, BERT, and their successors have drastically improved our proficiency in processing, understanding, and generating text that is remarkably human-like.

These models have been meticulously trained on vast collections of text, which has endowed them with a nuanced understanding of language. This breakthrough has laid a foundation for pioneering applications in several linguistic tasks, repre- senting a formidable leap in technology that has transformed the way we interact with machines. SQL’s role in managing and analyzing data within relational databases is indisputably vital in our modern data-centric world. The ubiquity of SQL across various sectors underscores its importance for organizing and retrieving critical data.According to the yearly survey conducted by StackOverflow[1], SQL main- tains its status as one of the globally dominant languages.

It is observed that among the technologies professionals most frequently utilize, JavaScript, HTM- 1 Ho Chi Minh University of Technology Faculty of Computer Science and Engineering L/CSS, and SQL emerge as the top three, with JavaScript and HTML/CSS nearly reaching parity as the leading languages for coding novices Figure 1.1: Percentage of Programming Language used by Professional Developers[1] The task of converting natural language into SQL commands, known as Text-to-SQL, has gained prominence. It grants non-experts the ability to access database information, significantly broadening the scope of data utility and facil- itating informed decision-making across diverse user groups. While LLMs hold the potential to simplify the interaction between natural language and SQL queries, the task of Text-to-SQL generation comes with dis- tinct challenges. LLMs need to acquire a profound semantic understanding of the queries, efficiently generate SQL commands, and interpret the users’ intent with high accuracy.

The intricacies involved in SQL’s structure and the variable na- ture of natural language queries add layers of complexity to this task. Integrating LLMs into Text-to-SQL systems is a complex endeavor that goes beyond techni- cal challenges. It requires the selection of suitable models, rigorous experimental design, and the development of reliable metrics to gauge performance. In addi- tion, it is imperative to consider the wider implications on user experience and 2 Ho Chi Minh University of Technology Faculty of Computer Science and Engineering database functionality, striving towards a solution that is not only seamless and efficient but also scalable.2 Overview about Text-to-SQL In the current era, data has become a critical asset essential for a wide range of human endeavors, encompassing both commercial activities and scien- tific investigations.

However, the burgeoning volume and escalating intricacy of data present significant challenges in its querying and exploration, even for those with expertise in the field. Present-day data query interfaces are generally bifur- cated into two categories: form-based interfaces, which are user-friendly but offer constrained querying capabilities, and more advanced, low-level tools. These ad- vanced tools permit the synthesis of queries in native database languages, such as SQL, but are primarily designed for a specialized audience, like SQL profes- sionals. To democratize data access and utilization, ensuring that everyone can effectively engage with, comprehend, and extract value from data, it is crucial to remove the technical obstacles that hinder data accessibility and reduce reliance on IT specialists.

Adopting natural language for query expression can democra- tize data accessibility. In this vein, there is a growing scholarly interest in the development of Nat- ural Language (NL) Interfaces for Databases (NLIDBs).

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ với tiêu đề "Ứng dụng mô hình ngôn ngữ lớn trong chuyển đổi văn bản thành SQL" của tác giả Nguyễn Vinh Khiêm, dưới sự hướng dẫn của các giảng viên PGS.TS Huỳnh Tường Nguyên và PGS.TS Quân Thành Thọ, nghiên cứu về cách áp dụng các mô hình ngôn ngữ lớn để tự động hóa quá trình chuyển đổi văn bản tự nhiên thành câu lệnh SQL. Nghiên cứu này không chỉ giúp nâng cao hiệu quả trong việc truy xuất dữ liệu mà còn mở ra những ứng dụng mới trong lĩnh vực công nghệ thông tin, đặc biệt là trong việc phát triển các hệ thống quản lý cơ sở dữ liệu thông minh.

Để hiểu rõ hơn về những ứng dụng và khía cạnh khác trong lĩnh vực công nghệ thông tin, bạn có thể tham khảo thêm bài viết Cài đặt và thực nghiệm SQLCipher trên hệ điều hành Android cho luận văn thạc sĩ, nơi nghiên cứu về việc bảo mật dữ liệu trong các ứng dụng di động, hoặc Các Tấn Công Tích Cực Lên Hệ Thống Thông Tin Di Động 5G, giúp bạn nắm bắt những thách thức trong bảo mật hệ thống thông tin hiện đại. Cùng với đó, bài viết Giao Thức Xác Thực Cho Thiết Bị IoT Qua Bluetooth Low Energy cũng sẽ cung cấp thêm cái nhìn về các giao thức bảo mật trong môi trường Internet of Things, một lĩnh vực đang phát triển mạnh mẽ hiện nay.

Những liên kết này không chỉ giúp bạn mở rộng kiến thức mà còn cung cấp nhiều góc nhìn khác nhau về các xu hướng và thách thức trong lĩnh vực công nghệ thông tin.

#Phân tích dữ liệu

#trí tuệ nhân tạo

#cơ sở dữ liệu

#mô hình ngôn ngữ lớn

#chuyển đổi văn bản thành SQL

#ngôn ngữ tự nhiên

Chủ đề

Ứng dụng trí tuệ nhân tạo trong lập trình

Công nghệ xử lý ngôn ngữ tự nhiên

Phát triển hệ thống cơ sở dữ liệu

Tương lai của tự động hóa trong lập trình