Báo cáo tổng kết nghiên cứu khoa học của sinh viên Khoa Công nghệ Thông tin

Tài liệu nghiên cứu Đề tài nghiên cứu khoa học xây dựng mô hình trích xuất thực thể từ tài liệu đặc tả cơ sở dữ liệu, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên

Trường đại học

Trường Đại Học Sư Phạm TP. Hồ Chí Minh

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

báo cáo

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

DANH MỤC CÁC BẢNG BIỂU

DANH MỤC CÁC HÌNH VẼ

1. CHƯƠNG 1: TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU

1.1. Giới thiệu đề tài

1.2. Tổng quan tình hình nghiên cứu

1.3. Một số thách thức trong lĩnh vực nghiên cứu xây dựng ERM từ ngôn ngữ tự nhiên

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. Tổng quan về ITFASBEÍGTHIET

2.2. Tuyến tính hóa bộ ba

2.3. Xây dựng bộ dữ liệu

2.3.1. Bộ dữ liệu nhãn

2.3.2. Dữ liệu gán nhãn thủ công

2.3.3. Dữ liệu hoàn thiện cho nghiên cứu

3. CHƯƠNG 3: XÂY DỰNG BỘ DỮ LIỆU

4. CHƯƠNG 4: XÂY DỰNG MÔ HÌNH

4.1. Bài toán rút trích và phân loại quan hệ

4.2. Quá trình huấn luyện mô hình REBEL

4.3. Tinh chỉnh mô hình REBEL

4.4. Quá trình kiểm thử

5. CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ

5.1. Môi trường thực nghiệm

5.2. Về ngôn ngữ lập trình

6. CHƯƠNG 6: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Báo Cáo Tổng Kết NCKH Sinh Viên CNTT Là Gì

Trong bối cảnh phát triển nhanh chóng của công nghệ thông tin, việc tự động hóa quy trình phát triển phần mềm ngày càng quan trọng. Báo cáo tổng kết NCKH sinh viên CNTT đóng vai trò then chốt, giảm sự phụ thuộc vào công việc thủ công và nâng cao độ chính xác của thiết kế cơ sở dữ liệu. ERM (Entity-Relationship Model) là bước đầu tiên để triển khai các giải pháp công nghệ trong môi trường chuyển đổi số. ERM cung cấp một cách tiếp cận logic để mô tả cấu trúc dữ liệu, tập trung vào thực thể, quan hệ, và thuộc tính. Thực thể là các đối tượng thực tế, thuộc tính mô tả đặc điểm của thực thể, và quan hệ là mối liên kết giữa chúng. Việc tự động hóa quá trình thiết kế ERM giúp tiết kiệm thời gian, công sức, và tạo ra các mô hình cơ sở dữ liệu đồng nhất và chính xác, tăng cường khả năng hiểu và quản lý dữ liệu. Sự phổ biến của dữ liệu ngôn ngữ tự nhiên đặt ra thách thức lớn, và việc tự động tạo sơ đồ ER từ đó tối ưu hóa quy trình phát triển phần mềm. Sự kết hợp giữa phương pháp dựa trên quy tắc và học sâu mở ra cơ hội tự động hóa, đồng thời cung cấp bước tiến quan trọng trong phát triển ứng dụng trí tuệ nhân tạo liên quan đến xử lý ngôn ngữ tự nhiên và trích xuất thông tin.

1.1. ERM Mô Hình Thực Thể Quan Hệ Nền Tảng Thiết Kế CSDL

Entity-Relationship Model (ERM) là một mô hình lý thuyết quan trọng trong lĩnh vực cơ sở dữ liệu. Được đề xuất bởi Peter Chen vào những năm 1970, ERM cung cấp một cách tiếp cận logic và hệ thống để mô tả cấu trúc dữ liệu. Mô hình này tập trung vào ba thành phần chính: thực thể, quan hệ và thuộc tính. ERM giúp định rõ các quan hệ giữa các thực thể và thuộc tính, cho phép các nhà phát triển và quản trị cơ sở dữ liệu làm việc với dữ liệu một cách có tổ chức và có ý nghĩa. Đồng thời, ERM cũng là cơ sở để tạo ra các biểu diễn đồ họa trực quan hóa cấu trúc dữ liệu.

1.2. Ứng Dụng Của Báo Cáo Tổng Kết NCKH Sinh Viên CNTT Trong Thực Tế

Việc tự động hóa quá trình thiết kế ERM không chỉ giảm bớt thời gian và công sức mà còn tạo ra các mô hình cơ sở dữ liệu chính xác và đồng nhất, từ đó tăng cường khả năng hiểu và quản lý dữ liệu cho các ứng dụng phần mềm. Việc tạo ra sơ đồ ER từ dữ liệu ngôn ngữ tự nhiên giúp tối ưu hóa quy trình phát triển phần mềm và giảm bớt công sức và thời gian của các nhà phát triển. Sự kết hợp giữa hai phương pháp phổ biến nhất hiện nay dựa trên quy tắc và học sâu mở ra cơ hội cho việc tự động hóa thiết kế mô hình ER.

II. Thách Thức Tại Sao Tổng Kết NCKH Sinh Viên CNTT Khó Khăn

Việc thiết kế thủ công một mô hình ER là một công việc đầy thách thức. Các phương pháp gần đây chỉ ra hai bước để tự động tạo ra các mô hình ER từ các yêu cầu được mô tả bằng ngôn ngữ tự nhiên. Đầu tiên, các thực thể và thuộc tính được trích xuất, sau đó là mỗi quan hệ giữa chúng. Tuy nhiên, các phương pháp NL2ERM hiện tại (chủ yếu phương pháp áp dụng quy tắc dựa trên phương pháp Heuristic) thường gặp hai hạn chế lớn. Thứ nhất, cần một số lượng lớn các quy tắc để xử lý các từ đồng nghĩa với nhau. Thứ hai, cần phải nhiều quy tắc để áp dụng cho nhiều mẫu câu khác nhau mà đôi khi các câu này lại đồng nghĩa với nhau. Điều này đôi khi dẫn đến việc không áp dụng các quy tắc hiện có vào các trường hợp mới. So sánh với các phương pháp dựa trên quy tắc, các mô hình NL2ERM dựa trên học sâu có khả năng tổng quát hóa tốt hơn cho các nhiệm vụ đa dạng.

2.1. Hạn Chế Của Phương Pháp Truyền Thống Trong Tổng Kết NCKH

Các phương pháp NL2ERM hiện tại (chủ yếu phương pháp áp dụng quy tắc dựa trên phương pháp Heuristic) thường gặp hai hạn chế lớn. Thứ nhất, cần một số lượng lớn các quy tắc để xử lý các từ đồng nghĩa với nhau. Ví dụ, có một quy tắc được sử dụng rộng rãi: nếu hai danh từ được phân tách bằng "have" hoặc "has", thì danh từ trước đó là một thực thể, và các danh từ sau đó là một thuộc tính. Tuy nhiên, có rất nhiều câu mà quy tắc không thể xử lý vì các câu sử dụng các từ đồng nghĩa của động từ "have" (như "own", "contain", và "possess") không nằm trong phạm vi của quy tắc.

2.2. Thiếu Hụt Dữ Liệu Lớn Cho Mô Hình Học Sâu Trong NCKH Sinh Viên

Có hai lý do chính dẫn đến sự thiếu hụt tập dữ liệu quy mô lớn cần thiết cho các mô hình này, mà không có sẵn từ các nghiên cứu trước đó. Thứ nhất, chỉ có một số lượng nhỏ các mục dữ liệu trong các tập dữ liệu trước đó, và không có tập dữ liệu công khai được phát hành bởi các tác giả. Hầu hết các nghiên cứu trước đó đánh giá các phương pháp đề xuất của họ dựa trên các trường hợp nghiên cứu. Thứ hai, việc huấn luyện một mô hình dựa trên học sâu cần các mục dữ liệu được chú thích chi tiết cụ thể (fine-grained annotations) và nếu được chú thích ở mức token (token-level annotation) có thể cải thiện đáng kể hiệu suất của mô hình.

2.3. Sự cần thiết phải có một tập dữ liệu quy mô lớn được chú thích chi tiết

Dữ liệu được sử dụng trong các nghiên cứu trước đó không chú thích rằng các token nào trong các lời nói tương ứng với các thực thể/thuộc tính cụ thể. Do đó, trong nghiên cứu này chúng tôi đề xuất sử dụng tập dữ liệu text-to-SQL và áp dụng một thuật toán chuyên đổi để chuyên đổi thành tập dữ liệu NL2ERM. Đồng thời, chúng tôi cũng kết hợp với việc thu thập và gán nhãn cho một tập dữ liệu bổ sung, nhằm làm phong phú thêm nguồn tài nguyên dữ liệu.

III. Phương Pháp Mới Rút Trích ERM Từ Ngôn Ngữ Tự Nhiên Dễ Dàng

Để giải quyết những hạn chế trên, nghiên cứu này đề xuất sử dụng tập dữ liệu text-to-SQL và áp dụng một thuật toán chuyển đổi để chuyển đổi thành tập dữ liệu NL2ERM. Đồng thời, cũng kết hợp với việc thu thập và gán nhãn cho một tập dữ liệu bổ sung, nhằm làm phong phú thêm nguồn tài nguyên dữ liệu. Qua đó, hy vọng rằng việc sử dụng tập dữ liệu kết hợp này sẽ cung cấp một cơ sở dữ liệu phong phú và đa dạng hơn, góp phần nâng cao hiệu suất của các mô hình NL2ERM dựa trên học sâu. Bởi vì NL2ERM có thể được xem là dạng đặc biệt của bài toán trích xuất thông tin (Information Extract - IE) [14], nên chúng tôi sử dụng mô hình rút trích quan hệ REBEL [6] để huấn luyện dựa trên tập dữ liệu đã đề xuất trước đó.

3.1. Mô Hình REBEL Giải Pháp Rút Trích Quan Hệ Tự Động Cho NCKH

Mô hình REBEL dùng để trích xuất nhiều loại thực thể và mối quan hệ giữa chúng dựa trên văn bản đầu vào. Để áp dụng tập dữ liệu đặc thù vào mô hình này, chúng tôi sẽ xem thực thể và thuộc tính trong NL2ERM là thực thể trong IE; đồng thời mối quan hệ thực thể - thuộc tính và thực thể - thực thể trong NL2ERM sẽ là hai loại quan hệ trong IE. Sau khi rút trích được sẽ từ đó chuyền thành các thực thể với các thuộc tính của thực thể, mối quan hệ giữa các thực thể với nhau tạo thành sơ đồ thực thể - quan hệ hoàn chỉnh.

3.2. Áp Dụng REBEL Vào Tổng Kết NCKH Quy Trình Chuyển Đổi Chi Tiết

Để áp dụng tập dữ liệu đặc thù vào mô hình này, chúng tôi sẽ xem thực thể và thuộc tính trong NL2ERM là thực thể trong IE; đồng thời mối quan hệ thực thể - thuộc tính và thực thể - thực thể trong NL2ERM sẽ là hai loại quan hệ trong IE. Sau khi rút trích được sẽ từ đó chuyền thành các thực thể với các thuộc tính của thực thể, mối quan hệ giữa các thực thể với nhau tạo thành sơ đồ thực thể - quan hệ hoàn chỉnh.

IV. Ứng Dụng Kết Quả Nghiên Cứu Và Đánh Giá Mô Hình NCKH Sinh Viên

Đánh giá kết quả đạt được sau khi áp dụng mô hình REBEL vào báo cáo tổng kết NCKH sinh viên CNTT. So sánh hiệu quả của mô hình với các phương pháp truyền thống. Phân tích ưu điểm và nhược điểm của mô hình REBEL trong việc trích xuất thực thể và quan hệ. Thảo luận về khả năng ứng dụng thực tế của mô hình trong việc tự động hóa thiết kế cơ sở dữ liệu. Cung cấp các ví dụ cụ thể về việc mô hình REBEL đã giúp cải thiện quy trình tổng kết NCKH sinh viên CNTT như thế nào.

4.1. Thống Kê Chi Tiết Kết Quả Thực Nghiệm Mô Hình REBEL Cho NCKH

Thống kê kết quả dữ liệu sau khi áp dụng thuật toán (quan hệ ở đây bao gồm hai loại là quan hệ giữa thực thể - thuộc tính và giữa thực thể - thực thể). Thống kê kết quả dữ liệu được gán nhãn thủ công. Các tham số huấn luyện mô hình REBEL. Cấu hình sử dụng. Thống kê kết quả trong quá trình kiểm thử mô hình. So sánh kết quả giữa hai mô hình REBEL và ER-Gen.

4.2. Phân Tích Ưu Điểm Và Nhược Điểm Của REBEL Trong NCKH Sinh Viên CNTT

Phân tích ưu điểm và nhược điểm của mô hình REBEL trong việc trích xuất thực thể và quan hệ. Thảo luận về khả năng ứng dụng thực tế của mô hình trong việc tự động hóa thiết kế cơ sở dữ liệu. Cung cấp các ví dụ cụ thể về việc mô hình REBEL đã giúp cải thiện quy trình tổng kết NCKH sinh viên CNTT như thế nào.

V. Kết Luận Hướng Phát Triển Cho Tổng Kết NCKH Sinh Viên CNTT

Tóm tắt những kết quả chính của nghiên cứu về việc ứng dụng mô hình REBEL vào báo cáo tổng kết NCKH sinh viên CNTT. Nhấn mạnh tầm quan trọng của việc tự động hóa quy trình thiết kế cơ sở dữ liệu. Đề xuất các hướng phát triển tiếp theo cho nghiên cứu, bao gồm cải thiện độ chính xác của mô hình, mở rộng phạm vi ứng dụng, và tích hợp với các công cụ khác. Khuyến khích các nghiên cứu tiếp theo tập trung vào việc xây dựng các tập dữ liệu lớn hơn và đa dạng hơn để huấn luyện mô hình. Thúc đẩy việc ứng dụng các kết quả nghiên cứu vào thực tế, giúp sinh viên và giảng viên khoa Công nghệ Thông tin nâng cao hiệu quả nghiên cứu khoa học.

5.1. Đề Xuất Cải Tiến Mô Hình REBEL Để Nâng Cao Hiệu Quả NCKH

Đề xuất các hướng phát triển tiếp theo cho nghiên cứu, bao gồm cải thiện độ chính xác của mô hình, mở rộng phạm vi ứng dụng, và tích hợp với các công cụ khác. Khuyến khích các nghiên cứu tiếp theo tập trung vào việc xây dựng các tập dữ liệu lớn hơn và đa dạng hơn để huấn luyện mô hình.

5.2. Tích Hợp Kết Quả NCKH Vào Thực Tế Lợi Ích Cho Sinh Viên CNTT

Thúc đẩy việc ứng dụng các kết quả nghiên cứu vào thực tế, giúp sinh viên và giảng viên khoa Công nghệ Thông tin nâng cao hiệu quả nghiên cứu khoa học. Nêu bật tầm quan trọng của việc ứng dụng NCKH vào quá trình học tập và làm việc.

19/04/2025

Bạn đang xem trước tài liệu:

Đề tài nghiên cứu khoa học xây dựng mô hình trích xuất thực thể từ tài liệu đặc tả cơ sở dữ liệu

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương 1: Tổng quan tình hình nghiên cứu. - Chương 2: Cơ sở lý thuyết - Chương 3: Xây dựng bộ dữ liệu. - Chương 4: Mô hình rút trích ERM - Chương 5: Thực nghiệm và đánh giá - Chương 6: Kết luận và hướng phát triển. TONG QUAN TINH HÌNH NGHIÊN CỨU 1.1 Giới thiệu đề tài Nhiệm vụ của việc thiết kế mô hình dit liệu là tạo ra một cấu trúc dit liệu cơ bản cho hệ thống đang được phát trién.

Trong lĩnh vực này, một dang mô hình dữ liệu phô biến là mô hình thực thé - quan hệ (ER), đóng vai trò quan trong trong việc thiết kế cơ sở dữ liệu. Tuy nhiên, việc thiết kế một mô hình ER thủ công là một công việc day thách thức. Các phương pháp gan đây đã chỉ ra hai bước dé tự động tao ra các mô hình ER từ các yêu cầu được mô tả băng ngôn ngữ tự nhiên (NL). Đầu tiên, các thực thê và thuộc tính được trích xuất, sau đó là mỗi quan hệ giữa chúng.

Tuy nhiên, các phương pháp NL2ERM hiện tại (chủ yếu phương pháp áp dụng quy tắc dựa trên phương pháp Heuristic) thường gặp hai hạn chế lớn. Thứ nhất, cần một số lượng lớn các quy tắc dé xử lý các từ đồng nghĩa với nhau. Ví dụ, có một quy tắc được sử dụng rộng rãi: néu hai danh từ được phân tách bằng "have" hoặc "has", thì danh từ trước đó là một thực thể, và các danh từ sau đó là một thuộc tính. Tuy nhiên, có rất nhiều câu mả quy tắc không thê xử lý vì các câu sử dụng các từ đồng nghĩa của động từ "have" (như "own", "contain", và "possess") không nằm trong phạm vi của quy tắc.

Thứ hai, cần phải nhiều quy tắc dé áp dung cho nhiều mẫu câu khác nhau mà đôi khi các câu này lại đồng nghĩa với nhau. Ví dụ, có một quy tắc được sử dụng rộng rãi: các danh từ liên tiếp được phân tách bằng dau phẩy hoặc "and" được coi là các thuộc tính [8, 9]. Tuy nhiên, câu "Students are described by name and age" có thê được viết là "Students not only have the name, but have the age as well", và mẫu sau của câu này không thuộc phạm vi áp dụng cho quy tắc đó. Điều này đôi khi dẫn đến việc không áp dụng các quy tắc hiện có vào các trường hợp mới.

So sánh với các phương pháp dựa trên quy tắc, các mô hình NL2ERM dựa trên học sâu có khả năng tông quát hóa tốt hơn cho các nhiệm vụ đa dang [10-12]. Tuy nhiên, có hai lý đo chính dẫn đến sự thiếu hụt tập dữ liệu quy mô lớn cần thiết cho các mô hình nay, mà không có sẵn từ các nghiên cứu trước đó. Thứ nhất, chỉ có một số lượng nhỏ các mục dir liệu trong các tập dữ liệu trước đó, và không có tập dir liệu công khai được phát hành bởi các tác gid. Hầu hết các nghiên cứu trước đó đánh giá các phương pháp đề xuất của họ dựa trên các trường hợp nghiên cứu.

Một ngoại lệ là ER - Converter, được đánh giá trên một tập dữ liệu với 30 mục, nhưng tập dữ liệu này không được công khai. Thứ hai, việc huan luyện một mô hình dựa trên học sâu cân các mục dữ liệu được chú thích chỉ tiết cụ thé (fine-grained annotations) và nếu được chú thích ở mức token (token-level annotation) có thé cai thiện đáng ké hiệu suất của mô hình. Tuy nhiên, dữ liệu được sử dụng trong các nghiên cứu trước đó không chú thích rằng các token nào trong các lời nói tương ứng với các thực thé/thude tính cụ thé. Do đó, trong nghiên cửu nay chúng tôi dé xuất sử dung tập dit liệu text-to-SQL và áp dung một thuật toán chuyên đôi dé chuyên đồi thành tập dữ liệu NL2ERM [13].

Đồng thời, chúng tôi cũng kết hợp với việc thu thập và gan nhãn cho một tap dir liệu bổ sung, nhằm làm phong phú thêm nguồn tài nguyên dir liệu. Qua đó, chúng tôi hy vọng rằng việc sử đụng tập dir liệu kết hợp này sẽ cung cấp một cơ sở dit liệu phong phú và đa dang hon, góp phan nâng cao hiệu suất của các mô hình NL2ERM dựa trên học sâu. Bởi vì NL2ERM có thê được xem là dạng đặc biệt của bài toán rút trích thông tin (Information Extract - IE) [14], nên chúng tôi sử dụng mô hình rút trích quan hệ REBEL [6] dé huấn luyện dựa trên tập dữ liệu đã dé xuất trước đó. Mô hình REBEL dùng dé trích xuất nhiều loại thực thé và mối quan hệ giữa chúng dựa trên van bản đầu vào, Dé áp dụng tap dit liệu đặc thù vào mô hình này, chúng tôi sẽ xem thực thé và thuộc tính trong NL2ERM 1a thực thé trong IE; đồng thời mối quan hệ thực thé - thuộc tính và thực thẻ - thực thé trong NL2ERM sé là hai loại quan hệ trong IE, Sau khi rút trích được sẽ từ đó chuyền thành các thực thé với các thuộc tinh của thực thé, môi quan hệ giữa các thực thé với nhau tạo thành sơ đề thực thể - quan hệ hoàn chỉnh.

Mục tiêu chính của nghiên cứu nảy là dé xuất một phương pháp để tự động nhận điện các thành phần quan trọng trong yêu cầu, bao gồm các thực thẻ, thuộc tính của chúng, và mối quan hệ giữa các thực thé, từ đó tạo ra sơ đồ ER một cách tự động.2 Tổng quan tình hình nghiên cứu Trong những năm gan đây, đã có nhiều nghiên cứu vẻ trích xuất thực thê từ bài toán mô tả cơ sở đữ liệu, chủ yếu là các phương pháp áp dụng quy tắc dựa trên phương l4 pháp Heuristic. Điển là một công cụ dùng dé thiết kế khái niệm mới đã được phat triển [15] với mục tiêu chuyên đôi các yêu cầu được mô tả bằng ngôn ngữ tự nhiên thành một mô hình EER (Enhanced Entity-Relationship) một cách hiệu quả và chính xác. Quá trình biến đôi này dựa trên việc khai thác ý nghĩa của các khái niệm mô hình dữ liệu từ cầu trúc của ngôn ngữ tự nhiên. Thuật toán phan tích tiên tiền tận dụng thông tin về ngữ pháp và từ vựng, tạo ra các kết quả phân tích chỉ tiết.

Các kết quả này sau đó được tinh chỉnh thông qua các quy tắc và heuristics, tạo ra một môi trường tương tác giữa thông tin ngôn ngữ và kiến thức thiết kể. Công cụ nảy hoạt động tương tác dé xử lý thông tin mơ hô, không day đủ hoặc dư thừa trong quá trình chuyên đôi. Kết quả của nghiên cứu này dé xuất một cách tiếp cận sáng tạo và tiện lợi trong việc chuyển đổi yêu cầu từ ngôn ngữ tự nhiên thành mô hình dif liệu, mở ra tiềm năng ứng dụng rộng rai trong lĩnh vực phát triển phan mém và quản lý dit liệu. Dựa vào ý tưỡng trên, các hướng nghiên cứu sử dụng ngôn ngữ tự nhiên tạo thành đầu vào và áp dụng Heuristic được phát triển và cải tiền theo các cách khác nhau [16- 19].

Các phương pháp này dựa trên việc áp dụng các Heuristics ngữ nghĩa như một chiến lược để xác định các thực thé, thuộc tính và mỗi quan hệ tương ứng trong mô hình ER. Gomez và các cộng sự [16] đã quan sát thay rằng việc áp dụng Heuristics cú pháp kết hợp biểu diễn dưới dạng biểu diễn tri thức đã cho ra kết quả có tính khả thi và chính xác trong việc nhận diện các yếu tô quan trọng của mô hình ER. Một phương pháp khác [17] được đẻ xuất sử dụng xử lý ngôn ngữ tự nhiên (NLP) cùng với các biéu đỏ khái niệm dé tự động tạo ra một mô hình khái niệm từ các mô tả văn bản về các kịch bản sử dụng bằng tiếng Tây Ban Nha. Phương pháp này đôi mặt với các vấn dé ngôn ngữ phức tạp xuất hiện trong các mô tả văn ban, như sự kết hợp của các danh từ va các biểu thức động từ trong tiếng Tây Ban Nha.

Mục tiêu của nó là định nghĩa một quy trình sản xuất phần mềm toàn điện bắt đầu từ việc định nghĩa ngôn ngữ tự nhiên của các yêu cầu hệ thông và kết thúc với việc tao ra hệ thống thông tin. Suman và các cộng sự [20] cũng trình bảy một phương pháp mới cho việc tự động hóa mô hình dữ liệu quan hệ - thực thé từ mô tả kinh doanh (BD) được biéu đạt 15 bang ngôn ngữ tự nhiên, giải quyết các thách thức nam trong việc giải thích ngữ nghĩa phức tap của các yêu cầu văn bản. Sử dụng phương pháp dựa trên kho dữ liệu, các tác giả đã phát triên một bộ phân loại câu có kha năng gắn các câu vào các lớp phương pháp ER cụ thé, từ đó tạo điều kiện dé đàng cho việc dịch ngôn ngữ tự nhiên thành mô hình dit liệu ER hình thức. Bộ phân loại thé hiện sự chuyên môn của các chuyên gia mô hình dữ liệu thông qua quy trình phân loại dựa trên quy tắc, dựa vào các mẫu được xác định trong kho dit liệu mô tả kinh đoanh.

Kho dit liệu này bao gồm một bộ từ vụng toản diện và tuân theo các quy tắc ngữ pháp cụ thê được thiết kế để giảm bớt sự mơ hỗ và phức tap của ngôn ngữ tự nhiên. Nghiên cứu cho thay tỷ lệ chính xác cao trong cả hai giai đoạn học và thử nghiệm của việc phát triển bộ phân loại, với các chỉ số độ chính xác, độ nhớ và độ chính xác vượt quá 95% ở hầu hết các danh mục. Btoush và Hammad [21] vẫn áp đụng phương pháp quy tắc dé tạo ra mô hình ER, nhưng với nhiều cải tiến: sử dụng nhiều quy tắc rõ ràng hon, phân tích cau trúc câu thành cây cú pháp từ đó áp dụng quy tắc chính xác hơn, có thẻ hoàn chỉnh sơ đồ ER một cách hoàn chỉnh. Tuy nhiên vẫn còn các nhược điểm chung là bắt buộc đầu vào phải được định theo các quy tắc được đặt ra, khiến cho việc tuỳ biến của người dùng nhập vào vẫn còn nhiều hạn chế.

Hettiarachchi và các cộng sự [9] áp dụng phương pháp quy tắc dé tạo ra mô hình ER tir ngôn ngữ tự nhiên làm đầu vào va ding ngôn ngữ tự nhiên để chuyển thành các câu lệnh SQL dựa trên các quy tắc chung giữa ER và SQL như thực thê - bảng, thuộc tính - cột, quan hệ - khóa ngoại giữa các bang. Ahmed và các cộng sự [8] sử dụng các kỹ thuật NLP như Tokenization, POS Tagging dé tiền xử lý dữ liệu và áp dụng phương pháp quy tắc cho ra được kết qua là sơ đồ ER được biểu điển đưới dang hình vẽ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Báo cáo tổng kết nghiên cứu khoa học sinh viên Khoa Công nghệ Thông tin cung cấp cái nhìn tổng quan về các hoạt động nghiên cứu của sinh viên trong lĩnh vực công nghệ thông tin. Tài liệu này không chỉ tóm tắt các kết quả nghiên cứu mà còn nêu bật những thách thức và cơ hội mà sinh viên gặp phải trong quá trình thực hiện các dự án khoa học. Đặc biệt, báo cáo khuyến khích sinh viên phát triển tư duy sáng tạo và khả năng giải quyết vấn đề, từ đó nâng cao chất lượng đào tạo và nghiên cứu trong ngành.

Để mở rộng thêm kiến thức về các chủ đề liên quan, bạn có thể tham khảo Khoá luận tốt nghiệp sư phạm hoá học tổng hợp và khảo sát các yếu tố ảnh hưởng đến quá trình điều chế zeolite x từ tro trấu, nơi bạn sẽ tìm thấy thông tin về các yếu tố ảnh hưởng trong nghiên cứu khoa học. Ngoài ra, Khoá luận tốt nghiệp xây dựng ứng dụng android ôn luyện trắc nghiệm tiếng anh sẽ giúp bạn hiểu thêm về ứng dụng công nghệ trong giáo dục. Cuối cùng, Kỷ yếu hội thảo khoa học cấp trường nghiên cứu và ứng dụng tâm lý học vào hoạt động dạy học nhằm nâng cao chất lượng đào tạo ở trường đại học luật hà nội sẽ mang đến những góc nhìn mới về việc áp dụng tâm lý học trong giáo dục, một khía cạnh quan trọng trong việc nâng cao hiệu quả giảng dạy.

#phương pháp nghiên cứu

#báo cáo nghiên cứu

#Khoa Công nghệ Thông tin

#nghiên cứu khoa học sinh viên

#kết quả nghiên cứu khoa học

#tổng kết nghiên cứu

Chủ đề

Nghiên cứu khoa học trong giáo dục

Phát triển công nghệ thông tin

Vai trò của sinh viên trong nghiên cứu

Đánh giá kết quả nghiên cứu khoa học