I. Tổng quan về mô hình mức khái niệm và ontology trong CSDL
Mô hình mức khái niệm là nền tảng thiết kế cơ sở dữ liệu. Các mô hình phổ biến gồm ER, ER mở rộng, TimeER và biểu đồ lớp UML. Mỗi mô hình biểu diễn thực thể, thuộc tính và mối quan hệ theo cách riêng. Ontology là hệ thống tri thức hình thức, dùng ngôn ngữ OWL để biểu diễn ngữ nghĩa trên Web. OWL cung cấp khả năng suy diễn logic mà mô hình ER không có. Sự khác biệt giữa hai hệ thống tạo ra nhu cầu chuyển đổi. Nghiên cứu của Võ Hoàng Liên Minh tại Đại học Huế năm 2021 tập trung giải quyết bài toán này. Luận án đề xuất các quy tắc ánh xạ có hệ thống giữa hai miền tri thức. Mục tiêu là bảo toàn ngữ nghĩa trong quá trình chuyển đổi. Kết quả mở ra hướng tích hợp cơ sở dữ liệu truyền thống với Web ngữ nghĩa. Đây là đóng góp quan trọng cho lĩnh vực khoa học máy tính.
1.1. Các mô hình cơ sở dữ liệu mức khái niệm phổ biến
Mô hình ER do Chen đề xuất năm 1976, biểu diễn dữ liệu qua thực thể và mối quan hệ. Mô hình ER mở rộng bổ sung kế thừa và thực thể yếu. TimeER mở rộng thêm chiều thời gian cho dữ liệu động. Biểu đồ lớp UML là chuẩn công nghiệp, biểu diễn lớp đối tượng với thuộc tính và phương thức. UML hỗ trợ bốn loại quan hệ: kết hợp, kết tập, kế thừa và phụ thuộc. Mỗi mô hình phù hợp với ngữ cảnh ứng dụng khác nhau. Việc lựa chọn mô hình ảnh hưởng trực tiếp đến chiến lược chuyển đổi sang ontology.
1.2. Ontology và ngôn ngữ OWL trong Web ngữ nghĩa
Ontology định nghĩa tập khái niệm và quan hệ trong một miền tri thức cụ thể. Web ngữ nghĩa sử dụng ontology để máy tính hiểu và xử lý dữ liệu tự động. Ngôn ngữ OWL được W3C chuẩn hóa, xây dựng trên nền RDF và RDFS. OWL2 mở rộng khả năng biểu đạt với các tính năng như khóa thuộc tính và hạn chế số lượng. Trình soạn thảo Protégé hỗ trợ xây dựng và kiểm tra ontology trực quan. Reasoner tự động suy diễn tri thức từ ontology đã định nghĩa. Đây là ưu thế vượt trội so với mô hình cơ sở dữ liệu truyền thống.
II. Phân tích thách thức trong chuyển đổi mô hình sang OWL ontology
Chuyển đổi giữa mô hình mức khái niệm và ontology gặp nhiều thách thức kỹ thuật. Hai hệ thống có nền tảng ngữ nghĩa khác nhau căn bản. Mô hình ER tập trung vào cấu trúc lưu trữ, OWL tập trung vào biểu đạt tri thức. Các thành phần như thuộc tính đa trị phức hợp lồng nhau không có tương đương trực tiếp trong OWL. Mối quan hệ phản xạ và thuộc tính có yếu tố thời gian trong TimeER cần quy tắc ánh xạ đặc biệt. Chiều ngược lại, trích xuất mô hình ER từ OWL, cũng phức tạp tương đương. Các nghiên cứu trước như của Sikha Bagui chỉ đề xuất 11 quy tắc cơ bản cho OWL1. Nhiều thành phần quan trọng bị bỏ qua: thuộc tính phức hợp, mối quan hệ có thuộc tính, mối quan hệ phản xạ. Olegas Vasilecas chỉ dừng ở bảng ánh xạ tổng quát, thiếu quy tắc chi tiết. Khoảng trống nghiên cứu này là động lực chính của luận án.
2.1. Hạn chế của các nghiên cứu chuyển đổi ER sang OWL trước đây
Các nghiên cứu chuyển đổi ER sang OWL đã đạt kết quả ban đầu quan trọng. Tuy nhiên, phần lớn chỉ xử lý các thành phần cơ bản: tập thực thể, kế thừa, thuộc tính đơn giản. Thực thể yếu và mối quan hệ định danh thường bị bỏ qua. Thuộc tính đa trị phức hợp lồng nhau chưa được giải quyết triệt để. Yếu tố thời gian trong mô hình TimeER không xuất hiện trong bất kỳ nghiên cứu nào trước đó. Mối quan hệ phản xạ cũng thiếu quy tắc ánh xạ rõ ràng. Đây là các khoảng trống nghiên cứu mà luận án tập trung lấp đầy.
2.2. Thách thức trong trích xuất ngược từ OWL về mô hình khái niệm
Dữ liệu định dạng OWL không dễ thao tác hoặc truy vấn trực tiếp. Trích xuất mô hình khái niệm từ OWL là bài toán ánh xạ ngược phức tạp. OWL2 có nhiều cấu trúc không có tương đương trong mô hình ER: anonymous class, property chain, disjointness. Ánh xạ một-nhiều xảy ra khi nhiều cấu trúc OWL có thể dịch về cùng một thành phần ER. Thuộc tính khóa trong OWL2 chưa được các nghiên cứu trước xem xét đúng mức. Trích xuất biểu đồ lớp UML từ OWL đòi hỏi phân tích sâu về tương đồng cấu trúc giữa hai ngôn ngữ.
III. Phương pháp và quy tắc chuyển đổi được đề xuất trong luận án
Luận án đề xuất hệ thống quy tắc chuyển đổi toàn diện theo cả hai chiều. Chiều thuận: từ mô hình mức khái niệm sang OWL. Chiều ngược: từ OWL trích xuất về mô hình mức khái niệm. Với mô hình ER, luận án bổ sung quy tắc cho thực thể yếu, thuộc tính đa trị phức hợp lồng nhau và mối quan hệ phản xạ. Với TimeER, luận án tạo ontology ban đầu biểu diễn yếu tố thời gian, sau đó áp dụng quy tắc chuyển đổi tập thực thể và thuộc tính có thời gian. Với biểu đồ lớp UML, luận án xử lý đầy đủ bốn loại quan hệ và tính truy xuất Public, Private, Protect. Bản số trong UML được ánh xạ chính xác sang các ràng buộc số lượng trong OWL. Hướng ngược lại, luận án định nghĩa ánh xạ ngược có hệ thống từ OWL2 về mô hình ER và biểu đồ lớp UML. Toàn bộ quy tắc được kiểm chứng qua các trường hợp thử nghiệm cụ thể.
3.1. Quy tắc chuyển đổi mô hình ER và TimeER sang OWL
Mỗi tập thực thể ánh xạ thành một OWL Class tương ứng. Mối quan hệ kế thừa Is-A ánh xạ thành rdfs:subClassOf. Thuộc tính đơn trị ánh xạ thành OWL DataProperty, thuộc tính đa trị dùng ObjectProperty với lớp trung gian. Thực thể yếu ánh xạ thành lớp phụ thuộc với ràng buộc existential. Mối quan hệ phản xạ sử dụng owl:TransitiveProperty hoặc owl:ReflexiveProperty. TimeER thêm lớp TimeInterval để biểu diễn khoảng thời gian hiệu lực. Thuộc tính có thời gian được bao bọc trong lớp temporal wrapper với hai thuộc tính validFrom và validTo.
3.2. Quy tắc chuyển đổi biểu đồ lớp UML sang và từ OWL
Mỗi lớp UML ánh xạ thành OWL Class, thuộc tính Public ánh xạ thành DataProperty hoặc ObjectProperty. Quan hệ kết hợp ánh xạ thành ObjectProperty với bản số tương ứng. Quan hệ kết tập dùng owl:partOf, quan hệ kế thừa dùng rdfs:subClassOf. Phương thức không ánh xạ sang OWL vì ontology không mô hình hóa hành vi. Chiều ngược: OWL Class về lớp UML, DataProperty về thuộc tính, ObjectProperty về quan hệ kết hợp. Tính truy xuất mặc định là Public khi trích xuất từ OWL. Khóa OWL2 (owl:hasKey) ánh xạ về thuộc tính định danh trong UML.
IV. Kết luận và ứng dụng thực tiễn của nghiên cứu chuyển đổi ontology
Luận án hoàn thành mục tiêu đề ra với hệ thống quy tắc chuyển đổi đầy đủ và có hệ thống. Ba đóng góp chính được xác nhận. Thứ nhất: bộ quy tắc chuyển đổi ER và TimeER sang OWL bổ sung các thành phần còn thiếu trong nghiên cứu trước. Thứ hai: phương pháp trích xuất ngược từ OWL về mô hình ER và biểu đồ lớp UML được định nghĩa chặt chẽ. Thứ ba: hỗ trợ OWL2 đầy đủ, khắc phục hạn chế của các nghiên cứu chỉ dừng ở OWL1. Ứng dụng thực tiễn rất rộng. Hệ thống thông tin y tế có thể chuyển đổi cơ sở dữ liệu lâm sàng sang ontology y khoa chuẩn quốc tế. Hệ thống giáo dục dùng kết quả để tích hợp CSDL học liệu với ontology giáo dục. Doanh nghiệp áp dụng để kết nối cơ sở dữ liệu truyền thống với nền tảng Web ngữ nghĩa. Hướng nghiên cứu tiếp theo gồm tự động hóa chuyển đổi và xử lý OWL phân tán.
4.1. Đóng góp khoa học nổi bật của luận án tiến sĩ
Luận án lấp đầy khoảng trống trong chuyển đổi TimeER sang OWL, lĩnh vực chưa có công trình nào công bố trước đó. Hệ thống quy tắc cho thuộc tính đa trị phức hợp lồng nhau giải quyết bài toán khó nhất trong ánh xạ ER-OWL. Chiều ngược từ OWL2 về mô hình ER được định nghĩa đầy đủ hơn nghiên cứu của Bagui (2011). Việc xem xét thuộc tính khóa OWL2 trong trích xuất là đóng góp mới so với tất cả các công trình trước. Kết quả được kiểm chứng qua tập thử nghiệm đa dạng, đảm bảo tính đúng đắn.
4.2. Hướng ứng dụng và phát triển tiếp theo
Kết quả luận án áp dụng trực tiếp vào tích hợp dữ liệu doanh nghiệp với Web ngữ nghĩa. Các công cụ chuyển đổi tự động có thể xây dựng dựa trên bộ quy tắc đã định nghĩa. Lĩnh vực y tế và giáo dục là hai thị trường ứng dụng tiềm năng nhất. Hướng phát triển tiếp theo gồm: mở rộng sang SHACL và RDF Schema, xử lý ontology phân tán, tích hợp học máy để tự động đề xuất ánh xạ. Nghiên cứu cũng mở đường cho việc chuẩn hóa quy trình chuyển đổi giữa các hệ thống thông tin không đồng nhất.