Trường đại học
University of Illinois at Urbana-ChampaignChuyên ngành
Computer ScienceNgười đăng
Ẩn danhThể loại
thesis2006
Phí lưu trữ
30.000 VNĐMục lục chi tiết
Tóm tắt
Luận án tiến sĩ của Xifeng Yan tập trung vào việc khai thác dữ liệu, lập chỉ mục, và tìm kiếm tương đồng trong tập dữ liệu đồ thị lớn. Nghiên cứu này nhấn mạnh sự cần thiết của các thuật toán phân tích có khả năng mở rộng để xử lý các đồ thị lớn, đặc biệt trong các lĩnh vực như sinh học tính toán và kỹ thuật phần mềm. Đồ thị được sử dụng rộng rãi để biểu diễn các cấu trúc phức tạp như protein, hợp chất hóa học, và luồng chương trình. Việc phân tích thủ công các đồ thị lớn là không khả thi, do đó, các công cụ tự động hóa là cần thiết.
Nghiên cứu này xuất phát từ nhu cầu thực tế trong việc phân tích đồ thị và tìm kiếm tương đồng trong các tập dữ liệu đồ thị lớn. Các ứng dụng như phân tích mạng protein, tìm kiếm hợp chất hóa học, và phân tích luồng chương trình đòi hỏi các giải pháp hiệu quả. Việc khai thác các mẫu đồ thị và xây dựng chỉ mục là hai vấn đề cốt lõi được đề cập trong luận án.
Luận án đề xuất một hệ thống gán nhãn đồ thị, gSpan, để giải quyết vấn đề khai thác dữ liệu trong tập dữ liệu đồ thị lớn. gSpan loại bỏ sự cần thiết của các phép nối đồ thị, giúp giảm chi phí tính toán. Nghiên cứu cũng chỉ ra rằng việc khai thác các mẫu đồ thị thường xuyên là một bài toán NP-đầy đủ, đòi hỏi các giải pháp tối ưu hóa.
Phương pháp này dựa trên nguyên lý Apriori để khai thác các mẫu đồ thị thường xuyên. Tuy nhiên, nó tạo ra nhiều ứng viên không cần thiết, dẫn đến chi phí tính toán cao.
Phương pháp này tập trung vào việc mở rộng các mẫu đồ thị hiện có thay vì tạo ra các ứng viên mới, giúp giảm chi phí tính toán và cải thiện hiệu suất.
Luận án giới thiệu gIndex, một phương pháp lập chỉ mục hiệu quả cho tập dữ liệu đồ thị lớn. gIndex sử dụng các mẫu đồ thị thường xuyên và có tính phân biệt để xây dựng chỉ mục, giúp giảm kích thước chỉ mục và cải thiện tốc độ tìm kiếm. Phương pháp này vượt trội so với các phương pháp truyền thống về cả kích thước và hiệu suất.
Phương pháp này tập trung vào việc chọn lọc các đoạn đồ thị có tính phân biệt cao để xây dựng chỉ mục, giúp giảm số lượng mục chỉ mục và cải thiện hiệu suất tìm kiếm.
Luận án cũng đề xuất các phương pháp để duy trì chỉ mục khi có sự thay đổi trong tập dữ liệu đồ thị, đảm bảo tính nhất quán và hiệu suất của chỉ mục.
Luận án nghiên cứu các phương pháp tìm kiếm tương đồng trong tập dữ liệu đồ thị lớn, bao gồm tìm kiếm chính xác và tìm kiếm gần đúng. Các phương pháp này được áp dụng trong các lĩnh vực như sinh học tính toán và hóa học, giúp tăng tốc quá trình phân tích và khám phá tri thức.
Phương pháp này tập trung vào việc tìm kiếm các cấu trúc con tương đồng trong đồ thị, giúp xác định các mẫu đồ thị có ý nghĩa trong các ứng dụng thực tế.
Phương pháp này sử dụng khoảng cách chồng chéo để đo lường sự tương đồng giữa các đồ thị, giúp cải thiện độ chính xác của kết quả tìm kiếm.
Luận án cung cấp các nghiên cứu chuyên sâu về phân tích đồ thị, phân loại dựa trên mẫu, và khai thác mẫu có ràng buộc. Các ứng dụng thực tiễn bao gồm phân tích mạng gene, phân tích luồng chương trình để tự động phát hiện lỗi phần mềm, và phân tích hợp chất hóa học trong nghiên cứu dược phẩm.
Nghiên cứu này áp dụng các phương pháp khai thác đồ thị để phân tích mạng gene, giúp xác định các mạng con quan trọng trong các quá trình sinh học.
Luận án đề xuất các phương pháp phân tích luồng chương trình để tự động phát hiện lỗi phần mềm, giúp cải thiện chất lượng phần mềm.
Bạn đang xem trước tài liệu:
Luận án tiến sĩ mining indexing and similarity search in large graph data sets