SUPPORTING ON-THE-FLY DATA INTEGRATION FOR BIOINFORMATICS DISSERTATION

Luận án tiến sĩ về tích hợp dữ liệu tức thời cho tin sinh học. Nghiên cứu giải pháp, công cụ hỗ trợ tích hợp dữ liệu hiệu quả, linh hoạt trong lĩnh vực tin sinh học.

Trường đại học

The Ohio State University

Người đăng

Ẩn danh

Thể loại

Dissertation

2007

184
1
0

Phí lưu trữ

45 Point

Mục lục chi tiết

ABSTRACT

DEDICATION

ACKNOWLEDGMENTS

PUBLICATIONS

FIELDS OF STUDY

TABLE OF CONTENTS

1. CHAPTER 1: INTRODUCTION

1.1. Motivation

1.2. Our Approach

1.3. Advantages

Tóm tắt

I. Tích hợp dữ liệu On the Fly Tổng quan và ứng dụng 50 60 ký tự

Luận án này tập trung vào việc xây dựng một hệ thống và các công cụ hỗ trợ tích hợp dữ liệu On-the-Fly cho lĩnh vực tin sinh học. Mục tiêu là giảm thiểu sự can thiệp thủ công trong quá trình tích hợp các nguồn dữ liệu mới và giảm chi phí bảo trì khi các nguồn dữ liệu tự động cập nhật. Phương pháp tiếp cận chính dựa trên khai phá dữ liệu và sinh mã tự động. Các nhà sinh học dành rất nhiều thời gian và công sức để truy vấn nhiều nguồn dữ liệu từ xa hoặc cục bộ, chạy các chương trình phân tích dữ liệu và giải thích kết quả. Do đó, tích hợp đã trở thành một giai đoạn quan trọng trong quá trình nghiên cứu sinh học. Tích hợp cho phép các nhà sinh học kết hợp kiến thức từ nhiều lĩnh vực. Sự bùng nổ của dữ liệu sinh học và tài nguyên tính toán đã khiến việc tích hợp thủ công không còn khả thi. Luận án đề xuất một hệ thống để tăng mức độ tự động hóa của quá trình tích hợp.

1.1. Động lực thúc đẩy tích hợp dữ liệu On the Fly

Nhu cầu tích hợp dữ liệu ngày càng tăng do khối lượng dữ liệu sinh học khổng lồ và sự đa dạng của các định dạng dữ liệu. Các công cụ và dịch vụ phân tích dữ liệu hiện có cũng cần được tích hợp một cách hiệu quả. Tích hợp cho phép các nhà sinh học kết hợp kiến thức từ nhiều lĩnh vực [56, 110, 47, 88, 53] và đã trở thành một vấn đề quan trọng trong nghiên cứu sinh học trong những năm gần đây. Tuy nhiên, sự bùng nổ của dữ liệu sinh học và tài nguyên tính toán đã khiến việc tích hợp thủ công không còn khả thi. Số lượng các kho dữ liệu cũng đang tăng lên. Theo dõi thủ công tất cả các tài nguyên dữ liệu là không khả thi. Hệ thống được thiết kế để tăng mức độ tự động hóa của quá trình tích hợp.

1.2. Tiếp cận tự động hóa trong tích hợp dữ liệu sinh học

Hệ thống được thiết kế để tăng mức độ tự động hóa của quá trình tích hợp. Khi một nguồn dữ liệu mới được tìm thấy, nó sẽ được kiểm tra bằng các kỹ thuật khai phá dữ liệu. Đề xuất về bố cục và lược đồ của dữ liệu sẽ được đưa ra để thu thập các siêu dữ liệu thiết yếu. Siêu dữ liệu này chứa tất cả các thông tin cần thiết về cách giải thích và xử lý một nguồn dữ liệu. Khi siêu dữ liệu được xác định, dữ liệu mới có thể được liên kết với các tập dữ liệu khác trong hệ thống tích hợp một cách tự động. Một công cụ sinh mã tự động được phát triển để giải quyết vấn đề về sự không tương đồng định dạng dữ liệu. Dữ liệu hoặc tập con của nó được yêu cầu bởi một thành phần khác trong hệ thống tích hợp, việc chuyển đổi dữ liệu cần thiết có thể được thực hiện tự động.

II. Vấn đề nan giải Thách thức tích hợp dữ liệu tin sinh học 50 60 ký tự

Việc tích hợp dữ liệu trong tin sinh học đối mặt với nhiều thách thức, bao gồm số lượng lớn các nguồn dữ liệu, sự đa dạng của các định dạng dữ liệu và sự phức tạp của ngữ nghĩa dữ liệu sinh học. Các nguồn dữ liệu này thường được phát triển tự động và có thể biểu diễn cùng một loại thông tin một cách không đồng nhất. Chúng được biểu diễn trong nhiều định dạng khác nhau, và có thể được tổ chức trong các tệp phẳng, cơ sở dữ liệu quan hệ hoặc hướng đối tượng. Một lý do chính cho sự đa dạng của biểu diễn dữ liệu là các khái niệm sinh học thường phức tạp và dữ liệu bán cấu trúc. Một lý do khác là sự hợp tác giữa các cơ quan quản lý dữ liệu khác nhau thấp và do đó có một số lượng hạn chế các ràng buộc khi thiết kế các định dạng biểu diễn dữ liệu. Không giống như dữ liệu trong các hệ thống cơ sở dữ liệu cổ điển, dữ liệu sinh học thường có thể truy cập thông qua các giao diện web thân thiện với người dùng và các tệp có thể tải xuống.

2.1. Sự phức tạp trong biểu diễn và truy cập dữ liệu sinh học

Dữ liệu sinh học thường phức tạp và bán cấu trúc, đồng thời có thể truy cập thông qua nhiều giao diện khác nhau, gây khó khăn cho việc tích hợp. Ví dụ: một nhà sinh học sử dụng công nghệ microarray để khám phá cơ sở di truyền của một căn bệnh cần phải trải qua các bước sau: 1) ánh xạ vị trí của một điểm phản ứng trong đầu ra micro-array sang trình tự gen của nó, 2) so sánh trình tự với các trình tự đã biết để tìm các protein hoặc DNA tương đồng, 3) khai thác thông tin về các protein tương đồng này và 4) chú thích trình tự chưa biết với thông tin từ các nguồn được khai thác. Toàn bộ quá trình liên quan đến việc truy vấn nhiều cơ sở dữ liệu phân tán, bao gồm các cơ sở dữ liệu trình tự như SWISSPROT, các cơ sở dữ liệu chú thích như GenCards và các cơ sở dữ liệu tài liệu như PubMed. Các cơ sở dữ liệu này truyền đạt kết quả truy vấn của chúng khác nhau. Định dạng của chúng bao gồm định dạng ASN.1 cho SWISSPROT, định dạng HTML có cấu trúc lỏng lẻo cho GeneCards, đến định dạng XML có cấu trúc cho PubMed.

2.2. Khả năng tương tác kém giữa các dịch vụ sinh học

Các dịch vụ sinh học thường được phát triển tự động và biểu diễn cùng một loại thông tin một cách không đồng nhất, gây khó khăn cho việc tích hợp. Nghiên cứu microarray cũng liên quan đến các công cụ tính toán, chẳng hạn như BLAST, yêu cầu đầu vào ở các định dạng cụ thể. Sự khác biệt giữa các bố cục dữ liệu cấm các nhà sinh học thực hiện quy trình làm việc trực tiếp. Ví dụ: anh ta không thể chạy tìm kiếm BLAST trên SWISSPROT trực tiếp vì chương trình BLAST yêu cầu các trình tự được lưu trữ ở định dạng FASTA và dữ liệu SWISSPROT được lưu trữ ở một dạng khác và phức tạp hơn nhiều.

III. Phương pháp khai phá dữ liệu Giải pháp tích hợp tức thì 50 60 ký tự

Để giải quyết các thách thức trên, luận án này đề xuất một hệ thống dựa trên các kỹ thuật khai phá dữ liệu để tự động hóa quá trình tích hợp dữ liệu. Khi tìm thấy một nguồn dữ liệu mới, nó sẽ được kiểm tra bằng các kỹ thuật khai phá dữ liệu. Gợi ý về bố cục và lược đồ của dữ liệu sẽ được đưa ra để thu thập các siêu dữ liệu thiết yếu. Siêu dữ liệu này chứa tất cả các thông tin cần thiết về cách giải thích và xử lý một nguồn dữ liệu. Khi siêu dữ liệu được xác định, dữ liệu mới có thể được liên kết với các tập dữ liệu khác trong hệ thống tích hợp một cách tự động.

3.1. Sử dụng heuristic và ontology để gán nhãn dữ liệu

Một tập hợp các kỹ thuật khai phá dữ liệu đã được phát triển để kiểm tra một tập dữ liệu và tóm tắt thông tin về bố cục và lược đồ của nó. Đặc biệt, heuristic và kiến thức ontology được sử dụng để gán nhãn có ý nghĩa cho các thuộc tính dữ liệu. Các nhãn này có thể được sử dụng thêm để xây dựng lược đồ. Nỗ lực chung với một sinh viên tốt nghiệp khác trong các nhóm nghiên cứu của chúng tôi đã dẫn đến một tập hợp các thuật toán để tìm hiểu bố cục của một tập dữ liệu chưa biết. Việc học lược đồ và học bố cục cùng nhau thu thập thông tin siêu dữ liệu cần thiết cho mục đích tích hợp.

3.2. Ngôn ngữ mô tả siêu dữ liệu khai báo

Để nắm bắt cả hai phần của siêu dữ liệu, một ngôn ngữ mô tả khai báo cho dữ liệu sinh học đã được thiết kế. Mô tả bố cục tương tự như Ngôn ngữ định nghĩa định dạng dữ liệu đang được phát triển bởi Nhóm làm việc DFDL trong Diễn đàn Lưới toàn cầu4. Các mô tả như vậy cung cấp đủ thông tin để hệ thống hiểu bố cục của các tệp phẳng nhị phân hoặc ký tự, mà không cần dựa vào bất kỳ thông tin dành riêng cho miền hoặc định dạng nào. Ngôn ngữ mô tả lược đồ tuân theo định dạng XML DTD để nắm bắt các cấu trúc dữ liệu phân cấp. Dữ liệu bán cấu trúc có thể được biểu diễn.

IV. Sinh mã tự động Chuyển đổi dữ liệu nhanh chóng và hiệu quả 50 60 ký tự

Luận án phát triển một công cụ sinh mã tự động để tạo ra các trình bao bọc để chuyển đổi dữ liệu một cách tự động. Sử dụng thông tin siêu dữ liệu, một ánh xạ lược đồ giữa đầu vào và đầu ra được thiết lập bởi công cụ này. Sau đó, một trình bao bọc được tạo ra từ ánh xạ. Trình bao bọc này có thể khám phá và chuyển đổi thông tin từ một tập dữ liệu cấp thấp sang một tập dữ liệu cấp thấp khác. Để giải quyết vấn đề bất đồng định dạng dữ liệu, một công cụ đã được phát triển để tạo ra các trình bao bọc để chuyển đổi dữ liệu một cách tự động.

4.1. Tạo trình bao bọc tự động từ siêu dữ liệu

Một công cụ đã được phát triển để tạo ra các trình bao bọc để chuyển đổi dữ liệu một cách tự động. Sử dụng thông tin siêu dữ liệu, một ánh xạ lược đồ giữa đầu vào và đầu ra được thiết lập bởi công cụ này. Sau đó, một trình bao bọc được tạo ra từ ánh xạ. Trình bao bọc này có thể khám phá và chuyển đổi thông tin từ một tập dữ liệu cấp thấp sang một tập dữ liệu cấp thấp khác.

4.2. Xử lý truy vấn trên nhiều nguồn dữ liệu

Xử lý các truy vấn trên nhiều tài nguyên dữ liệu là một chức năng trung tâm của các hệ thống tích hợp. Đối với các tập dữ liệu có kích thước lớn và tần suất sử dụng không thường xuyên, chi phí trả cho việc tải chúng vào một hệ thống cơ sở dữ liệu có thể không được chứng minh. Hơn nữa, khi một tập dữ liệu linh hoạt trong định dạng của nó, cần phải có thêm nỗ lực của con người để phân tích nó một cách chính xác. Nhiều truy vấn sinh học thuộc loại này. Một công cụ xử lý truy vấn nhắm mục tiêu kịch bản này đã được phát triển. Nó không yêu cầu hỗ trợ cơ sở dữ liệu hoặc các chương trình tiện ích. Nó thực hiện "phân tích cú pháp lười biếng", xử lý tập dữ liệu chỉ khi nó được truy vấn.

V. Cải thiện hiệu suất truy vấn Sử dụng chỉ mục hiệu quả 50 60 ký tự

Luận án tích hợp các kỹ thuật lập chỉ mục vào công cụ xử lý truy vấn để cải thiện hiệu suất tìm kiếm. Các thuật toán đã được phát triển để giải quyết các truy vấn không thể được trả lời đơn giản bằng "có" hoặc "không". Một ví dụ nổi tiếng là tìm kiếm tương đồng trình tự. Các chức năng lập chỉ mục được coi là các mô-đun cắm vào chương trình thực thi truy vấn và có thể được sử dụng lại bởi các tập dữ liệu và truy vấn khác nhau. Công cụ truy vấn nâng cao lập chỉ mục này sẽ được thảo luận trong Chương 6.

5.1. Các chức năng lập chỉ mục

Luận án tích hợp các kỹ thuật lập chỉ mục vào công cụ xử lý truy vấn. Các thuật toán đã được phát triển để giải quyết các truy vấn không thể được trả lời đơn giản bằng "có" hoặc "không". Một ví dụ nổi tiếng là tìm kiếm tương đồng trình tự.

5.2. Cải thiện hiệu suất hệ thống

Công cụ truy vấn nâng cao lập chỉ mục có thể trả lời nhiều truy vấn hơn với hiệu suất tốt hơn. Các chức năng lập chỉ mục được coi là các mô-đun cắm vào chương trình thực thi truy vấn và có thể được sử dụng lại bởi các tập dữ liệu và truy vấn khác nhau.

VI. Nghiên cứu điển hình Ứng dụng thực tế và kết quả thử nghiệm 50 60 ký tự

Luận án trình bày các nghiên cứu điển hình để chứng minh tính hiệu quả của hệ thống và các công cụ được phát triển. Các nghiên cứu này cho thấy rằng phương pháp tiếp cận có thể giảm thiểu các nỗ lực thủ công liên quan đến một hệ thống tích hợp thông tin. Cụ thể, nó đóng góp những điều sau: 1) Các công cụ khai thác dữ liệu cho phép các nguồn dữ liệu mới được hiểu một cách dễ dàng và tích hợp vào hệ thống một cách nhanh chóng. 2) Các thay đổi trong định dạng dữ liệu được bản địa hóa bằng cách sử dụng các bộ mô tả siêu dữ liệu. Chi phí bảo trì hệ thống thấp. 3) Người dùng tương tác với hệ thống thông qua các giao diện khai báo cấp cao. Nỗ lực lập trình được giảm bớt. 4) Các công cụ xử lý dữ liệu trực tiếp từ các tệp phẳng và không yêu cầu hỗ trợ cơ sở dữ liệu. Việc phân tích cú pháp và xử lý dữ liệu được thực hiện một cách ngầm định. 5) Phân tích yêu cầu và thực hiện yêu cầu được tách biệt và các công cụ có thể được sử dụng trong môi trường lưới dữ liệu.

6.1. Giảm nỗ lực thủ công và chi phí bảo trì

Các công cụ khai thác dữ liệu cho phép các nguồn dữ liệu mới được hiểu một cách dễ dàng và tích hợp vào hệ thống một cách nhanh chóng. Các thay đổi trong định dạng dữ liệu được bản địa hóa bằng cách sử dụng các bộ mô tả siêu dữ liệu. Chi phí bảo trì hệ thống thấp.

6.2. Giao diện thân thiện và khả năng tái sử dụng

Người dùng tương tác với hệ thống thông qua các giao diện khai báo cấp cao. Nỗ lực lập trình được giảm bớt. Các công cụ xử lý dữ liệu trực tiếp từ các tệp phẳng và không yêu cầu hỗ trợ cơ sở dữ liệu. Việc phân tích cú pháp và xử lý dữ liệu được thực hiện một cách ngầm định. Phân tích yêu cầu và thực hiện yêu cầu được tách biệt và các công cụ có thể được sử dụng trong môi trường lưới dữ liệu.

14/05/2025

Trích đoạn nội dung tài liệu

SUPPORTING ON-THE-FLY DATA INTEGRATION FOR BIOINFORMATICS DISSERTATION Presented in Partial Fulfillment of the Requirements for the Degree Doctor of Philosophy in the Graduate School of The Ohio State University By Xuan Zhang, M. ***** The Ohio State University 2007 Dissertation Committee: Approved by Gagan Agrawal, Adviser Hakan Ferhatosmanoglu Adviser Yusu Wang Graduate Program in Computer and Information Science UMI Number: 3246116 UMI Microform 3246116 Copyright 2007 by ProQuest Information and Learning Company. All rights reserved. This microform edition is protected against unauthorized copying under Title 17, United States Code.

ProQuest Information and Learning Company 300 North Zeeb Road P. Box 1346 Ann Arbor, MI 48106-1346 c Copyright by Xuan Zhang 2007 ABSTRACT The use of computational tools and on-line data knowledgebases has changed the way the biologists conduct their research. The fusion of biology and information science is expected to continue. Data integration is one of the challenges faced by bioinformatics.

In order to build an integration system for modern biological research, three problems have to be solved. A large number of existing data sources have to be incorporated and when new data sources are discovered, they should be utilized right away. The variety of the biological data formats and access methods have to be addressed. Finally, the system has to be able to understand the rich and often fuzzy semantic of biological data.

Motivated by the above challenges, a system and a set of tools have been im- plemented to support on-the-fly integration of biological data. Metadata about the underlying data sources are the backbone of the system. Data mining tools have been developed to help users to write the descriptors semi-automatically. With auto- matic code generation approach, we have developed several tools for bioinformatics integration needs.

An automatic data wrapper generation tool is able to transform data between heterogeneous data sources. Another code generation system can create programs to answer projection, selection, cross product and join queries from flat file data. ii Real bioinformatics requests have been used to test our system and tools. These case studies show that our approach can reduce the human efforts involved in an information integration system.

Specifically, it makes the following contributions. 1) Data mining tools allow new data sources to be understood with ease and integrated to the system on-the-fly. 2) Changes in data format are localized by using the metadata descriptors. System maintenance cost is low.

3) Users interact with our system through high-level declarative interfaces. Programming efforts are reduced. 4) Our tools process data directly from flat files and requires no database support. Data parsing and processing are done implicitly.

5) Request analysis and request execution are separated and our tools can be used in a data grid environment. iii This is dedicated to the ones I love. To my parents, who believe in women in engineering. To my husband, who never stop criticism.

And to my daughter, whose smile is the best reward in the world. iv ACKNOWLEDGMENTS I would like to express my deepest gratitude to my advisor, Professor Gagan Agrawal. He has been a great mentor and a wonderful colleague to me. I am so fortunate to have the opportunity to learn from him on not only how to conduct research but also how to be a better person.

I also want to sincerely thank Professor Hakan Ferhatosmanoglu and Professor Yusu Wang for serving in my dissertation committee., Biological Science and Biotechnology July, 1999 ., Biological Science and Biotechnology March, 2003 ., Electrical and Computer Engineering 2003-present. Graduate Research Associate, Ohio State University. PUBLICATIONS Xuan Zhang, Ruoming Jin, Gagan Agrawal. “Assigning Schema Labels Using On- tology And Heuristics”.

In Proceedings of IEEE Symposium on Bioinformatics and Bioengineering (BIBE’06), October 2006. Xuan Zhang, Gagan Agrawal. “A Tool for Supporting Integration Across Multiple Flat-File Datasets”. In Proceedings of IEEE Symposium on Bioinformatics and Bioengineering (BIBE’06), October 2006.

Xuan Zhang, Gagan Agrawal. “Enabling Information Integration and Workflows in a Grid Environment with Automatic Wrapper Generation”. In Proceedings of IEEE/ACM International Workshop on Grid Computing (GRID2005), November 2005. Kaushik Sinha, Xuan Zhang, Ruoming Jin, Gagan Agrawal.

“Using data mining techniques to learn layouts of flat-file biological datasets”. In Proceedings of IEEE Symposium on Bioinformatics and Bioengineering (BIBE’05), October 2005. Kaushik Sinha, Xuan Zhang, Ruoming Jin, Gagan Agrawal. “Learning layouts of biological datasets semi-automatically”.

In Proceedings of International Workshop on Data Integration in the Life Sciences (DILS’05), July 2005. vi Xuan Zhang, Xiaoyang Gao, Gagan Agrawal. “Integrated Retrieval from Biological Databases Using an SQL Extension”. In Proceedings of Workshop on Bioinformatics and Computational Biology (BCB2003), December 2003.

Leonid Glimcher, Xuan Zhang, and Gagan Agrawal. “Scaling and Parallelizing a Scientific Feature Mining Application Using a Cluster Middleware”. In Proceedings of International Parallel and Distributed Processing Symposium (IPDPS2004), April 2004. FIELDS OF STUDY Major Field: Computer Science and Engineering Studies in Bioinformatics Integration System: Prof.

Gagan Agrawal vii TABLE OF CONTENTS Page Abstract. vi List of Tables. xi List of Figures .1 Biological Information Integration Systems .2 Grid Projects on Bioinformatics .6 Semantic and Ontology .1 Overall Context, Challenges, and System Overview .1 Challenges in Schema Mining .2 Summary of the Steps .1 Data Cleaning and Summarization .3 Mining with Ontology .4 Mining with Heuristics. Automatic Wrapper Generation .2 Technical Issues and Challenges .3 Metadata Description Language .4 System Implementation and Key Algorithms .1 Wrapper Generation System .5 Case Studies and Experimental Results .1 TRANSFAC-to-Reference .2 SWISSPROT-to-FASTA.

Query Multiple Flat-File Datasets .1 Challenges and Our Approach .1 POST-BLAST QUERY .2 CHIP-SUPPLEMENT QUERY. Query Flat-File Datasets Using Indices .1 Challenges and System Overview .1 Indexing Biological Data .2 Algorithms and System Implementation .3 Query Execution: The Query-Proc Program .1 General Database Search with Index .2 Similarity Search on Sequence Databases .2 Case Study I: Gene Name Nomenclature .I: Nomenclature Across Species .II: Nomenclature Over Time .3 Case Study II: Correlation Between Gene’s Function and Location 139 7.1 Understandability and Usability .1 Ontology for bioinformatics tools .2 Reason about workflows. 158 x LIST OF TABLES Table Page 3.1 Profile Table for Token Categorization .2 Schema Mining Algorithm Evaluation .1 WRAPINFO data structure for the TRANSFAC-to-Reference Example 62 7.1 Summary of Databases .2 Usage of Registered Gene Names .3 Usage of Gene Names in Other Communities .4 Summary of Major Cellular Component and Molecular Function GO Terms. 141 xi LIST OF FIGURES Figure Page 3.1 Overview of Metadata Learning for Biological Data .2 General Function for Schema Mining Score Calculation .3 Score Calculation with Heuristics .5 Pseudo-code of Approximate Frequent Token Mining Algorithm .6 Score Calculation with Ontology .7 Results of Attribute Labelling with Ontology .8 Results of Attribute Labelling with Heuristics .1 Overview of the Wrapper Generation System .2 The Descriptor for the Reference Table in the TRANSFAC-to-Reference Example .3 Automatic Generated Schema Mapping File for the TRANSFAC-to- Reference Example .4 Logical View of TRANSFAC Data Layout as a Tree .5 Overview of the Wrapper .6 The Algorithm for DataReader of Wrapper .7 The Algorithm for DataWriter of Wrapper .8 Results from TRANSFAC-to-Reference Problem .9 Results from SWISSPROT-to-FASTA Problem .10 The Descriptor for TRANSFAC in the TRANSFAC-to-Reference Ex- ample .1 Overview of the System .2 Query for POST-BLAST example .3 Types of Query Specified with Query Language .4 Internal Representation of the metadata for BLASTP .5 QUERYINFOR for POST-BLAST Example .6 Value Buffer for POST-BLAST Example .7 Performance on POST-BLAST Example .8 Performance on CHIP-SUPPLEMENT Example .9 Algorithm for the Synchronizer of query-proc .1 Overview of the Query System Using Indices .3 The Metadata Descriptor for Yeast Genome .4 QUERYINFOR for Example Yeast Genome Query .5 Performance of Answering BLAST-ENHANCE Query .6 Performance of CYGD Similarity Search Using Singh’s Algorithm .7 Performance of GENBANK Similarity Search Using Ferhatosmanoglu’s Algorithm .8 Algorithm of Example Indexing Functions for Yeast Genome IDs .9 The Algorithm for the Synchronizer Using Indices .1 Overview of the On-the-Fly Biological Data Integration System and Tools .2 The Metadata Descriptor for dictyBase .3 Performance of Entry Selection by Species .4 Trends of Nomenclature Between Swiss-Prot and Genome Databases 137 7.5 Performance of Historical Analysis .6 Correlation Analysis Workflow .7 Correlation Between Cellular Component and Molecular Functions .8 The Modification of Descriptor When Swiss-Prot Format Changes .9 Identification of Gene Name Attributes Using Schema Labelling Tool 147 xiv CHAPTER 1 INTRODUCTION In this dissertation, a framework and a set of tools have been proposed and im- plemented for the on-the-fly integration of biological data.

They could minimize the human involvement in integrating new resource and reduce the maintenance cost when participating autonomous data resources update. Our approaches are mainly based on data mining and code generation.1 Motivation Biologists today spend large amount of time and effort in querying multiple remote or local data sources, running data analysis programs and interpreting the results. As a result, integration has become an important phase in biology research process. Integration allows biologists to combine knowledge from multiple disciplines [56, 110, 47, 88, 53] and has become a critical issue in biological research in recent years.

However, the explosion of biological data and computation resources has made human integration no longer feasible. First, the quantity of biological data is overwhelming. In August 2005, the INSDC announced that the DNA sequence database exceeded 100 gigabases [13]. GenBank 1 1 Please see http://www.gov/Genbank/ 1 statistics showed that it contained 65,369,091,950 bases in 61,132,599 sequence records in its traditional divisions as of August 2006 [14].

New biological data is being pro- duced at a phenomenal rate. It has been reported that, on the average, biological databases grow exponentially and double in size about every 15 months [12]. The number of data depositories is increasing, too. Manually tracing all the data resources is infeasible.

Second, the interoperability between these biological services are poor. These data resources are usually developed autonomously and may represent same kind of information heterogeneously. They are represented in a variety of formats, and may be organized in flat files, relational or object-oriented databases. One main reason for the variety of data representation is that biological concepts are usually complex and data are semi-structured.

Another reason is that collaboration between differ- ence data authorities are low and therefore there are a limited number of constraints when designing data representation formats. Unlike data in classic database systems, biological data is usually accessible through user-friendly web interfaces and down- loadable files. For example, a biologist using microarray technology to uncover the genetic basis of a disease needs to go through the following steps: 1)mapping the site of a reactive spot in the micro-array output to its gene sequence, 2)comparing the sequence to known sequences to find protein or DNA homologues, 3)mining informa- tion about these homologues, and 4)annotating unknown sequence with information from the mined sources. The whole process involves querying multiple distributed databases, including sequence databases such as SWISSPROT, annotation databases such as GenCards and literature databases such as PubMed.

These databases com- municate their query results differently. Their formats range from ASN.1 format for 2 SWISSPROT, loosely structured HTML format for GeneCards, to structured XML format for PubMed. This microarray research process also involves computational tools, such as BLAST, that require the inputs in particular formats. The heterogene- ity between the data layouts forbids the biologist carry on the workflow directly.

For example, he can not run BLAST search on SWISSPROT directly because BLAST program asks for sequences to be stored in FASTA format, and SWISSPROT data are stored in a different and much more complicated form. Third, a variety of tools exist that assist biologists in searching, mining and analyz- ing biological data. Famous examples are FASTA [81], BLAST [5] and ClustalW [101]. Most of these tools are free, either through downloading of source code or Web in- terfaces.

They are important for many analysis workflows and an integration system without any tools offers limited support for bioinformatics research. Several collec- tions of computer applications are freely available to public. Examples include the online list at Bioexplorer.Net 2 and the book Bioinformatics: Methods and Protocols by Stephen Misener and Stephen A.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ