Dự đoán liên kết trong mạng hỗn tạp và ứng dụng trong dự đoán mối quan hệ giữa rna không mã hóa và bệnh

Tài liệu nghiên cứu Dự đoán liên kết trong mạng hỗn tạp và ứng dụng trong dự đoán mối quan hệ giữa rna không mã hóa và, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

Doctoral Dissertation

2023

144
1
0

Phí lưu trữ

35 Point

Mục lục chi tiết

AUTHORSHIP'S DECLARATION

ACKNOWLEDGEMENT

CONTENTS

1. INTRODUCTION

2. HETEROGENEOUS INFORMATION NETWORKS

3. NON-CODING RNAS (NCRNAS)

4. LINK PREDICTION IN HETEROGENEOUS INFORMATION NETWORKS

5. LINK PREDICTION PROBLEM

6. LINK PREDICTION METHODS

7. LINK PREDICTION APPLICATIONS IN BIOLOGICAL SYSTEMS

8. COMPUTATIONAL METHODS FOR PREDICTING ASSOCIATIONS BETWEEN NON-CODING RNAS AND DISEASES

9. PREDICTING NON CODING RNA-DISEASE ASSOCIATION PREDICTION AS A LINK PREDICTION PROBLEM

10. MATERIALS USED FOR NCRNA-DISEASE ASSOCIATION PREDICTION

11. SIMILARITY CALCULATION AND NETWORK CONSTRUCTION

12. LITERATURE REVIEW OF COMPUTATIONAL METHODS TO PREDICT NCRNA-DISEASE ASSOCIATIONS

13. THESIS’S RESEARCH DIRECTIONS

14. SOME EVALUATION METHODS AND METRICS TO EVALUATE PREDICTION PERFORMANCE

14.1. AREA UNDER ROC CURVE (AUC)

14.2. AREA UNDER PRECISION-RECALL CURVE (AUPR)

14.3. CHECKING CASE STUDIES

15. NCRNA-DISEASE ASSOCIATIONS PREDICTION WITH COLLABORATIVE FILTERING AND RESOURCE ALLOCATION PROCESS ON A TRIPARTITE GRAPH

15.1. MAIN RELATED WORKS

15.2. THE ITEM-BASED COLLABORATIVE FILTERING ALGORITHM FOR NCRNA-DISEASE ASSOCIATION PREDICTION

15.3. RESOURCE ALLOCATION ON A TRIPARTITE GRAPH

15.4. THE PROPOSED MODEL FOR PREDICTING NCRNA-DISEASE ASSOCIATIONS BASED ON A COLLABORATIVE FILTERING ALGORITHM AND A RESOURCE ALLOCATION PROCESS ON A TRIPARTITE GRAPH

15.5. EMPLOYING THE PROPOSED MODEL TO INFER MIRNA-DISEASE ASSOCIATIONS BASED ON COLLABORATIVE FILTERING AND RESOURCE ALLOCATION

15.5.1. DETAILED DESCRIPTION OF PROPOSED MODEL'S STAGES IN INFERRING MIRNA-DISEASE ASSOCIATIONS

15.6. PROPOSED METHOD'S EXPERIMENTS AND RESULTS

15.7. EMPLOYING THE PROPOSED MODEL TO PREDICT LNCRNA-DISEASE ASSOCIATIONS BASED ON COLLABORATIVE FILTERING AND RESOURCE ALLOCATION

15.7.1. DETAILED DESCRIPTION OF PROPOSED MODEL'S STAGES IN PREDICTING LNCRNA-DISEASE ASSOCIATIONS

15.8. PROPOSED METHOD’S EXPERIMENTS AND RESULTS

16. MIRNA-DISEASE ASSOCIATIONS PREDICTION USING IMPROVED RANDOM WALK WITH RESTART AND INTEGRATING MULTIPLE SIMILARITIES

16.1. MOTIVATION AND MAIN RELATED WORKS

16.2. DATASETS USED IN THE PROPOSED METHOD

16.3. HUMAN MIRNA-DISEASE ASSOCIATIONS

16.4. DISEASE SEMANTIC SIMILARITY

16.5. MIRNA FUNCTIONAL SIMILARITY

16.6. PROPOSED METHOD OVERVIEW

16.7. CALCULATING GAUSSIAN INTERACTION PROFILE KERNEL SIMILARITY FOR MIRNAS AND DISEASES

16.8. CALCULATING INTEGRATED SIMILARITY FOR MIRNAS AND DISEASES

16.9. WEIGHTED K-NEAREST KNOWN NEIGHBORS ALGORITHM

16.10. CONSTRUCTING MIRNA SIMILARITY-BASED AND DISEASE SIMILARITY BASED HETEROGENEOUS NETWORKS

16.11. EMPLOYING IMPROVED RANDOM WALK WITH RESTART TO PREDICT MIRNA-DISEASE ASSOCIATIONS

16.12. RANK THE FINAL PREDICTION SCORE OF ASSOCIATIONS TO OBTAIN PREDICTED MIRNA-DISEASE ASSOCIATIONS

16.13. EXPERIMENTS AND RESULTS

16.14. IMPLEMENTING AND ESTIMATING TIME COMPLEXITY OF THE PROPOSED METHOD

16.15. PERFORMANCE COMPARISON WITH OTHER RELATED MODELS

16.16. CHAPTER SUMMARY AND DISCUSSION

17. CONCLUSION AND FUTURE WORKS

ABBREVIATIONS

LIST OF TABLES

LIST OF FIGURES

Tóm tắt

I. Tổng Quan Về Dự Đoán Liên Kết Trong Mạng Thông Tin Heterogeneous

Mạng thông tin heterogeneous (HIN) là một cấu trúc phức tạp, bao gồm nhiều loại nút và liên kết khác nhau. Việc phân tích HIN đã trở thành một lĩnh vực nghiên cứu quan trọng trong khoa học dữ liệu. Dự đoán liên kết trong HIN không chỉ giúp phát hiện các liên kết chưa có mà còn dự đoán các liên kết có thể xảy ra trong tương lai. Điều này đặc biệt quan trọng trong các ứng dụng sinh học, nơi mà việc xác định mối quan hệ giữa các đối tượng sinh học như RNA không mã hóa và bệnh lý có thể mở ra hướng đi mới cho nghiên cứu và điều trị.

1.1. Định Nghĩa Mạng Thông Tin Heterogeneous

Mạng thông tin heterogeneous là một loại mạng mà trong đó các nút và liên kết có thể thuộc nhiều loại khác nhau. Điều này cho phép mô hình hóa các mối quan hệ phức tạp giữa các đối tượng khác nhau trong một hệ thống.

1.2. Vai Trò Của Dự Đoán Liên Kết Trong Nghiên Cứu Sinh Học

Dự đoán liên kết trong HIN có vai trò quan trọng trong việc phát hiện các mối quan hệ giữa các đối tượng sinh học, đặc biệt là giữa RNA không mã hóa và các bệnh lý. Điều này giúp cải thiện khả năng chẩn đoán và điều trị bệnh.

II. Thách Thức Trong Dự Đoán Liên Kết Giữa RNA Không Mã Hóa và Bệnh

Mặc dù có nhiều tiến bộ trong việc phát triển các phương pháp dự đoán liên kết, nhưng vẫn tồn tại nhiều thách thức lớn. Một trong những vấn đề chính là dữ liệu thưa thớt, nơi mà số lượng mối quan hệ đã biết giữa RNA không mã hóa và bệnh lý rất hạn chế. Điều này dẫn đến việc khó khăn trong việc xây dựng các mô hình dự đoán chính xác.

2.1. Vấn Đề Dữ Liệu Thưa Thớt

Dữ liệu thưa thớt là một trong những thách thức lớn nhất trong việc dự đoán mối quan hệ giữa RNA không mã hóa và bệnh. Số lượng mối quan hệ đã biết thường không đủ để xây dựng mô hình dự đoán hiệu quả.

2.2. Sự Mất Cân Bằng Giữa Các Mẫu Dương và Âm

Sự mất cân bằng giữa các mẫu dương và âm trong dữ liệu cũng gây khó khăn cho việc phát triển các phương pháp dự đoán chính xác. Điều này có thể dẫn đến việc các mô hình không thể học được các đặc điểm quan trọng.

III. Phương Pháp Dự Đoán Liên Kết Hiệu Quả Trong HIN

Để giải quyết các thách thức trong dự đoán liên kết, nhiều phương pháp đã được phát triển. Các phương pháp này bao gồm các kỹ thuật học máy, mạng nơ-ron sâu, và các phương pháp dựa trên mạng lưới. Mỗi phương pháp có những ưu điểm và nhược điểm riêng, và việc lựa chọn phương pháp phù hợp là rất quan trọng.

3.1. Phương Pháp Dựa Trên Mạng Lưới

Các phương pháp dựa trên mạng lưới thường dễ hiểu và có khả năng dự đoán nhanh chóng. Chúng sử dụng cấu trúc mạng để xác định các mối quan hệ giữa các đối tượng.

3.2. Phương Pháp Học Máy

Phương pháp học máy có khả năng học và rút ra các đặc điểm từ dữ liệu, giúp cải thiện độ chính xác của dự đoán. Tuy nhiên, chúng cần một lượng dữ liệu lớn để hoạt động hiệu quả.

3.3. Phương Pháp Học Sâu

Các phương pháp học sâu, đặc biệt là mạng nơ-ron đồ thị, có khả năng kết hợp các đặc điểm của mạng và sinh học, từ đó nâng cao khả năng dự đoán.

IV. Ứng Dụng Thực Tiễn Của Dự Đoán Liên Kết Trong Sinh Học

Dự đoán liên kết giữa RNA không mã hóa và bệnh lý có nhiều ứng dụng thực tiễn trong y học. Việc xác định các mối quan hệ này có thể giúp phát hiện sớm bệnh, cải thiện phương pháp điều trị và phát triển các liệu pháp mới. Nghiên cứu này đã chỉ ra rằng việc áp dụng các phương pháp dự đoán có thể mang lại những kết quả tích cực.

4.1. Phát Hiện Bệnh Sớm

Việc dự đoán mối quan hệ giữa RNA không mã hóa và bệnh có thể giúp phát hiện sớm các dấu hiệu của bệnh, từ đó nâng cao hiệu quả điều trị.

4.2. Phát Triển Liệu Pháp Mới

Nghiên cứu về mối quan hệ giữa RNA không mã hóa và bệnh lý có thể mở ra hướng đi mới cho việc phát triển các liệu pháp điều trị hiệu quả hơn.

V. Kết Luận và Tương Lai Của Nghiên Cứu Dự Đoán Liên Kết

Nghiên cứu về dự đoán liên kết trong mạng thông tin heterogeneous và mối quan hệ giữa RNA không mã hóa và bệnh lý đang ngày càng trở nên quan trọng. Tương lai của nghiên cứu này hứa hẹn sẽ mang lại nhiều tiến bộ trong việc phát hiện và điều trị bệnh. Việc phát triển các phương pháp mới và cải thiện các phương pháp hiện tại sẽ là chìa khóa để đạt được những thành công này.

5.1. Hướng Nghiên Cứu Tương Lai

Nghiên cứu trong tương lai cần tập trung vào việc giải quyết các vấn đề như dữ liệu thưa thớt và sự mất cân bằng giữa các mẫu để nâng cao độ chính xác của dự đoán.

5.2. Tích Hợp Dữ Liệu Đa Nguồn

Việc tích hợp dữ liệu từ nhiều nguồn khác nhau sẽ giúp cải thiện độ tin cậy và hiệu suất của các phương pháp dự đoán.

09/07/2025

Trích đoạn nội dung tài liệu

MINISTRY OF EDUCATION AND TRAINING HANOI NATIONAL UNIVERSITY OF EDUCATION NGUYEN VAN TINH LINK PREDICTION IN HETEROGENEOUS INFORMATION NETWORKS AND ITS APPLICATIONS IN PREDICTING ASSOCIATIONS BETWEEN NON-CODING RNAS AND DISEASES DOCTORAL DISSERTATION IN COMPUTER SCIENCE HANOI-2023 MINISTRY OF EDUCATION AND TRAINING HANOI NATIONAL UNIVERSITY OF EDUCATION NGUYEN VAN TINH LINK PREDICTION IN HETEROGENEOUS INFORMATION NETWORKS AND ITS APPLICATIONS IN PREDICTING ASSOCIATIONS BETWEEN NON-CODING RNAS AND DISEASES Major: Computer Science Code: 9480101 DOCTORAL DISSERTATION IN COMPUTER SCIENCE SUPERVISORS 1. TRAN DANG HUNG 2. LE THI TU KIEN Hanoi-2023 i AUTHORSHIP'S DECLARATION I, NGUYEN VAN TINH, affirm that the dissertation entitled “Link prediction in heterogeneous information networks and its applications in predicting associations between non-coding RNAs and diseases” has been completed by myself under the supervision of Assoc. Tran Dang Hung and Dr.

Le Thi Tu Kien. I assure some points as follows: - This dissertation was done in the Ph. research time at Hanoi National University of Education. - This work has not been submitted for any other degrees or qualifications at Hanoi National University of Education or any other institutions.

- Appropriate acknowledgment has been given in the thesis where references have been made to the other published works. - The submitted thesis is my own, except the work in the collaboration has been included. The collaborative contributions have been indicated. TRAN DANG HUNG 2.

LE THI TU KIEN ii ACKNOWLEDGEMENT The dissertation was completed in duration of my Ph. course at Hanoi National University of Education (HNUE). HNUE is a special place where I obtained valuable knowledge and skills on the way to become a researcher. I am so grateful for all the people who always support and encourage me completing the dissertation.

Firstly, I would to say thanks to my advisors, Assoc. Tran Dang Hung and Dr. Le Thi Tu Kien for their instruction, advice, and encouragement throughout my Ph. My dissertation could not be completed without my advisors’ scientific direction, encouragement, and support.

Secondly, I wish to thank all members of the Faculty of Information Technology, HNUE for their frequent support during my Ph. And I also wish to thank all my colleagues in the Faculty of Information Technology, Hanoi University of Industry (HaUI) for their support in professional work during the time of the Ph. Next, I wish to thank Assoc. Than Quang Khoat, Hanoi University of Science and Technology, and Dr.

Nguyen Tran Quoc Vinh, Faculty of Information Technology, The University of Da Nang - University of Science and Education for their contributions and suggestions during my Ph. And then, I also would like to thank all reviewers for their valuable comments and suggestions on the dissertation’s completion. Additionally, this work was funded by Gia Lam Urban Development and Investment Company Limited, Vingroup and Supported by Vingroup Innovation Foundation (VINIF) under project code VINIF. Finally, I would like to express my sincere gratitude to my family and friends for their continuous support and encouragement to complete the Ph.

Student Nguyen Van Tinh iii CONTENTS AUTHORSHIP'S DECLARATION. vi LIST OF TABLES. vii LIST OF FIGURES. Heterogeneous information networks.

Non-coding RNAs (ncRNAs). Link prediction in heterogeneous information networks. Link prediction problem. Link prediction methods.

Link prediction applications in biological systems. Computational methods for predicting associations between non-coding RNAs and diseases. Predicting non coding RNA-disease association prediction as a link prediction problem. Materials used for ncRNA-disease association prediction.

Similarity calculation and network construction. Literature review of computational methods to predict ncRNA-disease associations. Thesis’s research directions. Some evaluation methods and metrics to evaluate prediction performance.

Area under Roc Curve (AUC). Area under Precision-Recall Curve (AUPR). Checking case studies. NCRNA-DISEASE ASSOCIATIONS PREDICTION WITH COLLABORATIVE FILTERING AND RESOURCE ALLOCATION PROCESS ON A TRIPARTITE GRAPH.

Main related works. The item-based collaborative filtering algorithm for ncRNA-disease association prediction. Resource allocation on a tripartite graph. The proposed model for predicting ncRNA-disease associations based on a collaborative filtering algorithm and a resource allocation process on a tripartite graph.

Employing the proposed model to infer miRNA-disease associations based on collaborative filtering and resource allocation. Detailed description of proposed model's stages in inferring miRNA- disease associations. Proposed method's experiments and results. Employing the proposed model to predict lncRNA-disease associations based on collaborative filtering and resource allocation.

Detailed description of proposed model's stages in predicting lncRNA- disease associations. Proposed method’s experiments and results. MIRNA-DISEASE ASSOCIATIONS PREDICTION USING IMPROVED RANDOM WALK WITH RESTART AND INTEGRATING MULTIPLE SIMILARITIES. Motivation and main related works.

Datasets used in the proposed method. Human miRNA-disease associations. Disease semantic similarity. MiRNA functional similarity.

Proposed method overview. Calculating Gaussian interaction profile kernel similarity for miRNAs and diseases. Calculating Integrated similarity for miRNAs and diseases. Weighted K-nearest known neighbors algorithm.

Constructing miRNA similarity-based and disease similarity based heterogeneous networks. Employing improved random walk with restart to predict miRNA-disease associations. Rank the final prediction score of associations to obtain predicted miRNA-disease associations. Experiments and results.

Implementing and Estimating time complexity of the proposed method 95 3. Performance comparison with other related models. Chapter summary and discussion. 108 CONCLUSION AND FUTURE WORKS.

114 vi ABBREVIATIONS No Abbreviation Meaning 1 AUC Area Under Roc Curve 2 AUPR Area Under Precision-Recall Curve 3 CF Collaborative filtering 4 CNN Convolutional neural network 5 CRC Colorectal cancer 6 DAGs Directed acrylic graphs 7 DBN Deep brief network 8 FN False negative 9 FP False positive 10 FPR False positive rate 11 GCN Graph convolutional network 12 GIP Gaussian interaction profile 13 HCC Hepatocellular carcinoma 14 HF Heart failure 15 HIN Heterogeneous information network 16 lncRNAs Long non-coding RNAs 17 LOOCV Leave-one-out cross validation 18 MF Matrix factorization 19 miRNAs Micro RNAs 20 ncRNAs Non-coding RNAs 21 NMF Non-negative matrix factorization 22 OAG Open-angle glaucoma 23 POAG Primary open-angle glaucoma 24 ROC Receiver operating characteristic 25 RWR Random Walk with Restart 26 SVM Support vector machine 27 TN True negative 28 TP True positive 29 TPR True positive rate 30 WKNKN Weighted K nearest known neighbors vii LIST OF TABLES Table 1. Databases containing miRNA-related information and miRNA-disease associations. Databases containing lncRNA-related information. Performance comparison with other related models.

Top 40 predicted miRNAs for Prostatic Neoplasms. Top 40 predicted miRNAs for Heart failure. Top 40 predicted miRNAs for Glioma. Top 20 miRNAs for Glaucoma, Open-Angle.

AUC and AUPR values of related methods in comparison. Top 10 predicted Prostate cancer-related lncRNAs. Top 10 predicted lncRNAs related to Stomach cancer. AUC and AUPR One-sample t-test.

Evaluation of index changes in WKNKN algorithm. AUC and AUPR values RWRMMDA and other latest methods in comparison. Top 40 predicted Breast Neoplasms-associated miRNAs. Top 40 predicted Hepatocellular carcinoma-associated miRNAs.

Top 40 predicted Stomach Neoplasms-associated miRNAs. Top 10 predicted associations between Lung Neoplasms and miRNAs from the simulated experiment for predicting new disease-related miRNAs. Top 10 predicted associations for Ovarian Neoplasms and miRNAs from the simulated experiment for predicting new disease-related miRNAs. 108 viii LIST OF FIGURES Figure 0.

The dissertation outline. An illustration of HIN with multiple node types and multiple link types. An illustration of HIN’s network schema. An illustration of a link prediction problem.

A ROC curve and AUC's illustration. An illustration of a Precision-recall curve and AUPR. The proposed model's flowchart. The datasets and the numbers of data nodes in the proposed method.

ROC curve and AUC value of the proposed method with γ = 0.9 in one experimental running time. Precision-Recall curve and AUPR value of the proposed method with γ = 0.9 in one experimental running time. The relationships between the different data sources and the numbers of data nodes used in the proposed method. The proposed method's ROC curves and AUC values in 5 running times of experiments with 𝛾 = 0.

The proposed method's Precision-Recall curves and AUPR values in 5 running times of experiments with 𝛾 = 0. Illustration of computing miRNA functional similarity. The workflow of the proposed method (RWRMMDA). Illustration of the process of weight assignment in disease space and miRNA space.

The improved RWR process's steps to predict miRNA-disease associations. ROC curves and AUC values (a) and PR curves and AUPR values (b) in 5 running times of 5-fold cross-validation experiments. ROC curve and AUC value (a) and PR curve and AUPR value (b) under global LOOCV experiment. ROC curves and AUC values (a) and Precision-Recall curves and AUPR values (b) in comparison with other related approaches.

ROC curves and AUC values (a) and Precision-Recall curves and AUPR values (b) in different cases of RWRMMDAs. 101 1 INTRODUCTION Nowadays, we are in a connected world where data or objects’ information, actors or agents, object groups or component groups are interacted with each other to compose large networks. These networks are complex. They contain multiple types of nodes and multiple types of interactions.

These networks are called heterogeneous information networks (HINs). They are rich in semantic information and can be constructed from multiple data sources. Analyzing of heterogeneous information network (HIN) generates a trendy research of mining of data, retrieving of information, link prediction, mining of graph, network science, and so forth [1]–[3]. Link prediction is a crucial and active task in HIN analysis.

It benefits many researchers and organizations in a variety of fields. The link prediction’s main objective is to discover absent links in a network or to forecast links which may soonly occur in a network. It has been extensively studied in different literature [4]– [8]. Link prediction has been broadly applied in various domains from social networks to biological systems.

For biological systems, link prediction has been used to discover the relationships or associations among biological objects such as disease- phenotype/gene associations, disease-metabolite associations, drug-protein interactions, drug-miRNA associations, disease-drug associations, non-coding RNA- disease associations, and so forth. Especially, for a long time, identifying non-coding RNAs (ncRNAs) in the human genome is difficult. They were treated as noise. However, ncRNAs play vital roles in life activities.

Additionally, it has been demonstrated that they have a significant impact on the human diseases' occurrence, progression as well as development. Identifying relationships between ncRNAs and diseases has exposed opportunities for therapeutic and diagnostic of human diseases. Therefore, the studies of ncRNA-disease relationships have extensively been executed in recent years. Recently, a huge number of experimental methods have been developed to facilitate us in determining the relationships between ncRNAs and diseases.

However, conventional biological experiments make it costly, time-consuming, and 2 laborious to discover potential ncRNA-disease relationships. Therefore, it requires to have computational methods for identifying ncRNA-disease associations. Among ncRNAs' types, there are two special types, micro RNAs (miRNAs) as well as long non-coding (lncRNAs), which have been carefully studied and attracted a lot of attention from researchers. In the past few years, various computational methods for predicting ncRNA-disease associations have been developed.

We can practically divides them into categories as: network-based, recommendation-based, resource allocation-based, machine learning-based, deep learning-based, as well as multi model and biological information integration-based methods [9]–[12]. Although actual computational methods have made massive benefits in revealing disease‐ associated ncRNAs in each category and typically decrease the cost as well as time of biological experiments. For examples, network-based methods are easy to understand and normally have fast predictive capabilities. The machine learning- based methods can strongly learn and derive ncRNAs or diseases' features.

The deep learning-based approaches, with the graph neural networks' development, have strong abilities of learning as well as predicting to combine features of networks and biology. Howerver, there are still some limitations which are needed to be solved as follows. Firstly, the computational approaches for predicting ncRNA-disease associations ought to deal with sparse data problem.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ