Khai phá Dữ liệu Dựa trên Granular Mờ cho Hỗ trợ Quyết định Hiệu quả trong Ứng dụng Y sinh

Luận án tiến sĩ về khai phá dữ liệu dựa trên granular mờ, hỗ trợ quyết định hiệu quả trong ứng dụng y sinh. Nghiên cứu ứng dụng trong lĩnh vực biomedical.

Trường đại học

Georgia State University

Chuyên ngành

Data Mining, Knowledge Discovery, Computational Intelligence, Granular Computing, Fuzzy Association Rule Mining, Decision Support System, Binary Classification, Bioinformatics

Người đăng

Ẩn danh

Thể loại

Dissertation

2006

108
1
0

Phí lưu trữ

35 Point

Mục lục chi tiết

ABSTRACT

ACKNOWLEDGMENTS

TABLE OF CONTENTS

1. CHƯƠNG 1: INTRODUCTION

1.1. Binary classification

1.2. Feature selection

1.3. Metrics for classification

1.4. Challenges

1.5. Organizations

2. CHƯƠNG 2: RELATED WORKS

2.1. Knowledge discovery, data mining, and data warehousing

2.2. Association rule mining

2.2.1. Basic concepts

2.2.2. The Apriori Algorithm

3. CHAPTER 3: FUZZY ASSOCIATION RULE MINING FOR DECISION SUPPORT

3.1. STEP 1: FUZZY INTERVAL PARTITIONING

3.2. STEP 2: DATA ABSTRACTING

3.3. STEP 3: GENERATING FUZZY DISCRETE TRANSACTIONS

3.4. STEP 4: MINING ASSOCIATION RULES

4. CHAPTER 4: FARM-DS FROM MEDICAL DATA

4.1. RESULTS ANALYSIS ON EFFECTIVENESS

4.2. RESULT ANALYSIS ON EFFICIENCY

4.3. RESULT ANALYSIS ON INTERPRETABILITY

5. CHAPTER 5: FARM-DS FROM MICROARRAY EXPRESSION DATA

5.1. CHALLENGES FOR BIOINFORMATICS SCIENTISTS

5.2. SIMULATION ENVIRONMENT AND DATASETS

5.3. PERFECT GENE SUBSETS

5.4. GENE-CANCER KNOWLEDGE DISCOVERY

5.5. FUZZY ASSOCIATION RULES

6. CHAPTER 6: FUZZY-GRANULAR GENE SELECTION FROM MICROARRAY EXPRESSION DATA

6.1. TRADITIONAL ALGORITHMS FOR GENE SELECTION

6.2. SVM FOR CANCER CLASSIFICATION

6.3. CORRELATION-BASED FEATURE RANKING ALGORITHMS FOR GENE SELECTION

6.4. A NEW FUZZY-GRANULAR BASED ALGORITHM FOR GENE SELECTION

6.4.1. FUZZY C-MEANS CLUSTERING

6.4.2. FUZZY-GRANULAR BASED GENE SELECTION

7. CHAPTER 7: CONCLUSIONS AND FUTURE WORKS

LIST OF FIGURES

LIST OF TABLES

LIST OF ACRONYMS

Tóm tắt

I. Khai Phá Dữ Liệu Mờ Ứng Dụng Y Sinh và Hỗ Trợ Quyết Định

Trong bối cảnh dữ liệu y sinh ngày càng gia tăng, việc phát triển các công cụ phân tích dữ liệu thông minh trở nên vô cùng quan trọng. Khai phá dữ liệuMachine Learning đóng vai trò then chốt trong việc hỗ trợ các chuyên gia y tế đưa ra quyết định chính xác và hiệu quả. Tuy nhiên, sự phức tạp của dữ liệu y sinh đặt ra những thách thức lớn. Do đó, việc xây dựng một hệ thống hỗ trợ quyết định (DSS) hiệu quả, có khả năng xử lý thông tin không chắc chắn và cung cấp kết quả dễ hiểu là mục tiêu quan trọng. Nghiên cứu này tập trung vào việc sử dụng khai phá dữ liệu mờgranular mờ để xây dựng một DSS hiệu quả trong các ứng dụng y sinh. Phương pháp này hứa hẹn sẽ mang lại những cải tiến đáng kể trong việc chẩn đoán, dự đoán và quản lý bệnh tật.

1.1. Tổng quan về Khai Phá Dữ Liệu và Ứng Dụng Y Sinh

Khai phá dữ liệu, hay còn gọi là khai phá tri thức từ dữ liệu, là quá trình trích xuất thông tin hữu ích từ lượng lớn dữ liệu. Trong ứng dụng y sinh, khai phá dữ liệu được sử dụng để phân tích dữ liệu bệnh nhân, dữ liệu gen, dữ liệu hình ảnh và nhiều loại dữ liệu khác. Các kỹ thuật khai phá dữ liệu như phân cụm mờ, luật kết hợp mờmô hình hóa dữ liệu mờ giúp các nhà nghiên cứu và bác sĩ hiểu rõ hơn về cơ chế bệnh tật và đưa ra các quyết định điều trị tốt hơn.

1.2. Vai trò của Hệ Thống Hỗ Trợ Quyết Định trong Y Khoa

Hệ thống hỗ trợ quyết định lâm sàng (DSS) đóng vai trò quan trọng trong việc hỗ trợ các bác sĩ đưa ra quyết định chính xác và kịp thời. DSS có thể giúp bác sĩ chẩn đoán bệnh, lựa chọn phương pháp điều trị và dự đoán kết quả điều trị. Bằng cách tích hợp các kỹ thuật Artificial Intelligence Y sinhKhai phá dữ liệu mờ, DSS có thể cung cấp thông tin chi tiết và dễ hiểu, giúp bác sĩ đưa ra quyết định tốt nhất cho bệnh nhân.

II. Thách Thức Khai Phá Dữ Liệu Y Sinh Độ Mờ và Tính Không Chắc Chắn

Dữ liệu y sinh thường chứa đựng nhiều yếu tố không chắc chắn và mơ hồ. Các triệu chứng bệnh có thể không rõ ràng, kết quả xét nghiệm có thể không chính xác và thông tin về bệnh nhân có thể không đầy đủ. Việc xử lý những yếu tố này là một thách thức lớn đối với các phương pháp khai phá dữ liệu truyền thống. Do đó, cần có những phương pháp khai phá dữ liệu có khả năng xử lý độ mờtính không chắc chắn để đảm bảo tính chính xác và tin cậy của kết quả phân tích. Các phương pháp dựa trên fuzzy logic in healthcaregranular mờ hứa hẹn sẽ giải quyết được những thách thức này.

2.1. Bản Chất của Độ Mờ trong Dữ Liệu Y Tế

Độ mờ trong khai phá dữ liệu y tế xuất phát từ nhiều nguồn khác nhau. Các triệu chứng bệnh có thể không rõ ràng, kết quả xét nghiệm có thể có sai số, và các định nghĩa về bệnh tật có thể không hoàn toàn chính xác. Việc bỏ qua những yếu tố này có thể dẫn đến các quyết định sai lầm trong chẩn đoán và điều trị. Theo tài liệu gốc, việc xây dựng một bộ phân loại hoàn hảo với độ chính xác dự đoán 100% là điều không thể. Mục tiêu thực tế hơn là xây dựng một Decision Support System (DSS) hiệu quả.

2.2. Vì Sao Granular Mờ Hữu Ích trong Xử Lý Dữ Liệu Không Chắc Chắn

Granular mờ cho phép biểu diễn thông tin ở nhiều mức độ chi tiết khác nhau, từ đó giúp xử lý dữ liệu lớn Y sinh một cách hiệu quả. Bằng cách gom nhóm các dữ liệu tương tự lại với nhau, granular mờ giúp giảm độ phức tạp của dữ liệu và làm nổi bật các mẫu quan trọng. Điều này đặc biệt hữu ích trong việc phân tích dữ liệu y sinh, nơi mà có rất nhiều biến số và mối quan hệ phức tạp.

III. Cách Khai Phá Dữ Liệu Dựa Trên Granular Mờ Hỗ Trợ Quyết Định

Khai phá dữ liệu dựa trên granular mờ là một phương pháp tiếp cận đầy hứa hẹn để xây dựng các hệ thống hỗ trợ quyết định hiệu quả trong ứng dụng y sinh. Phương pháp này kết hợp sức mạnh của fuzzy logic in healthcaregranular computing để xử lý độ mờtính không chắc chắn trong dữ liệu y sinh. Bằng cách sử dụng các kỹ thuật như phân cụm mờluật kết hợp mờ, phương pháp này có thể trích xuất thông tin hữu ích từ dữ liệu y sinh và cung cấp các khuyến nghị chính xác và dễ hiểu cho các chuyên gia y tế. Mục tiêu là hỗ trợ các chuyên gia đưa ra quyết định một cách đáng tin cậy hơn.

3.1. Quy Trình Khai Phá Dữ Liệu với Granular Mờ

Quy trình khai phá dữ liệu với granular mờ thường bao gồm các bước sau: (1) Tiền xử lý dữ liệu: làm sạch và chuyển đổi dữ liệu. (2) Tạo granular mờ: gom nhóm các dữ liệu tương tự lại với nhau. (3) Khai phá luật kết hợp mờ: tìm kiếm các mối quan hệ giữa các granular. (4) Đánh giá và giải thích kết quả: xác định các luật kết hợp quan trọng và giải thích ý nghĩa của chúng. (5) Tích hợp vào hệ thống hỗ trợ quyết định: sử dụng các luật kết hợp để cung cấp các khuyến nghị cho người dùng.

3.2. Ưu điểm của Granular Mờ so với Phương Pháp Truyền Thống

Granular mờ có nhiều ưu điểm so với các phương pháp khai phá dữ liệu truyền thống. Thứ nhất, nó có thể xử lý độ mờtính không chắc chắn trong dữ liệu. Thứ hai, nó có thể biểu diễn thông tin ở nhiều mức độ chi tiết khác nhau. Thứ ba, nó có thể trích xuất các luật kết hợp dễ hiểu, giúp người dùng hiểu rõ hơn về dữ liệu và đưa ra các quyết định chính xác hơn. Tài liệu gốc đề xuất một thuật toán khai thác Fuzzy Association Rules (FARs) thích ứng mới, có tên FARM-DS, để xây dựng một DSS cho các bài toán phân loại nhị phân trong lĩnh vực y sinh.

IV. Ứng Dụng Thực Tế Hỗ Trợ Quyết Định trong Chẩn Đoán và Điều Trị Bệnh

Phương pháp khai phá dữ liệu dựa trên granular mờ có thể được áp dụng trong nhiều lĩnh vực khác nhau của ứng dụng y sinh, bao gồm chẩn đoán bệnh, dự đoán bệnh, quản lý bệnh và phát triển thuốc mới. Ví dụ, nó có thể được sử dụng để phân tích dữ liệu bệnh nhân để xác định các yếu tố nguy cơ gây bệnh tim mạch, để dự đoán khả năng tái phát ung thư, hoặc để đánh giá hiệu quả của các phương pháp điều trị khác nhau. Các kết quả phân tích này có thể cung cấp thông tin quan trọng cho các bác sĩ để đưa ra các quyết định điều trị tốt hơn. Các nghiên cứu thực nghiệm cho thấy FARM-DS cạnh tranh với các bộ phân loại hiện đại về độ chính xác dự đoán. Quan trọng hơn, FAR có thể cung cấp hỗ trợ quyết định mạnh mẽ về chẩn đoán bệnh do khả năng diễn giải dễ dàng.

4.1. Ứng Dụng trong Chẩn Đoán Bệnh

Trong chẩn đoán bệnh, khai phá dữ liệu mờ có thể giúp bác sĩ xác định các dấu hiệu bệnh sớm và đưa ra chẩn đoán chính xác hơn. Ví dụ, nó có thể được sử dụng để phân tích hình ảnh y tế để phát hiện các khối u nhỏ, hoặc để phân tích dữ liệu xét nghiệm máu để xác định các dấu hiệu của bệnh tiểu đường. Các thông tin này có thể giúp bác sĩ đưa ra các quyết định điều trị kịp thời và hiệu quả.

4.2. Ứng Dụng trong Quản Lý Bệnh

Trong quản lý bệnh, khai phá dữ liệu mờ có thể giúp bác sĩ theo dõi tình trạng bệnh nhân và đưa ra các khuyến nghị điều trị phù hợp. Ví dụ, nó có thể được sử dụng để phân tích dữ liệu bệnh nhân để xác định các yếu tố nguy cơ gây biến chứng, hoặc để đánh giá hiệu quả của các phương pháp điều trị khác nhau. Điều này giúp bác sĩ đưa ra các quyết định điều trị cá nhân hóa, phù hợp với từng bệnh nhân.

V. Kết Luận và Hướng Phát Triển của Khai Phá Dữ Liệu Mờ Y Sinh

Khai phá dữ liệu dựa trên granular mờ là một lĩnh vực nghiên cứu đầy tiềm năng trong ứng dụng y sinh. Phương pháp này hứa hẹn sẽ mang lại những cải tiến đáng kể trong việc chẩn đoán, dự đoán và quản lý bệnh tật. Tuy nhiên, vẫn còn nhiều thách thức cần được giải quyết, bao gồm việc phát triển các thuật toán khai phá dữ liệu hiệu quả hơn, việc tích hợp các nguồn dữ liệu khác nhau và việc đảm bảo tính riêng tư của dữ liệu bệnh nhân. Trong tương lai, chúng ta có thể kỳ vọng sẽ thấy sự phát triển mạnh mẽ của lĩnh vực này và những ứng dụng rộng rãi của nó trong y học.

5.1. Các Hướng Nghiên Cứu Tiềm Năng trong Tương Lai

Một số hướng nghiên cứu tiềm năng trong tương lai bao gồm: phát triển các thuật toán khai phá dữ liệu mờ mới, tích hợp khai phá dữ liệu mờ với các phương pháp Machine Learning Y sinh khác, và ứng dụng khai phá dữ liệu mờ trong các lĩnh vực y sinh mới như Precision Medicine. Ngoài ra, việc phát triển các công cụ trực quan hóa dữ liệu giúp các chuyên gia y tế dễ dàng hiểu và sử dụng kết quả khai phá dữ liệu cũng là một hướng đi quan trọng.

5.2. Tác Động của Khai Phá Dữ Liệu Mờ đến Ngành Y Tế

Khai phá dữ liệu mờ có tiềm năng thay đổi cách thức hoạt động của ngành y tế. Bằng cách cung cấp thông tin chính xác và dễ hiểu, nó có thể giúp các bác sĩ đưa ra các quyết định điều trị tốt hơn, cải thiện chất lượng chăm sóc bệnh nhân và giảm chi phí y tế. Nó cũng có thể giúp các nhà nghiên cứu hiểu rõ hơn về cơ chế bệnh tật và phát triển các phương pháp điều trị mới.

14/05/2025

Trích đoạn nội dung tài liệu

FUZZY-GRANULAR BASED DATA MINING FOR EFFECTIVE DECISION SUPPORT IN BIOMEDICAL APPLICATIONS by YUANCHEN HE Under the Direction of Raj Sunderraman and Yan-Qing Zhang ABSTRACT Due to complexity of biomedical problems, adaptive and intelligent knowledge discovery and data mining systems are highly needed to help humans to understand the inherent mechanism of diseases. For biomedical classification problems, typically it is impossible to build a perfect classifier with 100% prediction accuracy. Hence a more realistic target is to build an effective Decision Support System (DSS). In this dissertation, a novel adaptive Fuzzy Association Rules (FARs) mining algorithm, named FARM-DS, is proposed to build such a DSS for binary classification problems in the biomedical domain.

Empirical studies show that FARM-DS is competitive to state-of- the-art classifiers in terms of prediction accuracy. More importantly, FARs can provide strong decision support on disease diagnoses due to their easy interpretability. This dissertation also proposes a fuzzy-granular method to select informative and discriminative genes from huge microarray gene expression data. With fuzzy granulation, information loss in the process of gene selection is decreased.

As a result, more informative genes for cancer classification are selected and more accurate classifiers can be modeled. Empirical studies show that the proposed method is more accurate than traditional algorithms for cancer classification. And hence we expect that genes being selected can be more helpful for further biological studies. INDEX WORDS: Data Mining, Knowledge Discovery, Computational Intelligence, Granular Computing, Fuzzy Association Rule Mining, Decision Support System, Binary Classification, Bioinformatics FUZZY-GRANULAR BASED DATA MINING FOR EFFECTIVE DECISION SUPPORT IN BIOMEDICAL APPLICATIONS by YUANCHEN HE A Dissertation Submitted in Partial Fulfillment of Requirements for the Degree of Doctor of Philosophy in the College of Arts and Sciences Georgia Stage University 2006 UMI Number: 3243236 Copyright 2006 by He, Yuanchen All rights reserved.

UMI Microform 3243236 Copyright 2007 by ProQuest Information and Learning Company. All rights reserved. This microform edition is protected against unauthorized copying under Title 17, United States Code. ProQuest Information and Learning Company 300 North Zeeb Road P.

Box 1346 Ann Arbor, MI 48106-1346 Copyright by Yuanchen He 2006 FUZZY-GRANULAR BASED DATA MINING FOR EFFECTIVE DECISION SUPPORT IN BIOMEDICAL APPLICATIONS by YUANCHEN HE Major Professor: Rajshekhar Sunderraman Yan-Qing Zhang Committee: Saeid Belkasim Yichuan Zhao Electronic Version Approved: Office of Graduate Studies College of Arts and Sciences Georgia State University December 2006 iv Acknowledgments Firstly, my specific thanks go to my co-advisors, Dr. Rajshekhar Sunderraman and Dr. Yan-Qing Zhang, for their careful guidance and precise advisement during the process of my PhD dissertation. The dissertation would not have been possible without their helps.

Secondly, I would like to thank my committee members, Dr. Saeid Belkasim and Dr. Yichuan Zhao for their well-appreciated support and assistance. Finally, I want to thank my family and friends for their support and beliefs.

v TABLE OF CONTENTS LIST OF TABLES .VIII LIST OF ACRONYMS.2 METRICS FOR CLASSIFICATION .1 KNOWLEDGE DISCOVERY, DATA MINING, AND DATA WAREHOUSING .2 ASSOCIATION RULE MINING .2 THE APRIORI ALGORITHM .3 ASSOCIATION RULE MINING FOR CLASSIFICATION .4 SOFT COMPUTING AND FUZZY LOGIC .1 FUZZY CONCEPT IN THE DATA MINING DOMAIN.2 FUZZY DATA MODELING .2 PROBABILITY DISTRIBUTION AND FUZZY SETS .3 DATA MINING AND QUANTITATIVE DATA.1 TRANSFORMING QUANTITATIVE DATA .2 FUZZY DATA MINING .3 FINDING FUZZY SETS.5 FUZZY ASSOCIATION RULE MINING .6 FUZZY ASSOCIATION RULE MINING FOR CLASSIFICATION .8 CLUSTERING AND DATA ABSTRACTION .2 REPRESENTATION OF CLUSTERS. 32 CHAPTER 3 FUZZY ASSOCIATION RULE MINING FOR DECISION SUPPORT .1 STEP 1: FUZZY INTERVAL PARTITIONING .2 STEP 2: DATA ABSTRACTING .3 STEP 3: GENERATING FUZZY DISCRETE TRANSACTIONS .4 STEP 4: MINING ASSOCIATION RULES. 46 CHAPTER 4 FARM-DS FROM MEDICAL DATA.2 RESULTS ANALYSIS ON EFFECTIVENESS .3 RESULT ANALYSIS ON EFFICIENCY .4 RESULT ANALYSIS ON INTERPRETABILITY. 52 CHAPTER 5 FARM-DS FROM MICROARRAY EXPRESSION DATA .2 CHALLENGES FOR BIOINFORMATICS SCIENTISTS .3 SIMULATION ENVIRONMENT AND DATASETS.4 PERFECT GENE SUBSETS .5 GENE-CANCER KNOWLEDGE DISCOVERY .6 FUZZY ASSOCIATION RULES.

64 CHAPTER 6 FUZZY-GRANULAR GENE SELECTION FROM MICROARRAY EXPRESSION DATA. TRADITIONAL ALGORITHMS FOR GENE SELECTION. SVM FOR CANCER CLASSIFICATION. CORRELATION-BASED FEATURE RANKING ALGORITHMS FOR GENE SELECTION 68 6.

A NEW FUZZY-GRANULAR BASED ALGORITHM FOR GENE SELECTION. FUZZY C-MEANS CLUSTERING. FUZZY-GRANULAR BASED GENE SELECTION. 80 CHAPTER 7 CONCLUSIONS AND FUTURE WORKS.

83 vii LIST OF FIGURES Figure 1. confusion matrix 2 Figure 1. Sample of Area under ROC curve 5 Figure 1. Sample of Area under Precision/Recall 7 Figure 2.

Apriori algorithm 12 Figure 2. discrete interval method 19 Figure 2. creating overlapping regions 20 Figure 2. fuzzy partition 20 Figure 3.

a sketch of FARM-DS 34 Figure 3. an example to project a sample onto a feature 44 Figure 4. an example to decide the optimal 50 Figure 6. positive-related gene, negative-related gene, both, neither 71 Figure 6.

Fuzzy-Granular gene selection 74 viii LIST OF TABLES TABLE 2.1 Notation for mining algorithm 11 TABLE 4.1 characteristics of datasets used for experiments 48 TABLE 4.2 farm-ds modeling results with trapezoidal-shaped membership functions by 5-fold cross validation 51 TABLE 4.3 validation error comparison by 5-fold cross validation 51 TABLE 4.4 running time comparison with 5-fold cross validation 52 TABLE 4.5 The feature information of the wisconsin Breast cancer data set 52 TABLE 4.6 12 wrongly classified samples on wisconsin breast cancer dataset 53 TABLE 4.7 the most general and the most specific fired rules for the 1st sample in fold 1 on wisconsin breast cancer dataset 54 TABLE 4.8 activation frequency of features on the wisconsin Breast cancer data 55 TABLE 5.1 characteristics of datasets 60 TABLE 5.2 a perfect gene subset selected on the aml/all dataset 61 TABLE 5.3 a perfect gene subset selected on the colon cancer dataset 62 TABLE 5.4 a perfect gene subset selected on the prostate cancer dataset 62 TABLE 5.5 classification errors of the four models 62 TABLE 5.6 auc of the four models 63 TABLE 5.7 rule numbers of the four models 63 TABLE 5.8 average rule lengths of the four models 63 ix TABLE 5.9 5 fuzzy association rules for aml/all dataset 64 TABLE 5.10 8 fuzzy association rules for colon dataset 64 TABLE 5.11 15 fuzzy association rules for prostate dataset 65 TABLE 6.1 leave-one out validation performance on the prostate cancer dataset 79 TABLE 6.632 bootstrapping performance on the prostate cancer dataset 79 TABLE 6.3 leave-one out validation performance on the colon cancer dataset 79 TABLE 6.632 bootstrapping performance on the colon cancer dataset 79 x LIST OF ACRONYMS Fuzzy Association Rule Mining FARM Decision Support DS 1 CHAPTER 1 INTRODUCTION In the last decade, with the advent of genomic and proteomic technologies, more and more biomedical databases have been created and have been growing in an exponential rate. Developing intelligent data analysis tools is essential to extract knowledge from these databases to ease biomedical decision-making process. The knowledge extracted from these databases is expected to be as accurate as possible. However, due to complexity and huge sizes of biomedical databases, it is difficult or even impossible to find 100% accurate knowledge.

Therefore, a more realistic goal is to build an intelligent data analysis tool as an effective Decision Support System (DSS). That is, the role of such a data analysis tool is not to replace human experts, but only to assist human experts to make decisions more reliably.1 Binary classification In this dissertation, we focus on binary classification modeling. Although binary classification is the simplest classification problem, many works show that the models for it can be naturally extended to multiple classification or regression problems. (This extension itself is an interesting research topic and will not be covered in this dissertation.) A general binary classification problem is defined as follows: • Given l independent and identically distributed (i.) samples ( x1 , y1 ), ( x2 , y2 ), K, ( xl , yl ) where xi ∈ R d , for i = 1,2,L, l is a feature vector 2 of length d and yi = {+1,−1} is the class label (+1 for the positive class, and -1 for the negative class) for data point xi , • Assume the classes are mutually exclusive and exhaustive, which means every sample has one and only one class label, • Find a classifier with the decision function f ( x,θ ) such that y = f ( x,θ ) , where y is the class label for x, θ is a vector of unknown parameters in the function.

These l samples are called “training data”. real negatives real positives predicted (TN) true (FN) false negatives negatives negatives predicted (FP) false (TP) true positives positives positives Figure.2 Feature selection Some binary classification problem is more natural to be modeled as a binary ranking modeling. Protein homology prediction task is a good example. The target is to predict if a protein sequence is homologous to another pre-specified natural protein sequence.

Because of biological complexity, it is difficult and arbitrary to say two protein sequences are absolutely homologous or not (1 or -1 is output); an output with "confidence" may be more helpful. In this way, many protein sequences could be ranked by their confidence to be homologous to the pre-specified protein sequence. As a result, biologists could quickly 3 prioritize a list of protein sequences for further study and thus their working efficiencies can be enhanced. A binary ranking problem is similar to a binary classification problem.

The differences are • the output is a real number in the field of [-1,1], and • the absolute value of the output is useless. Intuitively, a good model should rank the unseen positive samples (in case of protein homology prediction, they are homologous protein sequences) close to the top and rank unseen negative samples (in case of protein homology prediction, they are non-homologous protein sequences) close to the bottom of the list.3 Feature selection Feature selection is another important task usually correlated with a classification problem. Given a dataset, some input features may be irrelevant to classification. Furthermore, some features may be redundant or even noise due to complex correlations among them to hide real data distribution.

Hence, relevance analysis may be performed on the data with the aim of removing any irrelevant, redundant or noisy features from the learning process. In machine learning, this process is known as feature selection to filter out features, which may otherwise slow down, and possibly mislead, the learning step. Relevance analysis is closely related to binary classification. Suppose there are d input features in the original dataset, the target of feature selection is to select d i informative features while removing d n non-informative features.

The target is that the classifier modeled on the subset of d i features has better performance than the classifier modeled in the original feature set.2 Metrics for classification The performance of the classifier is usually measured in terms of misclassification error on unseen “testing data” which is defined in Eq.1) ⎩ 1 otherwise Based on the confusion matrix in Fig.1, many other metrics have been used for performance evaluation on classification. • Accuracy is the fraction of correctly classified samples over all samples. TN + TP accuracy = .2) TN + FN + FP + TP The overall accuracy metric at Eq.2) represents the same meaning as misclassification error. Both of them are used to evaluate classification performance on the whole dataset.

Besides them, two other kinds of metrics have been proposed for different purposes. The first kind of metrics is concern with balanced classification ability. Sensitivity at Eq.3) and specificity at Eq.4) are usually adopted to monitor classification performance on two classes, separately. • Sensitivity is the fraction of the real positives that actually are correctly predicted as positives.

• Specificity is the fraction of the real negatives that actually are correctly predicted as negatives.3) TP + FN TN specificity = .4) TN + FP 5 Notice that sensitivity is sometimes called true positive rate or positive class accuracy, while specificity called true negative rate or negative class accuracy, in different research communities.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ