Phương Pháp Machine Learning Trong Phân Loại Ung Thư

Khóa luận trình bày các phương pháp machine learning trong phân loại ung thư dựa trên dữ liệu biểu hiện gen, mang lại giải pháp hiệu quả.

2024

96
1
0

Phí lưu trữ

35 Point

Mục lục chi tiết

ACKNOWLEDGEMENT

1. CHAPTER 1: INTRODUCTION

1.1. Background

1.2. Problem Statement

1.3. Research Questions

2. CHAPTER 2: BACKGROUND AND THEORY

2.1. Basic Knowledge of Gene

2.2. Regulation of gene expression

2.2.1. Post-transcriptional regulation

2.2.2. Post-translational regulation

2.3. Methods for measuring gene expression

2.3.1. Quantitative Polymerase Chain Reaction (QPCR)

2.4. Basic Knowledge of Acute Leukemia (Blood Cancer)

2.4.1. What is Blood Cancer?

2.4.2. What is Acute Lymphoblastic Leukaemia (ALL)?

2.4.2.1. Definition Acute Lymphoblastic Leukaemia
2.4.2.2. Types of ALL

2.4.3. Philadelphia positive ALL

2.4.4. What is Acute Myeloid Leukaemia (AML)?

2.4.4.1. Definition of Acute Myeloid Leukaemia
2.4.4.2. Types of AML

2.4.5. AML starts in the bone marrow

2.4.6. Symptoms of blood Cancer

2.4.7. Cancer-Causing Agents

2.4.8. Dangerous level of blood Cancer

2.4.9. Impact of Initial and Prolonged Exposure to Carcinogen

2.5. Machine Learning Based Approaches

2.5.1. Advantages and disadvantages

3. CHAPTER 3: RESEARCH METHODOLOGY

3.1. About the Dataset

3.2. Explicate Problem

4. CHAPTER 4: OUR EXPERIMENTS AND RESULTS

4.1. General Processing Model

4.1.1. Import actual dataset the ALL/AML label

4.1.2. Import training set and testing Set

4.1.3. Feature Engineering

4.2. Model Building

4.2.1. Classification Report Confusion Matrix of Naive Bayes Model

4.2.2. Logistic Regression

4.2.2.1. Confusion Matrix of Logistic Regression
4.2.2.2. Classification Report Confusion Matrix of Logistic Regression Model

4.2.3. Support Vector Machine

4.2.3.1. Confusion Matrix of Support Vector Machine
4.2.3.2. Classification Report Confusion Matrix of Support Vector Machine Model

4.2.4. Decision Tree

4.2.4.1. Confusion Matrix of Decision Tree
4.2.4.2. Classification Report Confusion Matrix of Decision Tree Model

4.2.5. Random Forest

4.2.5.1. Confusion Matrix of Random Forest
4.2.5.2. Classification Report Confusion Matrix of Random Forest Model

4.2.6. XGBoost

4.2.6.1. Confusion Matrix of XGBoost
4.2.6.2. Classification Report Confusion Matrix of XGB Model

4.2.7. Adaboost

4.2.7.1. Confusion Matrix of Adaboost
4.2.7.2. Classification Report Confusion Matrix of Adaboost Model

4.2.8. Neural Network

4.2.8.1. Confusion Matrix of Neural Network
4.2.8.2. Classification Report Confusion Matrix of Neural Network Model

4.2.9. K-means Clustering

4.2.9.1. Confusion Matrix of K-means Clustering
4.2.9.2. Classification Report Confusion Matrix of K-means Clustering Model

4.3. Compare Evaluation of Built Models

4.4. Performance Metrics

4.5. Conclusion of comparing the evaluation of the models

5. CHAPTER 5: CONCLUSION AND FUTURE RESEARCH DIRECTIONS

CHAPTER 6: REFERENCES

Tóm tắt

I. Tổng Quan Về Phương Pháp Machine Learning Trong Phân Loại Ung Thư

Phương pháp Machine Learning đã trở thành một công cụ quan trọng trong việc phân loại ung thư, đặc biệt là trong việc xử lý dữ liệu gene. Sự kết hợp giữa công nghệ và sinh học đã mở ra những hướng đi mới trong nghiên cứu ung thư. Các nghiên cứu trước đây, như của Golub et al. (1999), đã chỉ ra rằng việc phân tích mẫu gene có thể giúp xác định các loại ung thư khác nhau. Sự phát triển của các phương pháp học máy đã tạo điều kiện cho việc phân loại chính xác hơn các loại ung thư, từ đó cải thiện khả năng chẩn đoán và điều trị.

1.1. Tầm Quan Trọng Của Dữ Liệu Gene Trong Phân Loại Ung Thư

Dữ liệu gene cung cấp thông tin quý giá về các đặc điểm sinh học của tế bào ung thư. Việc phân tích dữ liệu này giúp xác định các mẫu gene đặc trưng cho từng loại ung thư, từ đó hỗ trợ trong việc phân loại chính xác hơn.

1.2. Lịch Sử Phát Triển Của Machine Learning Trong Y Tế

Sự phát triển của Machine Learning trong y tế bắt đầu từ những năm 1990, với các ứng dụng đầu tiên trong phân tích dữ liệu y tế. Các nghiên cứu đã chỉ ra rằng học máy có thể cải thiện độ chính xác trong chẩn đoán và điều trị ung thư.

II. Thách Thức Trong Phân Loại Ung Thư Bằng Machine Learning

Mặc dù Machine Learning mang lại nhiều lợi ích, nhưng vẫn tồn tại nhiều thách thức trong việc phân loại ung thư. Một trong những vấn đề lớn nhất là độ chính xác của các mô hình. Các phương pháp truyền thống thường gặp khó khăn trong việc phân loại chính xác các loại ung thư, đặc biệt là Acute Myeloid Leukemia (AML)Acute Lymphoblastic Leukemia (ALL). Việc thiếu dữ liệu chất lượng cao và sự phức tạp của các mẫu gene cũng là những yếu tố gây khó khăn.

2.1. Độ Chính Xác Của Các Mô Hình Machine Learning

Độ chính xác của các mô hình Machine Learning phụ thuộc vào chất lượng và số lượng dữ liệu đầu vào. Việc thiếu dữ liệu có thể dẫn đến các kết quả không chính xác trong phân loại ung thư.

2.2. Sự Phức Tạp Của Dữ Liệu Gene

Dữ liệu gene thường rất phức tạp và đa dạng, điều này làm cho việc phân tích và phân loại trở nên khó khăn. Các mô hình cần phải được tối ưu hóa để xử lý tốt các loại dữ liệu này.

III. Phương Pháp Machine Learning Chính Trong Phân Loại Ung Thư

Có nhiều phương pháp Machine Learning được áp dụng trong phân loại ung thư, bao gồm học sâu, rừng ngẫu nhiên, và hồi quy logistic. Mỗi phương pháp có những ưu điểm và nhược điểm riêng, và việc lựa chọn phương pháp phù hợp là rất quan trọng. Nghiên cứu này sẽ so sánh hiệu suất của các phương pháp này trong việc phân loại AMLALL.

3.1. Học Sâu Trong Phân Loại Ung Thư

Học sâu đã chứng minh được hiệu quả trong việc phân loại các loại ung thư phức tạp nhờ khả năng tự động trích xuất đặc trưng từ dữ liệu. Các mô hình như mạng nơ-ron tích chập (CNN) thường được sử dụng trong phân tích hình ảnh y tế.

3.2. Rừng Ngẫu Nhiên Và Hồi Quy Logistic

Rừng ngẫu nhiên là một phương pháp mạnh mẽ trong phân loại, giúp cải thiện độ chính xác bằng cách kết hợp nhiều cây quyết định. Hồi quy logistic cũng là một lựa chọn phổ biến nhờ tính đơn giản và dễ hiểu.

IV. Ứng Dụng Thực Tiễn Của Machine Learning Trong Phân Loại Ung Thư

Các ứng dụng của Machine Learning trong phân loại ung thư đã cho thấy những kết quả khả quan. Nghiên cứu đã chỉ ra rằng việc áp dụng các mô hình học máy có thể cải thiện đáng kể độ chính xác trong chẩn đoán AMLALL. Các mô hình này không chỉ giúp phân loại mà còn hỗ trợ trong việc phát triển các phương pháp điều trị cá nhân hóa.

4.1. Kết Quả Nghiên Cứu Về Phân Loại Ung Thư

Nghiên cứu đã chỉ ra rằng các mô hình Machine Learning có thể đạt được độ chính xác lên đến 95% trong việc phân loại các loại ung thư, cho thấy tiềm năng lớn trong việc cải thiện chẩn đoán.

4.2. Tương Lai Của Machine Learning Trong Y Tế

Tương lai của Machine Learning trong y tế hứa hẹn sẽ mang lại nhiều đột phá mới. Việc phát triển các mô hình thông minh hơn sẽ giúp cải thiện khả năng chẩn đoán và điều trị ung thư.

V. Kết Luận Về Phương Pháp Machine Learning Trong Phân Loại Ung Thư

Phương pháp Machine Learning đã chứng minh được giá trị của mình trong việc phân loại ung thư, đặc biệt là trong việc xử lý dữ liệu gene. Mặc dù còn nhiều thách thức, nhưng tiềm năng của các phương pháp này trong việc cải thiện chẩn đoán và điều trị là rất lớn. Nghiên cứu này đã chỉ ra rằng việc áp dụng các mô hình học máy có thể mang lại những kết quả khả quan trong phân loại AMLALL.

5.1. Tóm Tắt Các Phát Hiện Chính

Nghiên cứu đã chỉ ra rằng Machine Learning có thể cải thiện độ chính xác trong phân loại ung thư, từ đó hỗ trợ trong việc phát triển các phương pháp điều trị cá nhân hóa.

5.2. Hướng Nghiên Cứu Tương Lai

Hướng nghiên cứu tương lai sẽ tập trung vào việc phát triển các mô hình Machine Learning mới, nhằm cải thiện hơn nữa khả năng phân loại và chẩn đoán ung thư.

10/07/2025

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY — HO CHI MINH CITY UNIVERSITY OF INFORMATION TECHNOLOGY FACULTY OF INFORMATION SYSTEMS Pham Minh Quang — 19522099 Nguyen Huynh Thao Nhu — 19521970 GRADUATION THESIS Machine Learning Methods for Cancer Classification BACHELOR OF ENGINERRING IN INFORMATION SYSTEMS THESIS ADVISOR Ph. NGUYEN THANH BINH HO CHI MINH CITY, 2024 ASSESSMENT COMMITTEE The Assessment Committee is established under the Decision. -- , date Rector of the University of Information Technology. Le ccc ccc cece cence cece teense eeeeteeeaneees — Chairman.

Qe eee ec — Secretary. Bo cece cece. ACKNOWLEDGEMENT We would like to express our sincere appreciation to the University of Information Technology for providing an enriching and supportive environment that consistently offers motivating opportunities for individual growth in both learning and research. The diverse array of events, including seminars, student fairs, job fairs, and career days, has played a pivotal role in shaping our personal and professional development.

Furthermore, our heartfelt gratitude extends to our dedicated supervisor, Ph. Nguyen Thanh Binh, whose unwavering support and academic guidance have been indispensable throughout this research journey. Nguyen Thanh Binh not only played a crucial role in shaping the direction and quality of our work but also provided continuous support and valuable insights. Nguyen Thanh Binh's guidance, the excellence achieved in this thesis would not have been possible.

In addition to acknowledging our academic mentors, we express deep appreciation to our families for their unwavering support during the challenging process of completing this thesis. Their presence by our side alleviated our worries and stress, allowing us to concentrate on our academic pursuits with greater ease. Throughout the thesis writing process, we want to emphasize our true commitment and relentless work. We made a concerted effort to overcome every hurdle with tenacity and excitement, even if the journey was not without its share of hardships and challenges.

We aspire for the thesis's end product to demonstrate our commitment and diligence. Simultaneously, should any flaws in the finished product be found, we look to our mentors for empathy and understanding. Your patience and encouragement will be a great source of inspiration for us as we work to grow and absorb this experience. We sincerely thank you for the support and guidance provided by our mentors throughout this journey, and we trust that our commitment will be evident in the final achievement of the thesis.

We believe that the finished product accurately captures our passion and commitment. At the same time, we ask our mentors for empathy and understanding if any flaws are found in the final product. We trust that our commitment will be evident in the final achievement of the thesis. We sincerely appreciate! Pham Minh Quang Nguyen Huynh Thao Nhu DEPARTMENTAL COMMENTS emcee ÓC ĐÓ ĐC ĐÓ CĐ 9 0000000000000 00000000 000000000000000000000000000000000000000000000000000000000000000000000000006 0660606060000 e 606 CHAPTER 1: INTRODUCTION.

CHAPTER 2: BACKGROUND AND THEORY. ---- S1 ST 92T H111 TH HT HT HH 14 2.1 Basic Knowledge of Gene. What is DNA? oo. 14 PIN 00 0 190(00o2ầaaaẳầặầầäặaặaặẶẶ.

What is Gene? oo.2 Basic Knowledge of Gene EXPT€SSIOH. G0 11v TH HT HT HH TH TH nh HT Hàng rệt 18 2.1 Stages in Gene EXPT€SSIOII.- - t1 HT TH TH TH HT TH TT HH nh ng H 2. SG 121 20121 1 9111 11 11 111 HT HT ch HT TH TH TH HT TH TH ch ghi 2.2 Regulation of gene expression .2 __ Post-transcriptional regØulafIOII.4 Post-translational regulafOH.--- «St + + E11 ST TH HT TH TT Hàn HT gưệt 22 2. Methods for measuring gene €XpT€SSIOII.

2631211211511 1511511511111 11 1111 11T Hàn nh chư 22 2. + TE ST HT TT TT HT HH TH HH Tiệc 22 2.2 Quantitative Polymerase Chain Reaction (QPCR) .3 Basic Knowledge of Acute Leukemia (Blood Cancer) .1 What is Blood Cancer? .2 What is Acute Lymphoblastic Leukaemia (ALL))?.1 Definition Acute Lymphoblastic Leukaerm1a.2 Types of ALÌL. St nSn 1S * 1v 1T 11111 1T TH TH TT TH TT TH TH TH TH TH TH TH Hy 24 2.3 Philadelphia positive ALL. 2c 32132112111 11511111 1111111 111 1 11111 TT HT nàn Hy 24 2.

What is Acute Myeloid Leukaemia (AML)? .1 Definition of Acute Myeloid Leuka€Imla.2 Types of AML,. nh TH HT HT HT TH TT HT TH TT HT Tàn ch ghe 26 2. AML starts in the bone IATTOW. án TT TT TT HT HT Hàng HH ưệt 26 2.4 Symptoms of blood Cancer.- (E111 EE 1 SE TT HT TT TT TT TT HT TH TH HT gưệt 27 2.5 Cancer-Causing Að€IS.

kh TT HT TH TT HT TH TT TT TT TT HT TH TT gưệt 28 2.6 Dangerous level of blood Cancer.4 Impact of Initial and Prolonged Exposure to Carcinogen .cceccccescesccecessceseesecesceseesesseeecesessecseseeeeaeesecaecesseaecsesseceeeeaeesecsecerseaeeaeeneeerseseeseeateats 29 VÀ VANGÌ.6 Blood cancer tr€afI€I(.- --- (2232131321821 193 131891191111 191 811911 1 01101111 11H HH TH TH TH ng TH cư 2.1 Machine Learning Based Approacli€s. - -- --- c6 +11 13111151 1111151111 1111111 11 111111 11H nàn chư "mm. "PP nh Soon a.3 Advantages and disadvantages. PP ANH EU, C00.

PA MẦOŨẦOŨŨỒIẮIẮẰIẰŨŨÃ.3 Advantages and Disadvantages n6 ae .3 Advantages and disadvantages nh” ÚUÚUD. St ST TH TH TT TH HT TT TH TT HT TH TT TT TT Hàn PP VN. Advantages and Disadvantages of Random Forest. PA¬ XGBOOSt ee.

Advantages and disadVanfaØ€s. tt T TH TT TH TT HT HT TH HH gưệc PA So on.3 Advantages and disadVanfAØ€S. 312201211 11111111 11111111111 1 H1 11 11T TH HH nh nà Hư "Nà oi. PA XNK} oan ouU:aaaaaaaaaaaaađaa.

ch HT Hàn TT HT TH TT HH TH TH TH 2. Advantages and disadVanifaØCS.- + t1 TH nh HT TH HT HH Tàn HT ch it 2. Advantages and DisadVanfaØ€S. -- Ác kh HH TH TT HT TH TH TH TH TH ngư CHAPTER 3: RESEARCH METHODOLOYY.1 About the Dataset 1.

EU lao ocraẲ$Ỷ.3 Explicate Problem CHAPTER 4: OUR EXPERIMENTS AND RESULTS.1 General Processing Model .1 Import actual dataset the ALL/AML label.2 Import training set and testing Set .- + t1 HH TT TT HT TH TT HH nh cung 4.3 Feature Engineering oo. 64 "nh Model Building .2 Classification Report Confusion Matrix of Naive Bayes Model.2 Logistic R€BT€SSIOH. TT TH TH TT HH TT HT TH TH TT HT TH TT TH ch He 71 4.1 Confusion Matrix of Logistic Ñ€BT€SSIOH. -ó- S11 121 91 919119111101 g1 ng HH gà nưệc 71 4.2 Classification Report Confusion Matrix of Logistic Regression Model .3 Support Vector Machine 1.1 Confusion Matrix of Support Vector Machine.2 Classification Report Confusion Matrix of Support Vector Machine Model.1 Confusion Matrix of Decision “T €.

+ 2t 1912112115111 121 1111111111 111 1n HT Tàn nưệt 76 44.2 Classification Report Confusion Matrix of Decision Tree Model .5 Random FOT€SẨ. c6 c1 SE Tnhh TT TT HT TT TT TT TH HT HT HT TH nh 78 4.1 Confusion Matrix of Random FOF€S(. ¿tt 3x3 EEE ST TT HT HH rệt 78 4.2 Classification Report Confusion Matrix of Random Forest Model .1 Confusion Matrix of XG — BOOSÍ. cóc Sàn TH TH HT TT TH TT Hàn Tàn tiệt 81 44.2 Classification Report Confusion Matrix of XGB Model .1 Confusion Matrix of AdabOOSI.2 Classification Report Confusion Matrix of Adaboost Model.

ch th HH HT HT HT HH HT HH, 87 4.1 Confusion Matrix of Neural NetwOrd.2 Classification Report Confusion Matrix of Neural Netword Model.1 Confusion Matrix of K — means C[USf€TITE.- - 6 E111 91 9121191 5111 11 12t vn gàng rệt 89 44.2 Classification Report Confusion Matrix of K — means Clustering Model .1 Compare Evaluation of Built Models 4.2 Performance Metrics nh cố .3 Conclusion of comparing the evaluation of the modeÌS. --- 5+ 2333 +vE+Evxexsereerrerrrrsrrrre 94 CHAPTER 5: CONCLUSION AND FUTURE RESEARCH DIRECTIONS.---- 5c Scscsrecssrrrres 95 CHAPTER 6: REFERENCES 0n. Structure of the DNA Double Helix. -- - - «+ +31 1 1 1 11T TT nọ TH Hà HH nh nh Hư 15 Figure 2.

¿- 11111 1 111 TH HH TH TH TH TT TH HH HH HT TH Tà TH TT Tư 16 Figure 3. Chromosomes of Human €TOITC.- - x94 1911111615 1 1v TH HT TH HH Tư 17 Figure 5. Gene EXT€SSSIOTI. (Tnhh HH HT TH TH TT TH HH HH HH TT TH HH 18 iltš.

Regulation of Transcription in Eukaryotic C@ÏÏS. Different types of blood cancer: (A) Leukemia, (B) Lymphoma, and (C) Myeloma. Acute Lymphoblastic Leuk€Im1a. - --- - - + + + x3 E kề vn TT TH TH TH nh rêt 24 Figure 11.

Schematic representation of the Philadelphia chrorOSOING. Acute Myeloid Leukaemia. -- -« <- 6 E111 E1 nh TT Hà Hà HT TH TH TT HH HH Hiệp 26 Figure 13. Diagram of a person's hip DOfI€S.

- -- -- 6 6 6111 19191 19111 HH HH TH TH TH TT Tư HH HH 27 Figure 14. Different stages that C€Ï S.- 6 19121211 1 1 1 HH TH TT TH HH TH TH TT Thư Hư HH 27 Figure 15. Symptoms of blood CaTC€T. 1119112112111 1v HH HT nh nh TH HH HH TH TH TH TT Tư HH 28 Figure 16.

Stages of Blood CannC€T. ¿E525 222 139153151 1 5111 3 11 011 TT TT TT TT TT TH TH 30 Figure 17. Current available treatment strategy for Blood Cancer. S11 vn TT TT TT Hà HH Thọ TH TT HH HH HT TT TT Tư Hàn 34 Figure 19: Support Vector Machine (SM),.- «S11 EH TH TH TT TH Họ HH HH TT TH TH TH TH Hàn ĐH 36 Figure 20: Random Forest .-- -- ¿6 111 1 E11 11911 1 1T nh Hà HT HC TT Thọ TH Hà HH HH TT TT Hà Hà ĐH 38 Figure 21: Random Forest FOTIUÌa.

- 6 6 11 E31 11 11 11 1 1H HH TH TT To TT HH HT HT TT TH HH 39 Figure 22: XGBoost FOTTUÌá. -6 1E E1 11 19919 111 1K HH HH HT TH TT TH HT HT ch cư cư Hà 42 Figure 23: AdabOOSf.- cà TH TH TH nh nh Hà HH TH Họ TT TT TH HH HT TH TT TT HH TT ch cư cư Hà 44 Figure 24: Neural Ne€tWOTK. cach ST HH HT nh TT HH HH HT TH TT TT TH Hi cư Hà 47 Figure 25: Neural Network FOTITNUÏlA.-- - ¿tk k1 91191111 1k kh HH HH HT TT TT HH HT ch ch cư 47 Figure 26: Visualization of K ÌM€AIS. (111211211211 11 1111 vn HH HT TT TT HH HT TT ch chà 50 Figure 27.

Ác LH HH HT Họ TH TT Hà HH HH HT TH TH TT HH HH TT TT Hà 60 Figure 31.-- ‹- c1 HT TT TH TT HH HH HT TT TT HH TH TT Hà 61 Figure 32. HT TH Hà HT TH TH TT TT HH Hi HH TT TH TH HT Thư 61 Figure 33.- «+ 1n TT TH TH TH TT HH Hi HT TT TT Tà HH TH ch Tư 62 Figure 34. Data Scaling wo. raầđầiidđiađiiii5.

- «s1 11111 11v TT TT TH HH HH HH HT TT TH 67 Figure 37. Confusion Matrix of Naive Bayes Model with Origin ÏDafa.---- eece eens ceceeeeeeeteeeeeeaeeeeaeeee 69 Figure 38. Confusion Matrix of Naive Bayes Model with Data Scaler 0. Confusion Matrix of Naive Bayes Model with PC A.--- -- + tk HH HT HT HH 70 Figure 40.

Confusion Matrix of Logistic Regression Model with Origin ÏData. Confusion Matrix of Logistic Regression Model with Data ScaÏer. Confusion Matrix of Logistic Regression Model with PCA. vn HH Hư 73 Figure 43.

Confusion Matrix of Support Vector Machine Model with Origin Dafa. Confusion Matrix of Support Vector Machine Model with Data Scaler. Confusion Matrix of Support Vector Machine Model with PCA. Confusion Matrix of Decision Tree Model with Origin ÏDafa.

Confusion Matrix of Decision Tree Model with Data Scaler. Confusion Matrix of Decision Tree Model with PCA .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ