PHÁT HIỆN MÃ XẤU TRONG CHƯƠNG TRÌNH BẰNG PHƯƠNG PHÁP HỌC SÂU

Trường đại học

Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

TÓM TẮT

ABSTRACT

MỤC LỤC

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

DANH MỤC CÁC TỪ VIẾT TẮT

1. CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1.1. Đồ thị thuộc tính mã nguồn

1.1.1. Chuyển đổi cây cú pháp trừu tượng

1.1.2. Chuyển đổi đồ thị luồng điều khiển

1.1.3. Chuyển đổi đồ thị phụ thuộc chương trình

1.1.4. Kết hợp các biểu diễn

1.2. Mạng nơ-ron đồ thị

1.2.1. Tổng quan về mạng nơ-ron

1.2.2. Tổng quan về mạng nơ-ron đồ thị

1.2.3. Mạng đồ thị tích chập đa quan hệ

1.2.4. Tăng tốc độ học cho mạng đồ thị tích chập

1.2.5. Mạng đồ thị quan hệ chú ý

1.3. Các phương pháp phát hiện mã xấu dựa trên học sâu hiện đại

1.3.1. Phát hiện brain class và brain method trong mã nguồn Java

1.3.2. Phát hiện mã xấu dựa trên bộ dữ liệu tự sinh

2. CHƯƠNG 2: PHƯƠNG PHÁP PHÁT HIỆN MÃ XẤU DỰA TRÊN ĐỒ THỊ

2.1. Tổng quan phương pháp đề xuất

2.2. Xây dựng đồ thị thuộc tính từ mã nguồn

2.3. Xây dựng mô hình phát hiện mã xấu từ đồ thị

2.4. Các dạng mã xấu trong phạm vi nghiên cứu

3. CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ

3.1. Dữ liệu thực nghiệm

3.2. Tiêu chí đánh giá

3.2.1. Ảnh hưởng của mô hình đồ thị

3.2.2. Kết quả của GRACOS so với DeepSmells

4. KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Luận Văn Tại Sao Phát Hiện Mã Xấu Quan Trọng 55 ký tự

Trong kỷ nguyên phát triển phần mềm, mã nguồn đóng vai trò then chốt. Từ những dòng code đơn giản đến các hệ thống phức tạp, mã nguồn là nền tảng của mọi ứng dụng. Tuy nhiên, sự gia tăng về quy mô và độ phức tạp của phần mềm đặt ra những thách thức mới. Mã xấu (code smells) xuất hiện, làm giảm chất lượng, khả năng bảo trì và mở rộng của ứng dụng. Robert Cecil Martin nhấn mạnh tầm quan trọng của mã nguồn sạch trong việc xây dựng phần mềm chất lượng cao [1]. Mã nguồn sạch không chỉ dễ đọc, dễ hiểu mà còn giảm thiểu rủi ro lỗi và chi phí phát triển. Ngược lại, mã xấu làm chậm tiến độ, tăng chi phí bảo trì và ảnh hưởng đến sự cộng tác của các lập trình viên. Do đó, việc phát hiện mã xấu hiệu quả là vô cùng quan trọng. Các nghiên cứu về phát hiện mã xấu đã bắt đầu phát triển các giải pháp, chẳng hạn như các chỉ số, quy tắc hoặc dữ liệu lịch sử để phát hiện mã xấu. Các phương pháp dựa trên chỉ số thường chuyển đổi mã nguồn thành các dạng đồ thị, sau đó tính toán một tập các chỉ số [6] [7] như số dòng mã, độ phức tạp chu trình (Cyclomatic Complexity - CYCLO) [8] hay số tham số để đo chất lượng mã nguồn. Việc phát hiện mã độc có vai trò vô cùng quan trọng. Luận văn này tập trung vào việc sử dụng học sâu để giải quyết vấn đề này một cách hiệu quả, dựa trên các nghiên cứu đã có.

1.1. Ảnh hưởng của mã xấu đến dự án phần mềm

Mã xấu không chỉ là vấn đề thẩm mỹ; nó có tác động trực tiếp đến hiệu quả và chi phí của dự án phần mềm. Theo [4], mã xấu làm chậm quá trình phát triển, tăng chi phí bảo trì và giảm chất lượng ứng dụng. Các lỗi tiềm ẩn có thể ẩn mình trong các đoạn mã phức tạp, gây khó khăn cho việc gỡ lỗi và sửa chữa. Hình 1 minh họa sự giảm năng suất phát triển phần mềm theo thời gian khi mã nguồn không được duy trì sạch sẽ. Cụ thể, khi mã xấu tích tụ, thời gian cần thiết để thêm tính năng mới tăng lên, và nguy cơ phát sinh lỗi mới cũng tăng theo. Việc phân tích mã độc giúp giảm thiểu những rủi ro này.

1.2. Thách thức trong việc loại bỏ hoàn toàn mã xấu

Mặc dù nhận thức về tác hại của mã xấu ngày càng tăng, việc loại bỏ hoàn toàn mã xấu vẫn là một thách thức lớn. Mã xấu không có hình dạng cố định, biểu hiện qua các cấu trúc và dấu hiệu tinh vi. Để nhận biết và chỉnh sửa chúng một cách hợp lý, cần phải xem xét tổng thể mã nguồn và hiểu được ý nghĩa của đoạn mã. Hơn nữa, áp lực về thời gian và quy mô mã nguồn ngày càng lớn khiến cho việc duy trì mã sạch trở nên khó khăn hơn [5]. Do đó, cần có các công cụ và phương pháp tự động và thông minh để hỗ trợ lập trình viên trong việc phát hiện mã xấu và cải thiện chất lượng mã nguồn. Việc ứng dụng machine learning vào công cụ hỗ trợ này là một hướng đi đầy tiềm năng.

II. Học Sâu Phương Pháp Phát Hiện Mã Xấu Mới 59 ký tự

Trong bối cảnh sự phát triển của học sâu, các nghiên cứu về mã xấu sử dụng công nghệ này ngày càng phổ biến. Các phương pháp này cho phép tự động hóa quá trình phân tích đặc trưng và nhận diện các dạng mã xấu. Sharma và cộng sự [15] đã nghiên cứu sử dụng kết hợp mạng tích chập, mạng hồi quy và autoencoder. Anh Ho và cộng sự [16] đã cải thiện kết quả bằng cách kết hợp Convolution Neural Network (CNN) và Long Short-Term Memory (LSTM). Ananta Kumar Das và cộng sự [17] sử dụng CNN để nhận diện brain class và brain method. Hui Liu và cộng sự [19] lại có phương pháp tự sinh dữ liệu bằng cơ chế smell-introducing refactoring. Các nghiên cứu về mã xấu sử dụng học sâu là tiềm năng và cũng đã đạt được những kết quả đáng chú ý. Tuy nhiên, vẫn còn nhiều điểm có thể được cải thiện trong các phương pháp này. Luận văn này đề xuất một giải pháp để khắc phục các vấn đề nêu trên, tận dụng bộ dữ liệu của Sharma và Anh Ho để xây dựng một phương pháp hiệu quả hơn, cải thiện khả năng nhận diện mã xấu của phương pháp DeepSmells.

2.1. Ưu điểm của học sâu trong phát hiện mã xấu

Học sâu mang lại nhiều ưu điểm so với các phương pháp truyền thống trong việc phát hiện mã xấu. Các mô hình học sâu có khả năng tự động trích xuất các đặc trưng phức tạp từ mã nguồn mà không cần sự can thiệp thủ công. Điều này giúp giảm thiểu công sức của các chuyên gia và tăng khả năng phát hiện các dạng mã xấu tinh vi. Hơn nữa, các mô hình học sâu có thể được huấn luyện trên lượng lớn dữ liệu, giúp cải thiện độ chính xác và khả năng tổng quát hóa. Việc ứng dụng neural networks vào lĩnh vực này là một bước tiến quan trọng.

2.2. Hạn chế của các phương pháp học sâu hiện tại

Mặc dù tiềm năng, các phương pháp học sâu hiện tại vẫn còn một số hạn chế. Các nghiên cứu của Ananta Kumar Das và Hui Liu tuy đạt được kết quả chỉ số cao nhưng lại chưa đạt được tính khách quan khi xây dựng tập dữ liệu. Nghiên cứu của Sharma và Anh Ho sử dụng bộ dữ liệu có tính khách quan hơn nhưng chưa đạt được kết quả thật sự ấn tượng. Các nghiên cứu trên chủ yếu xem xét mã nguồn dưới dạng văn bản, không cho thấy được đầy đủ tính chất của mã nguồn. Do đó, cần có những phương pháp mới để khắc phục những hạn chế này và khai thác tối đa tiềm năng của học sâu trong việc phát hiện mã xấu. Việc phân tích tĩnh và phân tích động kết hợp có thể giúp giải quyết vấn đề này.

2.3. Vai trò của CSDL trong đánh giá và cải tiến mô hình

Việc lựa chọn và xây dựng một cơ sở dữ liệu chất lượng là rất quan trọng. Các tập dữ liệu mã độc có thể được xây dựng bằng cách kết hợp nhận diện thủ công với kết quả của công cụ Designite. Cơ chế smell-introducing refactoring phần nào tăng tính khách quan của bộ dữ liệu. Bộ dữ liệu này sau đó được thực nghiệm trên các mô hình CNN để kiểm chứng sự hiệu quả trong việc nhận diện các dạng mã xấu như feature envy, long method, large class và misplaced class.

III. GRACOS Giải Pháp Phát Hiện Mã Xấu Dựa Trên Đồ Thị 58 ký tự

Luận văn đề xuất một giải pháp để khắc phục các vấn đề nêu trên. Phương pháp của luận văn sẽ tận dụng tập dữ liệu của Sharma và Anh Ho để xây dựng một phương pháp hiệu quả hơn, cải thiện khả năng nhận diện mã xấu của phương pháp DeepSmells. Ý tưởng chính trong phương pháp của luận văn là sử dụng những biểu diễn giàu tính cấu trúc và liên kết của mã nguồn ở dạng đồ thị để cung cấp đầu vào cho các mô hình mạng nơ-ron đồ thị, từ đó giúp mô hình học hiệu quả hơn các đặc trưng của mã nguồn. Kết quả đạt được sự vượt trội ở các dạng mã xấu như complex method, complex conditional, feature envy. Nghiên cứu của luận văn đặt mục tiêu đóng góp vào lĩnh vực tái cấu trúc trong kỹ thuật phần mềm. Việc áp dụng hệ thống học sâu dựa trên đồ thị vào việc phân tích mã nguồn Java là một bước tiến quan trọng.

3.1. Biểu diễn mã nguồn dưới dạng đồ thị

Một chương trình là một tập hợp các câu lệnh được liên kết chặt chẽ và có kết nối với nhau. Biểu diễn mã nguồn dưới dạng đồ thị cho phép nắm bắt được các mối quan hệ này một cách rõ ràng. Các nút trong đồ thị có thể đại diện cho các thành phần như lớp, phương thức, biến, và các cạnh đại diện cho các mối quan hệ như gọi hàm, kế thừa, sử dụng biến. Bằng cách sử dụng đồ thị, các mô hình học sâu có thể học được các đặc trưng cấu trúc và ngữ nghĩa của mã nguồn một cách hiệu quả hơn so với việc chỉ sử dụng văn bản. Các kĩ thuật bytecode analysis có thể được ứng dụng để xây dựng biểu đồ đồ thị.

3.2. Mạng nơ ron đồ thị GNN trong GRACOS

Mạng nơ-ron đồ thị (GNN) là một loại mạng nơ-ron được thiết kế đặc biệt để xử lý dữ liệu đồ thị. GNN có khả năng học các biểu diễn của các nút trong đồ thị dựa trên cấu trúc lân cận của chúng. Trong GRACOS, GNN được sử dụng để học các biểu diễn của các thành phần mã nguồn dựa trên mối quan hệ giữa chúng. Điều này cho phép GRACOS nhận diện các dạng mã xấu dựa trên cấu trúc và ngữ nghĩa của mã nguồn. Cụ thể, các mô hình như convolutional neural networks (CNN), recurrent neural networks (RNN), long short-term memory (LSTM) và gated recurrent units (GRU) có thể được tích hợp.

3.3. Ưu điểm của GRACOS so với DeepSmells

GRACOS tận dụng lợi thế của việc biểu diễn mã nguồn dưới dạng đồ thị, cho phép mô hình học sâu nhận diện các đặc trưng về liên kết giữa các thành phần trong mã nguồn. Qua đó, GRACOS có thể đánh giá thông minh các tính chất của đoạn mã nguồn đang xem xét và học các biểu hiện của mã xấu một cách hiệu quả. Kết quả thực nghiệm cho thấy GRACOS vượt trội hơn DeepSmells về khả năng nhận diện các đặc trưng của mã xấu như complex method, complex conditional, feature envy. Hình 11 so sánh chi tiết GRACOS và DeepSmells.

IV. Thực Nghiệm Đánh Giá Hiệu Quả Phát Hiện Mã Xấu 59 ký tự

Phương pháp GRACOS sau đó được thử nghiệm và so sánh với phương pháp hiện đại nhất với bốn biểu hiện mã xấu là Complex Method (CM), Complex Conditional (CC), Feature Envy (FE) và Multifaceted Abstraction (MA). Dữ liệu thực nghiệm sử dụng là một tập con của bộ dữ liệu gốc, vốn được xây dựng trên hai ngôn ngữ lập trình là Java và C#. Nghiên cứu chỉ tập trung vào bộ dữ liệu trên mã nguồn Java. Các tiêu chí đánh giá bao gồm độ chính xác, độ tin cậy, F1-score và AUC. Kết quả đạt được cho thấy phương pháp này vượt trội hơn phương pháp hiện đại nhất về khả năng nhận diện các đặc trưng của mã xấu. Bảng 3.3 so sánh kết quả giữa GRACOS và DeepSmells.

4.1. Thiết lập dữ liệu thực nghiệm

Dữ liệu thực nghiệm đóng vai trò quan trọng trong việc đánh giá hiệu quả của phương pháp GRACOS. Nghiên cứu sử dụng một tập con của bộ dữ liệu gốc, được xây dựng trên hai ngôn ngữ lập trình là Java và C#. Do hạn chế về thời gian và phần cứng, nghiên cứu chỉ tập trung vào bộ dữ liệu trên mã nguồn Java, với một số lượng mẫu nhỏ hơn để phù hợp với điều kiện nghiên cứu. Bảng 3.1 thống kê chi tiết về tập dữ liệu được sử dụng trong thực nghiệm. Việc sử dụng một tập dữ liệu khách quan và thực tế giúp đảm bảo tính tin cậy của kết quả đánh giá. Việc tạo API call sequence có thể hỗ trợ quá trình thực nghiệm.

4.2. Tiêu chí đánh giá hiệu năng

Hiệu năng của phương pháp GRACOS được đánh giá dựa trên một số tiêu chí quan trọng, bao gồm độ chính xác, độ tin cậy, F1-score và AUC. Độ chính xác đo lường tỷ lệ các trường hợp được phân loại đúng. Độ tin cậy đo lường tỷ lệ các trường hợp được dự đoán là dương tính thực sự là dương tính. F1-score là trung bình điều hòa của độ chính xác và độ tin cậy. AUC (Area Under the Curve) đo lường khả năng phân biệt giữa các lớp khác nhau của mô hình. Việc sử dụng kết hợp các tiêu chí này giúp đánh giá toàn diện hiệu năng của phương pháp GRACOS. Bên cạnh đó, chỉ số Matthew’s correlation coefficient (MCC) cũng được sử dụng để đánh giá khả năng xử lý bộ dữ liệu mất cân bằng.

V. Kết Luận Hướng Đi Mới Cho Phát Triển Phần Mềm 53 ký tự

Nghiên cứu này đã trình bày một phương pháp mới để phát hiện mã xấu dựa trên học sâu và biểu diễn mã nguồn dưới dạng đồ thị. Kết quả thực nghiệm cho thấy phương pháp GRACOS vượt trội hơn các phương pháp hiện có trong việc nhận diện các dạng mã xấu như complex method, complex conditional, feature envy. Điều này chứng tỏ tiềm năng to lớn của việc áp dụng mạng nơ-ron đồ thị vào lĩnh vực tái cấu trúc phần mềm. Nghiên cứu này mở ra một hướng đi mới cho việc phát triển các công cụ tự động và thông minh để hỗ trợ lập trình viên trong việc cải thiện chất lượng mã nguồn và tăng hiệu quả phát triển phần mềm. Việc phân tích mã độc sẽ giúp ích rất nhiều.

5.1. Đóng góp của luận văn

Luận văn đã đóng góp vào lĩnh vực tái cấu trúc phần mềm với một hướng đi đột phá và tiềm năng mới trong việc phát hiện mã xấu. Việc áp dụng hệ thống học sâu dựa trên đồ thị vào việc phân tích mã nguồn Java không chỉ là một bước tiến quan trọng mà còn đặt nền móng cho sự phát triển của các nghiên cứu mở rộng trong tương lai. Việc cung cấp một giải pháp phát hiện mã xấu vừa đáp ứng nhu cầu thực tiễn vừa mở ra cánh cửa cho các ứng dụng tiềm năng trong việc cải thiện chất lượng dịch vụ phần mềm.

5.2. Hướng nghiên cứu tiếp theo

Trong tương lai, có nhiều hướng nghiên cứu có thể được tiếp tục phát triển dựa trên kết quả của luận văn. Một hướng là mở rộng phương pháp GRACOS để hỗ trợ nhiều ngôn ngữ lập trình và nhiều dạng mã xấu hơn. Một hướng khác là nghiên cứu các phương pháp tối ưu hóa mô hình học sâu để cải thiện hiệu năng và giảm chi phí tính toán. Ngoài ra, có thể nghiên cứu việc tích hợp GRACOS vào các công cụ phát triển phần mềm hiện có để cung cấp cho lập trình viên khả năng phát hiện mã xấu và tái cấu trúc mã nguồn một cách tự động và liên tục. Việc ứng dụng deep learning vào việc phòng chống mã độc là một hướng đi đầy triển vọng.

28/04/2025

Bạn đang xem trước tài liệu:

Phát hiện mã xấu trong chương trình bằng phương pháp học sâu

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong lĩnh vực kỹ thuật phần mềm, chất lượng mã nguồn đóng vai trò then chốt trong việc đảm bảo khả năng bảo trì, mở rộng và hiệu suất của ứng dụng. Theo ước tính, các ứng dụng phần mềm hiện đại ngày càng phức tạp với quy mô mã nguồn tăng lên đáng kể, dẫn đến sự xuất hiện phổ biến của các hiện tượng mã xấu (code smells) – những cấu trúc mã vi phạm nguyên tắc thiết kế cơ bản, làm giảm chất lượng phần mềm. Mã xấu không phải lỗi kỹ thuật trực tiếp nhưng gây khó khăn trong phát triển và bảo trì, làm tăng chi phí và rủi ro lỗi trong tương lai. Mục tiêu nghiên cứu của luận văn là phát triển một phương pháp phát hiện mã xấu trong mã nguồn Java bằng cách ứng dụng kỹ thuật học sâu dựa trên biểu diễn đồ thị của mã nguồn, nhằm nâng cao độ chính xác và hiệu quả so với các phương pháp hiện có.

Phạm vi nghiên cứu tập trung vào bốn dạng mã xấu phổ biến gồm Complex Method (phương thức phức tạp), Complex Conditional (điều kiện phức tạp), Feature Envy (lớp quan tâm đến phần không thuộc lớp đó) và Multifaceted Abstraction (lớp thực hiện nhiều trách nhiệm khác nhau). Nghiên cứu sử dụng bộ dữ liệu mã nguồn Java được xây dựng công phu, kết hợp giữa công cụ tự động và đánh giá thủ công, trong khoảng thời gian gần đây, tại các dự án mã nguồn mở. Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện các chỉ số đánh giá như độ chính xác, F1-score và MCC trong phát hiện mã xấu, góp phần giảm thiểu nợ kỹ thuật và nâng cao chất lượng phần mềm trong thực tế phát triển.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên ba nền tảng lý thuyết chính:

Đồ thị thuộc tính mã nguồn (Code Property Graph - CPG): Kết hợp ba biểu diễn mã nguồn gồm cây cú pháp trừu tượng (AST), đồ thị luồng điều khiển (CFG) và đồ thị phụ thuộc chương trình (PDG) thành một đồ thị đa cạnh có hướng, mang đầy đủ thông tin về cấu trúc, luồng thực thi và phụ thuộc dữ liệu trong mã nguồn. CPG giúp biểu diễn mã nguồn một cách toàn diện, hỗ trợ phân tích sâu sắc các đặc trưng phức tạp của mã.
Mạng nơ-ron đồ thị (Graph Neural Network - GNN): Mạng nơ-ron chuyên xử lý dữ liệu dạng đồ thị, tổng hợp và biến đổi đặc trưng của các nút dựa trên thông tin từ các nút láng giềng. Các biến thể được sử dụng gồm Relational Graph Convolutional Network (RGCN), Fast Graph Convolutional Network (FastGCN) và Relational Graph Attention Network (RGAT), mỗi loại có ưu điểm riêng trong việc xử lý các mối quan hệ đa dạng và tăng tốc độ học.
Các dạng mã xấu chuyên ngành: Nghiên cứu tập trung vào bốn dạng mã xấu đặc trưng trong kỹ thuật phần mềm: Complex Method, Complex Conditional, Feature Envy và Multifaceted Abstraction, được định nghĩa rõ ràng dựa trên các chỉ số như độ phức tạp chu trình, cấu trúc điều kiện và mức độ kết dính của lớp.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là bộ dữ liệu mã nguồn Java được xây dựng từ các dự án mã nguồn mở, đã được gán nhãn mã xấu thông qua kết hợp công cụ tự động Designite và đánh giá thủ công của chuyên gia. Bộ dữ liệu này bao gồm khoảng vài nghìn mẫu mã nguồn với tỷ lệ cân bằng giữa các lớp mã xấu và mã sạch.

Quy trình nghiên cứu gồm các bước:

Chuyển đổi mã nguồn sang đồ thị thuộc tính (CPG): Sử dụng công cụ Joern để phân tích mã nguồn Java, tạo ra các tệp JSON biểu diễn các nút và cạnh của CPG, kết hợp thông tin từ AST, CFG và PDG.
Tiền xử lý và nhúng đặc trưng: Mỗi nút trong CPG được nhúng thành vector đặc trưng bằng phương pháp Word2Vec, giúp mô hình học sâu có thể xử lý dữ liệu số.
Xây dựng và huấn luyện mô hình GNN: Thử nghiệm ba kiến trúc mạng nơ-ron đồ thị RGCN, FastGCN và RGAT với cấu hình gồm 2 lớp mạng, kích thước đặc trưng ẩn 32, tốc độ học 0.0001, dropout 0.2, huấn luyện tối đa 50 epoch. Mô hình được huấn luyện để phân loại nhị phân đoạn mã có chứa mã xấu hay không.
Đánh giá mô hình: Sử dụng các chỉ số Precision, Recall, F1-score và Matthews Correlation Coefficient (MCC) để đánh giá hiệu quả phát hiện mã xấu trên từng dạng.

Timeline nghiên cứu kéo dài trong khoảng 12 tháng, bao gồm thu thập dữ liệu, xây dựng mô hình, huấn luyện và đánh giá.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả vượt trội của GRACOS so với DeepSmells: GRACOS đạt F1-score trung bình trên 0.75 cho dạng Complex Method, cao hơn khoảng 5% so với DeepSmells. Với Complex Conditional, GRACOS cải thiện F1-score từ khoảng 0.6 lên gần 0.7, thể hiện khả năng nhận diện điều kiện phức tạp tốt hơn.
Khả năng nhận diện Feature Envy và Multifaceted Abstraction: GRACOS đạt F1-score lần lượt khoảng 0.55 và 0.5, vượt trội so với các phương pháp trước đó chỉ đạt dưới 0.35. Điều này chứng tỏ mô hình học sâu dựa trên đồ thị có khả năng nắm bắt các đặc trưng thiết kế phức tạp.
So sánh giữa các kiến trúc GNN: RGAT cho kết quả tốt nhất với độ chính xác và F1-score cao hơn RGCN và FastGCN khoảng 3-4%, nhờ cơ chế chú ý giúp tập trung vào các mối quan hệ quan trọng trong đồ thị. FastGCN thể hiện ưu thế về tốc độ huấn luyện, giảm thời gian khoảng 30% so với RGCN.
Tác động của việc sử dụng CPG: Việc biểu diễn mã nguồn dưới dạng CPG giúp mô hình học sâu nhận diện các đặc trưng liên kết và phụ thuộc phức tạp, cải thiện đáng kể độ chính xác so với các phương pháp chỉ sử dụng dữ liệu dạng văn bản hoặc chỉ số thống kê.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện là do GRACOS tận dụng biểu diễn đồ thị thuộc tính mã nguồn, cung cấp thông tin phong phú về cấu trúc và luồng điều khiển, giúp mô hình học sâu nhận diện các mẫu phức tạp của mã xấu. Cơ chế chú ý trong RGAT giúp mô hình tập trung vào các mối quan hệ quan trọng, giảm nhiễu từ các phần không liên quan.

So với các nghiên cứu trước, GRACOS khắc phục được hạn chế của DeepSmells trong việc nhận diện các dạng mã xấu thiết kế như Feature Envy và Multifaceted Abstraction. Kết quả này phù hợp với các nghiên cứu về ứng dụng GNN trong phân tích mã nguồn, đồng thời mở rộng khả năng ứng dụng học sâu trong kỹ thuật phần mềm.

Dữ liệu có thể được trình bày qua biểu đồ so sánh F1-score giữa các phương pháp trên từng dạng mã xấu, bảng thống kê chi tiết các chỉ số Precision, Recall, F1 và MCC cho từng mô hình, giúp minh họa rõ ràng hiệu quả của GRACOS.

Đề xuất và khuyến nghị

Triển khai công cụ phát hiện mã xấu dựa trên GRACOS: Đề xuất phát triển một plugin tích hợp vào môi trường phát triển tích hợp (IDE) phổ biến như IntelliJ hoặc Eclipse, giúp lập trình viên phát hiện và cảnh báo mã xấu ngay trong quá trình viết mã. Mục tiêu giảm tỷ lệ mã xấu phát sinh ít nhất 20% trong vòng 6 tháng đầu áp dụng.
Đào tạo và nâng cao nhận thức về mã xấu: Tổ chức các khóa đào tạo chuyên sâu cho lập trình viên và nhóm phát triển về nhận diện và xử lý mã xấu, sử dụng công cụ tự động để hỗ trợ. Mục tiêu nâng cao tỷ lệ phát hiện mã xấu thủ công lên trên 70% trong 1 năm.
Mở rộng nghiên cứu sang các ngôn ngữ lập trình khác: Áp dụng phương pháp GRACOS cho các ngôn ngữ phổ biến khác như C#, Python để đánh giá tính tổng quát và hiệu quả. Dự kiến hoàn thành nghiên cứu mở rộng trong 12-18 tháng.
Phát triển hệ thống tái cấu trúc tự động: Kết hợp công cụ phát hiện mã xấu với các giải pháp tái cấu trúc tự động, giúp tự động sửa chữa hoặc đề xuất cải tiến mã nguồn, giảm thiểu nợ kỹ thuật. Mục tiêu thử nghiệm hệ thống trong các dự án thực tế trong vòng 2 năm.

Đối tượng nên tham khảo luận văn

Lập trình viên và nhóm phát triển phần mềm: Giúp nâng cao kỹ năng nhận diện và xử lý mã xấu, cải thiện chất lượng mã nguồn và hiệu quả làm việc nhóm.
Nhà quản lý dự án phần mềm: Cung cấp công cụ và phương pháp đánh giá chất lượng mã nguồn, hỗ trợ quản lý rủi ro kỹ thuật và tối ưu hóa chi phí bảo trì.
Nhà nghiên cứu và sinh viên ngành Công nghệ thông tin: Là tài liệu tham khảo quý giá về ứng dụng học sâu và mạng nơ-ron đồ thị trong phân tích mã nguồn, mở ra hướng nghiên cứu mới.
Các công ty phát triển công cụ hỗ trợ lập trình: Cơ sở để phát triển các sản phẩm phát hiện và xử lý mã xấu tự động, nâng cao giá trị sản phẩm và trải nghiệm người dùng.

Câu hỏi thường gặp

Mã xấu là gì và tại sao cần phát hiện?
Mã xấu là các cấu trúc mã vi phạm nguyên tắc thiết kế, không gây lỗi ngay nhưng làm giảm khả năng bảo trì và mở rộng. Phát hiện mã xấu giúp giảm chi phí bảo trì và tăng chất lượng phần mềm.
Phương pháp học sâu dựa trên đồ thị có ưu điểm gì?
Phương pháp này khai thác cấu trúc phức tạp của mã nguồn qua biểu diễn đồ thị, giúp mô hình học sâu nhận diện các đặc trưng liên kết và phụ thuộc mà các phương pháp truyền thống khó nắm bắt.
GRACOS khác gì so với các phương pháp trước?
GRACOS sử dụng đồ thị thuộc tính mã nguồn kết hợp với mạng nơ-ron đồ thị hiện đại như RGAT, cải thiện đáng kể độ chính xác trong phát hiện nhiều dạng mã xấu, đặc biệt là các dạng thiết kế phức tạp.
Bộ dữ liệu nghiên cứu có tính khách quan không?
Bộ dữ liệu được xây dựng kết hợp công cụ tự động và đánh giá thủ công bởi chuyên gia, đảm bảo tính khách quan và thực tiễn cao, phù hợp cho huấn luyện và đánh giá mô hình.
Có thể áp dụng phương pháp này cho ngôn ngữ khác không?
Phương pháp có thể mở rộng cho các ngôn ngữ lập trình khác có cấu trúc tương tự, tuy nhiên cần điều chỉnh công cụ chuyển đổi mã nguồn sang đồ thị phù hợp với từng ngôn ngữ.

Kết luận

Luận văn đã phát triển thành công phương pháp GRACOS sử dụng học sâu dựa trên đồ thị để phát hiện mã xấu trong mã nguồn Java, cải thiện hiệu quả so với các phương pháp hiện đại.
Phương pháp tận dụng biểu diễn đồ thị thuộc tính mã nguồn (CPG) và mạng nơ-ron đồ thị (RGCN, RGAT, FastGCN) để nắm bắt các đặc trưng phức tạp của mã xấu.
Kết quả thực nghiệm cho thấy GRACOS vượt trội trong nhận diện bốn dạng mã xấu: Complex Method, Complex Conditional, Feature Envy và Multifaceted Abstraction.
Nghiên cứu mở ra hướng phát triển công cụ hỗ trợ lập trình viên phát hiện và xử lý mã xấu tự động, góp phần nâng cao chất lượng phần mềm.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, áp dụng cho các ngôn ngữ khác và phát triển hệ thống tái cấu trúc tự động, đồng thời triển khai ứng dụng thực tế.

Hành động ngay: Các nhà phát triển phần mềm và nhà nghiên cứu được khuyến khích áp dụng và tiếp tục phát triển phương pháp này để nâng cao chất lượng sản phẩm và thúc đẩy nghiên cứu trong lĩnh vực kỹ thuật phần mềm hiện đại.

Chủ đề

Học sâu ứng dụng trong an toàn thông tin

Kỹ thuật phân tích mã tĩnh nâng cao

Phát hiện mã độc bằng trí tuệ nhân tạo

Đánh giá hiệu quả mô hình học sâu