Luận Văn Thạc Sĩ: Áp Dụng Kỹ Thuật Khai Phá Dữ Liệu Trong Phân Lớp Các Ca Kiểm Thử Phần Mềm

Luận văn thạc sĩ nghiên cứu áp dụng kĩ thuật khai phá dữ liệu cho phân lớp các ca kiểm thử phần mềm, khảo sát thực trạng, phân tích nguyên nhân, đề xuất giải pháp cải thiện thực

Trường đại học

Học viện Công nghệ Bưu chính Viễn thông

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2019

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN PHÂN LỚP CÁC CA KIỂM THỬ

1.1. Khai phá dữ liệu

1.2. Kỹ thuật kiểm thử phần mềm

1.2.1. Một số phương thức thiết kế kiểm thử

1.2.2. Ví dụ thử nghiệm

2. CHƯƠNG 2: PHÂN LỚP DỮ LIỆU DỰA TRÊN NAIVE BAYES VÀ CÂY QUYẾT ĐỊNH J48

2.1. Kỹ thuật Naive Bayes cho phân lớp dữ liệu

2.1.1. Một số khái niệm cơ bản

3. CHƯƠNG 3: PHÂN LOẠI CÁC CA KIỂM THỬ, THỬ NGHIỆM VÀ ĐÁNH GIÁ

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Khai Phá Dữ Liệu và Bài Toán Phân Lớp Các Ca Kiểm Thử

Kỹ thuật khai phá dữ liệu đã trở thành một công cụ quan trọng trong việc phân tích và xử lý thông tin lớn. Trong bối cảnh phát triển phần mềm, việc áp dụng kỹ thuật khai phá dữ liệu giúp tối ưu hóa quy trình phân lớp kiểm thử phần mềm. Chương này sẽ trình bày khái niệm về khai phá dữ liệu, lý do cần thiết phải khai thác dữ liệu, và các bước trong quá trình khai phá dữ liệu. Đặc biệt, việc phân lớp dữ liệu là một trong những bài toán chính trong khai phá dữ liệu, cho phép xác định các nhóm dữ liệu có đặc điểm tương đồng. Các thuật toán như Naive Bayes và cây quyết định J48 sẽ được giới thiệu như là những công cụ hữu ích trong việc phân loại các ca kiểm thử phần mềm.

1.1 Khái Niệm Khai Phá Dữ Liệu

Khai phá dữ liệu (Data Mining) là quá trình tìm kiếm và khai thác thông tin hữu ích từ các tập dữ liệu lớn. Theo định nghĩa, khai phá dữ liệu không chỉ đơn thuần là việc thu thập dữ liệu mà còn là việc phân tích và rút ra các mẫu từ dữ liệu. Quá trình này bao gồm nhiều bước như chuẩn bị dữ liệu, mô hình hóa và đánh giá. Việc áp dụng kỹ thuật khai phá dữ liệu trong kiểm thử phần mềm giúp xác định các ca kiểm thử một cách hiệu quả, từ đó tiết kiệm thời gian và tăng độ chính xác trong quá trình kiểm thử.

1.2 Tại Sao Cần Khai Phá Dữ Liệu

Với sự gia tăng nhanh chóng của dữ liệu trong các lĩnh vực khác nhau, việc khai thác thông tin từ các nguồn dữ liệu lớn trở nên cần thiết. Khai phá dữ liệu giúp tổ chức và phân tích thông tin, từ đó đưa ra quyết định chính xác hơn. Trong kiểm thử phần mềm, việc phân loại các ca kiểm thử dựa trên dữ liệu đã được khai thác giúp tối ưu hóa quy trình kiểm thử, giảm thiểu rủi ro và tăng cường chất lượng sản phẩm. Việc áp dụng các thuật toán như Naive Bayes và J48 trong phân lớp kiểm thử phần mềm đã chứng minh được hiệu quả trong việc cải thiện quy trình kiểm thử.

II. Phân Lớp Dữ Liệu Dựa Trên Naive Bayes và Cây Quyết Định J48

Chương này sẽ đi sâu vào hai thuật toán chính được sử dụng trong luận văn: Naive Bayes và cây quyết định J48. Kỹ thuật Naive Bayes là một trong những phương pháp phổ biến trong phân lớp dữ liệu, cho phép phân loại dữ liệu dựa trên xác suất. Cây quyết định J48 cũng là một công cụ mạnh mẽ trong việc phân loại, giúp xác định các quyết định dựa trên các thuộc tính của dữ liệu. Việc áp dụng hai thuật toán này trong kiểm thử phần mềm không chỉ giúp phân loại các ca kiểm thử mà còn tối ưu hóa quy trình kiểm thử, từ đó nâng cao chất lượng phần mềm.

2.1 Kỹ Thuật Naive Bayes

Naive Bayes là một thuật toán phân loại dựa trên định lý Bayes, cho phép tính toán xác suất của một lớp dựa trên các thuộc tính của dữ liệu. Thuật toán này giả định rằng các thuộc tính là độc lập với nhau, điều này giúp đơn giản hóa quá trình tính toán. Kỹ thuật Naive Bayes đã được áp dụng rộng rãi trong nhiều lĩnh vực, bao gồm cả kiểm thử phần mềm. Việc sử dụng Naive Bayes trong phân lớp kiểm thử phần mềm giúp xác định các ca kiểm thử có khả năng phát hiện lỗi cao nhất, từ đó tối ưu hóa quy trình kiểm thử.

2.2 Kỹ Thuật Cây Quyết Định J48

Cây quyết định J48 là một thuật toán phân loại dựa trên cấu trúc cây, cho phép phân loại dữ liệu bằng cách tạo ra các quyết định dựa trên các thuộc tính của dữ liệu. J48 sử dụng phương pháp ID3 để xây dựng cây quyết định, từ đó giúp xác định các quyết định một cách rõ ràng và dễ hiểu. Việc áp dụng cây quyết định J48 trong phân lớp kiểm thử phần mềm giúp cải thiện độ chính xác của các ca kiểm thử, đồng thời giảm thiểu thời gian cần thiết để thực hiện kiểm thử.

III. Phân Loại Các Ca Kiểm Thử Thử Nghiệm và Đánh Giá

Chương này sẽ tập trung vào việc phân loại các ca kiểm thử, thực hiện thử nghiệm và đánh giá kết quả. Việc phân loại các ca kiểm thử là một bước quan trọng trong quy trình kiểm thử phần mềm, giúp xác định các ca kiểm thử cần thiết để phát hiện lỗi. Sử dụng các công cụ như Weka để thực hiện phân loại và đánh giá kết quả là một phương pháp hiệu quả. Việc áp dụng các thuật toán như Naive Bayes và J48 trong phân loại ca kiểm thử không chỉ giúp tiết kiệm thời gian mà còn nâng cao chất lượng kiểm thử.

3.1 Xây Dựng Dữ Liệu Kiểm Thử

Xây dựng dữ liệu kiểm thử là một bước quan trọng trong quy trình kiểm thử phần mềm. Việc tạo ra các ca kiểm thử dựa trên các yêu cầu và đặc điểm của phần mềm giúp đảm bảo rằng tất cả các tình huống có thể xảy ra đều được kiểm tra. Sử dụng các công cụ như Weka để xây dựng và phân loại dữ liệu kiểm thử giúp tối ưu hóa quy trình kiểm thử, từ đó nâng cao hiệu quả và chất lượng của phần mềm. Việc áp dụng kỹ thuật khai phá dữ liệu trong xây dựng dữ liệu kiểm thử đã chứng minh được tính hiệu quả trong việc phát hiện lỗi.

3.2 Đánh Giá Kết Quả Kiểm Thử

Đánh giá kết quả kiểm thử là một phần không thể thiếu trong quy trình kiểm thử phần mềm. Việc phân tích và đánh giá kết quả giúp xác định độ tin cậy của phần mềm và khả năng phát hiện lỗi của các ca kiểm thử. Sử dụng các thuật toán như Naive Bayes và J48 trong đánh giá kết quả kiểm thử giúp cung cấp cái nhìn sâu sắc về hiệu quả của các ca kiểm thử, từ đó đưa ra các quyết định cải tiến quy trình kiểm thử. Đánh giá kết quả không chỉ giúp cải thiện chất lượng phần mềm mà còn nâng cao độ tin cậy của sản phẩm.

02/03/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ áp dụng kĩ thuật khai phá dữ liệu cho phân lớp các ca kiểm thử phần mềm

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển mạnh mẽ của công nghệ thông tin, việc kiểm thử phần mềm trở thành một bước quan trọng nhằm đảm bảo chất lượng sản phẩm. Theo ước tính, các phần mềm hiện đại thường có hàng ngàn dòng mã, dẫn đến số lượng ca kiểm thử rất lớn và phức tạp. Việc thực hiện toàn bộ các ca kiểm thử bằng tay không chỉ tốn thời gian mà còn dễ gây sai sót. Do đó, việc áp dụng các kỹ thuật khai phá dữ liệu để phân lớp và giản lược các ca kiểm thử là cần thiết nhằm tối ưu hóa quy trình kiểm thử, tiết kiệm thời gian và nâng cao độ chính xác.

Mục tiêu của luận văn là nghiên cứu và áp dụng các thuật toán khai phá dữ liệu, cụ thể là Naïve Bayes và cây quyết định J48, để phân lớp các ca kiểm thử phần mềm, từ đó xác định các ca kiểm thử dư thừa và không dư thừa. Phạm vi nghiên cứu tập trung vào ứng dụng kiểm thử một chương trình máy tính bỏ túi với các phép toán cơ bản cộng, trừ, nhân, chia, trong đó bộ dữ liệu huấn luyện gồm 216 ca kiểm thử và bộ dữ liệu kiểm tra gồm 108 ca kiểm thử. Ý nghĩa của nghiên cứu được thể hiện qua việc nâng cao hiệu quả kiểm thử phần mềm, giảm thiểu thời gian thực hiện và tăng độ tin cậy của kết quả kiểm thử.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai lý thuyết chính trong khai phá dữ liệu và học máy:

Khai phá dữ liệu (Data Mining): Quá trình chắt lọc tri thức từ lượng dữ liệu lớn, bao gồm các bước tìm hiểu dữ liệu, chuẩn bị dữ liệu, mô hình hóa, đánh giá và triển khai. Trong đó, phân lớp (classification) là bài toán chính được áp dụng để phân loại các ca kiểm thử thành các nhóm dư thừa và không dư thừa.
Thuật toán Naïve Bayes: Dựa trên định lý Bayes, giả định các thuộc tính đầu vào độc lập điều kiện, thuật toán này tính xác suất hậu nghiệm để phân loại dữ liệu. Naïve Bayes có ưu điểm đơn giản, dễ triển khai và hiệu quả trong nhiều bài toán phân loại.
Thuật toán cây quyết định J48: Là phiên bản cải tiến của thuật toán ID3, J48 sử dụng lượng tin thu được (information gain) để chọn thuộc tính phân chia dữ liệu, hỗ trợ xử lý cả thuộc tính liên tục và rời rạc, đồng thời có cơ chế cắt tỉa cây để tránh overfitting. Cây quyết định dễ hiểu, dễ giải thích và có hiệu quả cao trong phân loại.

Các khái niệm chính bao gồm: entropy, lượng tin thu được, cross-validation, percentage split, độ phủ kiểm thử (coverage), và các đặc trưng của ca kiểm thử như ID, lựa chọn phép tính (choose), tham số đầu vào (a, b).

Phương pháp nghiên cứu

Nguồn dữ liệu được xây dựng từ các ca kiểm thử sinh tự động bằng công cụ Randoop trên ứng dụng máy tính bỏ túi với 4 phép toán cơ bản. Ban đầu, 4195 ca kiểm thử được sinh ra, sau khi loại bỏ trùng lặp và không cần thiết còn lại 324 ca kiểm thử. Bộ dữ liệu được chia thành 216 ca huấn luyện và 108 ca kiểm tra.

Phương pháp phân tích sử dụng hai thuật toán Naïve Bayes và J48 để phân lớp ca kiểm thử thành hai nhãn: dư thừa (0) và không dư thừa (1). Quá trình phân lớp được thực hiện trên phần mềm Weka với hai kỹ thuật đánh giá chính:

Cross-validation: Dữ liệu được chia thành k phần bằng nhau (k=5, 10), mỗi phần lần lượt được dùng làm tập kiểm tra, phần còn lại làm tập huấn luyện, lặp lại k lần để đánh giá mô hình.
Percentage split: Dữ liệu được chia theo tỷ lệ phần trăm (50%, 75%, 80%) cho tập huấn luyện và kiểm tra, nhằm xác định tỷ lệ tối ưu cho mô hình.

Quá trình tiền xử lý dữ liệu bao gồm chuẩn hóa, loại bỏ dữ liệu trùng lặp và xây dựng đặc trưng phù hợp. Độ phủ kiểm thử và độ phức tạp luồng thực thi được đánh giá bằng công cụ Eclemma và JaCoCo Metrics để đảm bảo chất lượng dữ liệu đầu vào.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả phân lớp của thuật toán J48 vượt trội hơn Naïve Bayes:
- Với kỹ thuật cross-validation, J48 đạt độ chính xác từ 95.7% đến 97%, trong khi Naïve Bayes chỉ đạt khoảng 81.5% đến 81.8%.
- Với kỹ thuật percentage split, J48 đạt độ chính xác lên đến 100% khi tỷ lệ huấn luyện là 80%, trong khi Naïve Bayes đạt tối đa khoảng 81.9%.
Ảnh hưởng của tỷ lệ dữ liệu huấn luyện:
- Cả hai thuật toán đều cho kết quả tốt hơn khi tỷ lệ dữ liệu huấn luyện tăng lên, đặc biệt rõ rệt với J48, độ chính xác tăng từ 88.7% (50%) lên 100% (80%).
- Naïve Bayes có sự cải thiện nhẹ, độ chính xác tăng từ 81.6% (50%) lên 81.9% (80%).
Phân bố nhãn trong dữ liệu:
- Trong bộ huấn luyện 216 ca, có 159 ca được đánh giá là dư thừa và 57 ca không dư thừa, cho thấy sự mất cân bằng trong dữ liệu.
- Mô hình phân lớp có xu hướng nhầm lẫn nhiều hơn với nhãn dư thừa, điều này cần được lưu ý khi đánh giá kết quả.
Tính khả thi của việc giản lược ca kiểm thử:
- Việc phân loại chính xác các ca kiểm thử dư thừa giúp giảm đáng kể số lượng ca cần thực hiện, tiết kiệm thời gian kiểm thử mà vẫn đảm bảo độ phủ kiểm thử cao.

Thảo luận kết quả

Kết quả cho thấy thuật toán cây quyết định J48 phù hợp hơn với bài toán phân lớp ca kiểm thử phần mềm so với Naïve Bayes, đặc biệt khi có đủ dữ liệu huấn luyện. Điều này có thể giải thích bởi J48 xử lý tốt cả dữ liệu liên tục và rời rạc, đồng thời có khả năng cắt tỉa cây để tránh overfitting, trong khi Naïve Bayes dựa trên giả định các thuộc tính độc lập điều kiện, có thể không hoàn toàn phù hợp với đặc điểm dữ liệu kiểm thử.

So sánh với các nghiên cứu trong ngành, việc sử dụng cây quyết định để phân loại ca kiểm thử đã được chứng minh hiệu quả trong việc giảm thiểu số lượng ca kiểm thử cần thiết mà vẫn duy trì độ tin cậy. Kết quả độ chính xác trên 95% của J48 trong nghiên cứu này tương đồng với các báo cáo ứng dụng khai phá dữ liệu trong kiểm thử phần mềm.

Dữ liệu được trình bày qua các biểu đồ so sánh độ chính xác giữa hai thuật toán với các kỹ thuật đánh giá khác nhau, giúp minh họa rõ ràng sự vượt trội của J48. Bảng thống kê phân bố nhãn và độ phủ kiểm thử cũng hỗ trợ đánh giá chất lượng bộ dữ liệu và hiệu quả mô hình.

Đề xuất và khuyến nghị

Áp dụng thuật toán cây quyết định J48 trong hệ thống kiểm thử tự động:
- Mục tiêu: Tăng độ chính xác phân loại ca kiểm thử, giảm số lượng ca dư thừa.
- Thời gian: Triển khai trong vòng 6 tháng.
- Chủ thể: Các nhóm phát triển phần mềm và kiểm thử.
Tăng cường thu thập và làm giàu dữ liệu huấn luyện:
- Mục tiêu: Cải thiện chất lượng mô hình phân lớp, đặc biệt với các ca kiểm thử ít xuất hiện.
- Thời gian: Liên tục trong quá trình phát triển phần mềm.
- Chủ thể: Bộ phận kiểm thử và quản lý dữ liệu.
Kết hợp kỹ thuật tiền xử lý dữ liệu nâng cao:
- Mục tiêu: Loại bỏ dữ liệu nhiễu, chuẩn hóa và rời rạc hóa phù hợp để nâng cao hiệu quả phân lớp.
- Thời gian: 3 tháng đầu triển khai.
- Chủ thể: Nhóm phân tích dữ liệu và phát triển phần mềm.
Đào tạo và nâng cao nhận thức cho đội ngũ kiểm thử về khai phá dữ liệu:
- Mục tiêu: Tăng cường kỹ năng sử dụng công cụ và hiểu biết về phân lớp ca kiểm thử.
- Thời gian: Định kỳ hàng năm.
- Chủ thể: Bộ phận nhân sự và đào tạo.

Đối tượng nên tham khảo luận văn

Nhà phát triển phần mềm:
- Lợi ích: Hiểu rõ cách tối ưu hóa ca kiểm thử, giảm thời gian kiểm thử mà vẫn đảm bảo chất lượng.
- Use case: Áp dụng mô hình phân lớp để tự động loại bỏ ca kiểm thử dư thừa trong quy trình phát triển.
Chuyên gia kiểm thử phần mềm:
- Lợi ích: Nắm bắt kỹ thuật khai phá dữ liệu ứng dụng trong kiểm thử, nâng cao hiệu quả công việc.
- Use case: Sử dụng thuật toán J48 để phân loại và lựa chọn ca kiểm thử phù hợp.
Nhà nghiên cứu trong lĩnh vực hệ thống thông tin và khai phá dữ liệu:
- Lợi ích: Tham khảo phương pháp nghiên cứu, mô hình và kết quả thực nghiệm trong ứng dụng khai phá dữ liệu.
- Use case: Phát triển các thuật toán phân lớp mới hoặc cải tiến dựa trên nền tảng luận văn.
Quản lý dự án phần mềm:
- Lợi ích: Đánh giá hiệu quả kiểm thử, quản lý nguồn lực kiểm thử hợp lý.
- Use case: Lập kế hoạch kiểm thử dựa trên kết quả phân lớp ca kiểm thử để tối ưu chi phí và thời gian.

Câu hỏi thường gặp

Tại sao chọn thuật toán J48 và Naïve Bayes cho phân lớp ca kiểm thử?
J48 và Naïve Bayes là hai thuật toán phân lớp phổ biến, dễ triển khai và có hiệu quả cao trong nhiều bài toán khai phá dữ liệu. J48 xử lý tốt dữ liệu hỗn hợp và có khả năng cắt tỉa cây, còn Naïve Bayes đơn giản, nhanh chóng và phù hợp với dữ liệu có giả định độc lập điều kiện.
Làm thế nào để đánh giá độ chính xác của mô hình phân lớp?
Độ chính xác được đánh giá qua các kỹ thuật cross-validation và percentage split, trong đó dữ liệu được chia thành tập huấn luyện và kiểm tra theo các tỷ lệ khác nhau, sau đó tính tỷ lệ ca kiểm thử được phân loại đúng.
Có thể áp dụng kết quả nghiên cứu cho các phần mềm phức tạp hơn không?
Có thể, tuy nhiên cần mở rộng bộ dữ liệu huấn luyện và điều chỉnh các đặc trưng phù hợp với tính chất phần mềm phức tạp hơn để đảm bảo hiệu quả phân lớp.
Làm thế nào để xử lý dữ liệu mất mát hoặc nhiễu trong bộ dữ liệu kiểm thử?
Sử dụng các kỹ thuật tiền xử lý như thay thế giá trị thiếu, loại bỏ dữ liệu trùng lặp, giảm nhiễu và chuẩn hóa dữ liệu để nâng cao chất lượng bộ dữ liệu đầu vào.
Kết quả phân lớp có thể giúp tiết kiệm bao nhiêu thời gian kiểm thử?
Việc loại bỏ các ca kiểm thử dư thừa có thể giảm đáng kể số lượng ca cần thực hiện, theo ước tính có thể tiết kiệm từ 30% đến 50% thời gian kiểm thử tùy thuộc vào đặc điểm phần mềm và bộ dữ liệu.

Kết luận

Luận văn đã thành công trong việc áp dụng kỹ thuật khai phá dữ liệu, đặc biệt là thuật toán cây quyết định J48 và Naïve Bayes, để phân lớp các ca kiểm thử phần mềm.
Thuật toán J48 cho kết quả phân lớp vượt trội với độ chính xác lên đến 100% khi sử dụng tỷ lệ huấn luyện 80%.
Việc phân loại chính xác các ca kiểm thử dư thừa giúp giảm thiểu thời gian và công sức kiểm thử mà vẫn đảm bảo độ phủ kiểm thử cao.
Nghiên cứu cung cấp cơ sở lý thuyết và thực nghiệm cho việc ứng dụng khai phá dữ liệu trong kiểm thử phần mềm, mở ra hướng phát triển cho các hệ thống kiểm thử tự động.
Các bước tiếp theo bao gồm mở rộng bộ dữ liệu, áp dụng mô hình vào các phần mềm phức tạp hơn và phát triển công cụ hỗ trợ tích hợp trong quy trình kiểm thử thực tế.

Hành động đề xuất: Các tổ chức phát triển phần mềm nên xem xét áp dụng mô hình phân lớp ca kiểm thử dựa trên cây quyết định để nâng cao hiệu quả kiểm thử và tiết kiệm nguồn lực.

Trích đoạn nội dung tài liệu

chương 1 đã đề cập đến những bước quan trọng diễn ra trong quá trình khai phá dữ liệu như chuẩn bị dữ liệu, mô hình hóa dữ liệu, xử lý và đánh giá, cuối cùng là triển khai áp dụng thực tế. Trong chương này cũng đã đề cập đến một số phương pháp cơ bản để thực hiện kiểm thử phần mềm cũng như phân tích đặc điểm, hiệu quả, phạm vi áp dụng của từng phương pháp. Kỹ thuật khai phá dữ liệu được chọn áp dụng trong luận văn là kỹ thuật phân lớp dữ liệu và phương pháp kiểm thử được chọn là phương pháp kiểm thử hộp trắng. Cụ thể hơn là phương pháp kiểm thử đường thi hành hay còn gọi là kiểm thử luồng điều khiển.

e 10 CHƯƠNG 2: PHÂN LỚP DỮ LIỆU DỰA TRÊN NAIVE BAYES VÀ CÂY QUYẾT ĐỊNH J48 Trong chương này, luận văn sẽ nêu lên hai thuật toán chính sử dụng trong luận văn đó là Naïve Bayes và J48. Nội dung chính của chương bao gồm khái niệm, thuật toán và áp dụng vào bài toán phân lớp dữ liệu nói chung.1 Kỹ thuật Naive Bayes cho phân lớp dữ liệu 2.1 Một số khái niệm cơ bản Định lý Bayes cho phép tính xác xuất xảy ra của sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra. Xác suất này được ký hiệu là 𝑃(𝐴|𝐵), đọc là “xác suất của 𝐴 nếu có 𝐵”. Đại lượng này được gọi là xác suất có điều kiện hay xác suất hậu nghiệm vì nó được rút ra từ giá trị được cho của 𝐵.

Theo định lý Bayes, xác suất xảy ra 𝐴 khi biết 𝐵 sẽ phụ thuộc vào 3 yếu tố sau:  Xác suất xảy ra 𝐴 mà không quan tâm đến 𝐵. Ký hiệu là 𝑃(𝐴) và đọc là xác suất của 𝐴. Đây còn được gọi là xác suất tiên nghiệm – nghĩa là nó không quan tâm đến bất kỳ thông tin nào của 𝐵 (prior).  Xác suất xảy ra 𝐵 mà không quan tâm đến 𝐴.

Ký hiệu là 𝑃(𝐵) và đọc là xác suất của B. Đại lượng này là hằng số chuẩn hóa, vì nó không phụ thuộc vào sự kiện 𝐴 đang muốn biết (evidence).  Xác suất xảy ra 𝐵 khi biết 𝐴 xảy ra. Ký hiệu 𝑃(𝐵|𝐴) và đọc là xác suất của 𝐵 nếu có 𝐴.

Đại lượng này là khả năng xảy ra 𝐵 khi biết 𝐴 đã xảy ra.  Xác suất có điều kiện mà 𝐴 xảy ra khi đã biết 𝐵. Xác suất này còn được gọi là xác suất sau (likelihood). Khi biết ba đại lượng kể trên.

Xác suất của 𝐴 khi biết 𝐵 được cho bởi công thức: (Công thức định lý Bayes) (posterior). 𝑃(𝐵|𝐴)𝑃(𝐴) 𝑙𝑖𝑘𝑒𝑙𝑖ℎ𝑜𝑜𝑑 ∗ 𝑝𝑟𝑖𝑜𝑟 𝑃(𝐴|𝐵) = = 𝑃(𝐵) 𝑒𝑣𝑖𝑑𝑒𝑛𝑐𝑒 Bài toán thực tế trong học máy sử dụng định lý Bayes: Vấn đề cần làm là tìm hiểu mô hình của chúng ta từ một tập hợp các thuộc tính nhất định (dựa vào tập dữ e 11 liệu đặc trưng đã quan sát được), mỗi bộ dữ liệu lại có một biến đại diện cho tập dữ liệu đó. Sử dụng định lý Bayes để xây dựng xác suất của biến dữ đoán đáp ứng được bộ dữ liệu ban đầu và đưa ra tập các thuộc tính mới. Giả thiết cho rằng số thuộc tính là 𝑛, số giá trị nó có thể có là 2 (đú𝑛𝑔 ℎ𝑜ặ𝑐 𝑠𝑎𝑖).

Để huấn luyện phân loại và áp dụng định lý Bayes, ta cần tính toán 𝑃(𝐵|𝐴), theo đó số lượng phép tính cần tính là xấp xỉ 2 ∗ (2𝑛 − 1) các tham số cho mô hình này. Có thể nhận thấy con số trên là một vấn đề khá lớn trong những bài toán có nhiều thuộc tính. Để giải quyết bài toán này, ta sẽ cần áp dụng thuật toán Naïve Bayes. Naive Bayes được nghiên cứu rộng rãi từ những năm 1950, ứng dụng và đưa vào thực tế những năm 1960.

Naive Bayes được xây dựng dựa trên định lý Bayes về lý thuyết xác suất để đưa ra các dự đoán cũng như phân loại dữ liệu dựa trên các dữ liệu quan sát được. Hiện nay thuật toán dược áp dụng nhiều trong lĩnh vực học máy dùng để đưa ra các dự đoán dựa trên tập dữ liệu thu thập được. Nó thuộc bài toán học dựa trên mẫu có trước. Có một số giả định được thực hiện trong Naïve Bayes.

Ngay cả khi những giả định này bị vi phạm một chút thì nó vẫn hoạt động rất tốt. Giả định đầu tiên cũng được coi là khá quan trọng khi thực thi Naïve Bayes là tất cả các biến ngẫu nhiên đầu vào phải độc lập với nhau và được lấy từ một phân phối tương tự nhau. Giả định thứ hai là tất cả những biến ngẫu nhiên kể trên đều có điều kiện độc lập. Trên thực tế, đối với các mô hình xác suất khác nhau mà có những phương pháp phân loại dựa trên Naïve Bayes khác nhau để có kết quả tốt nhất.

Thực tế cho thấy, một báo cáo năm 2006 đưa ra rằng phân loại Bayes vượt trội hơn so với các phương pháp khác như cây (trees) hoặc rừng ngẫu nhiên (random forests).2 Kỹ thuật Naïve Bayes Naïve Bayes là kỹ thuật phân loại phổ biến trong học máy có giám sát. Ý tưởng chính của kỹ thuật này dựa vào xác suất có điều kiện giữa từ hay cụm từ và nhãn phân loại để dự đoán văn bản mới cần phần loại thuộc lớp nào. Naïve Bayes e 12 được ứng dụng nhiều trong giải quyết các bài toán phân loại văn bản [6]; xây dựng bộ lọc thư rác tự động [7],[8]; hay trong bài toán khai phá quan điểm [9],[10] bởi tính dễ hiểu, đễ triển khai cũng như độ chính xác tốt. Ý tưởng cơ bản của cách tiếp cận Naïve Bayes là sử dụng xác suất có điều kiện giữa các đặc trưng và nhãn để dự đoán xác suất nhãn của một văn bản cần phân loại.

Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các đặc trưng trong văn bản đều độc lập với nhau. Giả định đó làm cho việc tính toán Naïve Bayes hiệu quả và nhanh chóng hơn các phương pháp khác vì không sử dụng việc kết hợp các đặc trưng để đưa ra phán đoán nhãn. Kết quả dự đoán bị ảnh hưởng bởi kích thước tập dữ liệu, chất lượng của không gian đặc trưng… Thuật toán Naïve Bayes dựa trên định lý Bayes được phát biểu như sau: 𝑃(𝐶𝑘 )𝑃(𝒙|𝐶𝑘 ) 𝑃(𝐶𝑘 |𝒙) = 𝑃(𝒙) Áp dụng trong bài toán phân loại, các dữ kiện gồm có: D: tập dữ liệu huấn luyện đã được vec-tơ hóa dưới dạng 𝑥⃗ = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ) Ci: phân loại i, với i = {1,2,…,m}. Các thuộc tính độc lập điều kiện đôi một với nhau.

Theo định lý Bayes: 𝑃(𝑋|𝐶𝑖 )𝑃(𝐶𝑖 ) 𝑃(𝐶𝑖 |𝑋 ) = 𝑃(𝑋) Theo tính chất độc lập điều kiện: 𝑛 𝑃(𝑋 |𝐶𝑖 ) = ∏ 𝑃(𝑥𝑘 |𝐶𝑖 ) 𝑘=1 Trong đó: 𝑃(𝐶𝑖 |𝑋) là xác suất thuộc phân loại i khi biết trước mẫu X. 𝑃(𝐶𝑖 ) xác suất là phân loại i. 𝑃(𝑥𝑘 |𝐶𝑖 ) xác suất thuộc tính thứ k mang giá trị xk khi đã biết X thuộc phân loại i. e 13 Thuật toán Naïve Bayes: Input : Bộ dữ liệu đã huấn luyện Dữ liệu đầu vào ví dụ ở bài toán này là một ca kiểm thử (testcase) Output : Nhãn phân loại của ca kiểm thử đầu vào Bước 1: Huấn luyện Naïve Bayes (dựa vào tập dữ liệu), tính 𝑃(𝐶𝑖 ) và 𝑃(𝑥𝑘 |𝐶𝑖 ) Bước 2: Phân loại 𝑋 𝑛𝑒𝑤 = (𝑥1 , 𝑥2 , … , 𝑥𝑛 ), ta cần tính xác suất thuộc từng phân loại khi đã biết trước Xnew.

Xnew được gán vào lớp có xác suất lớn nhất theo công thức 𝑛 max (𝑃(𝐶𝑖 ) ∏ 𝑃(𝑥𝑘 |𝐶𝑖 )) 𝐶𝑖 ∈𝐶 𝑘=1 2.3 Phân lớp dữ liệu với Naïve Bayes Khi áp dụng thuật toán Naïve Bayes vào bài toán phân lớp thực tế, để ước tính các tham số phù hợp với phân phối của đối tượng cần phân lớp mười ta sẽ phải giả định những phân phối các tính năng và được gọi là mô hình sự kiện của bài toán phân lớp dữ liệu với Naïve Bayes. Tùy thuộc bộ dữ liệu đầu vào để sử dụng những phân phối phù hợp nhất. 1: Naive Bayes trong bài toán phân lớp - Gaussian Naïve Bayes: Mô hình này sử dụng phân phối chuẩn Gaussian, được áp dụng chủ yếu trong bài toán có dữ liệu là các biến liên tục. Với mỗi chiều dữ liệu 𝑖 và một phân lớp 𝑐, 𝑥𝑖 tuân theo một phân phối chuẩn (phân phối Gaussian) có kỳ vọng 𝜇𝑐𝑖 và phương sai 𝜎𝑐𝑖2 : (𝑥𝑖 −𝜇𝑐𝑖 )2 1 − 2 𝑃(𝑥𝑖 |𝑐 ) = 𝑃(𝑥𝑖 |𝜇𝑐𝑖 , 𝜎𝑐𝑖2 ) = 𝑒 2𝜎𝑐𝑖 √2𝜋𝜎𝑐𝑖2 - Multinomoal Naïve Bayes: Mô hình này chủ yếu được sử dụng trong bài toán phân loại văn bản mà các vector tính năng (features) được biểu diễn bởi một vector có cùng độ dài 𝑑, các vector này là tập từ điển của văn bản.

Giá trị của phần tử thứ 𝑖 trong mỗi vector chính là số lần từ thứ 𝑖 xuất hiện trong văn bản đó. Khi đó, giá trị 𝑃(𝑥𝑖 |𝑐) được tính bằng công thức sau: 𝑁𝑐𝑖 𝑃(𝑥𝑖 |𝑐 ) = 𝑁𝑐 e 15 Trong đó:  𝑁𝑐𝑖 là tổng số lần từ thứ 𝑖 xuất hiện trong các văn bản của phân lớp thứ 𝑐, nó được tính là tổng các thành phần thứ 𝑖 của các vector tính năng ứng với phân lớp 𝑐.  𝑁𝑐 là tổng số từ (kể cả lặp) xuất hiện trong phân lớp thứ 𝑐. Nói cách khác, nó bằng tổng độ dài của toàn bộ các văn bản thuộc phân lớp 𝑐.

Hạn chế của phương pháp này là nếu có một từ mới chưa bao giờ xuất hiện trong phân lớp 𝑐 thì biểu thức kể trên sẽ có giá trị bằng 0, điều này dẫn đến kết quả của bài toán không còn chính xác nữa. - Bernoulli Naïve Bayes: Mô hình này được áp dụng cho các loại dữ liệu mà mỗi thành phần là một giá trị 0 hoặc 1. Khi đó, 𝑃(𝑥𝑖 |𝑐 ) được tính bằng công thức sau: 𝑃(𝑥𝑖 |𝑐 ) = 𝑃(𝑖 |𝑐 )𝑥𝑖 (1 − 𝑃(𝑖|𝑐 )1−𝑥𝑖 ) Với 𝑃(𝑖 |𝑐 ) là xác suất từ thứ 𝑖 xuất hiện trong phân lớp thứ 𝑐.2 Kỹ thuật cây quyết định J48 2.1 Cây quyết định Học bằng cây quyết định là một phương pháp thông dụng trong khai phá dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây.

Trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Quá trình này được lặp lại một cách đệ quy cho mỗi tập con dẫn xuất. Quá trình đệ quy hoàn thành thì không thể tiếp tục thực hiện việc chia tách được nữa.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Luận văn thạc sĩ "Ứng Dụng Kỹ Thuật Khai Phá Dữ Liệu Để Phân Lớp Kiểm Thử Phần Mềm" trình bày những phương pháp và kỹ thuật khai thác dữ liệu nhằm cải thiện quy trình kiểm thử phần mềm. Tài liệu này không chỉ giúp người đọc hiểu rõ hơn về cách phân loại và đánh giá hiệu quả của các phương pháp kiểm thử mà còn cung cấp những ứng dụng thực tiễn trong ngành công nghệ thông tin. Đặc biệt, luận văn nhấn mạnh tầm quan trọng của việc áp dụng các kỹ thuật khai phá dữ liệu để tối ưu hóa quy trình kiểm thử, từ đó nâng cao chất lượng sản phẩm phần mềm.

Nếu bạn muốn tìm hiểu thêm về các ứng dụng khác của kỹ thuật khai phá dữ liệu, hãy tham khảo Luận văn thạc sĩ nghiên cứu một số kỹ thuật khai phá dữ liệu cho bài toán dự đoán rủi ro tín dụng, nơi bạn sẽ thấy cách khai thác dữ liệu được áp dụng trong lĩnh vực tài chính. Ngoài ra, bạn cũng có thể khám phá Luận văn thạc sĩ công nghệ thông tin nghiên cứu và áp dụng kỹ thuật khai phá dữ liệu trên bộ dữ liệu sinh viên đại học phục vụ công tác cố vấn học tập để hiểu rõ hơn về ứng dụng trong giáo dục. Cuối cùng, Luận văn thạc sĩ kiểm định phần mềm bằng kỹ thuật hộp đen sẽ cung cấp cho bạn cái nhìn sâu sắc về các phương pháp kiểm định phần mềm hiện đại. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu biết về các ứng dụng của khai phá dữ liệu trong nhiều lĩnh vực khác nhau.

#Luận văn Thạc sĩ

#kiểm thử tự động

#ứng dụng khai thác dữ liệu

#kỹ thuật khai phá dữ liệu

#phân lớp kiểm thử phần mềm

#phân tích dữ liệu kiểm thử

Chủ đề

Nghiên cứu và phát triển phần mềm

Kỹ thuật khai phá dữ liệu

Phân lớp trong kiểm thử phần mềm

Ứng dụng công nghệ trong kiểm thử