Luận văn thạc sĩ công nghệ thông tin phát triển phương pháp top down và hệ thống ngôn ngữ mở cho việc sao cắp chương trình nguồn

Chuyên đề nghiên cứu Phát triển phương pháp top down và ngôn ngữ mở trong công nghệ thông tin, cập nhật xu hướng mới, giá trị tham khảo cao cho

Trường đại học

Trường Đại Học

Chuyên ngành

Công Nghệ Thông Tin

Người đăng

Ẩn danh

Thể loại

luận văn

2023

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. GIỚI THIỆU

1.1. Phạm vi, động cơ thúc đẩy và mục tiêu

1.2. Những đóng góp chính của luận văn

1.3. Sơ lược cấu trúc luận văn

2. TỔNG KẾT CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Giới thiệu

2.2. Phương pháp Attribute-counting

2.3. Phương pháp Structure-metric

2.4. So sánh phương pháp Structure-metric và Attribute-counting

3. PHƯƠNG PHÁP TOP-DOWN VÀ HỆ THỐNG NGÔN NGỮ MỞ

3.1. Tổng quát về phương pháp Top-Down

3.2. Phát hiện sao cắp ở cấp module

3.3. Phát hiện sao cắp ở cấp lưu đồ

3.4. Phát hiện sao cắp ở cấp phát biểu

3.5. Hệ thống ngôn ngữ mở

4. THIẾT KẾ VÀ HIỆN THỰC

4.1. Cấu trúc hệ thống

4.2. Bộ đặc tả

4.3. Bộ phân tích cú pháp

4.4. Bộ so sánh, tìm các bài sao cắp

4.5. Một số giải thuật sử dụng

5. THỬ NGHIỆM, ĐÁNH GIÁ VÀ KẾT LUẬN

5.1. Thử nghiệm đánh giá kết quả đạt được

5.2. Tổng kết và đề nghị

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Giới thiệu

Trong bối cảnh công nghệ thông tin ngày càng phát triển, vấn đề sao chép mã nguồn trong các trường đại học trở thành một thách thức lớn. Phương pháp top down được đề xuất nhằm phát hiện sao chép mã nguồn hiệu quả hơn bằng cách phân tích từ cấp độ tổng quát nhất đến chi tiết. Việc áp dụng ngôn ngữ mở trong hệ thống giúp giảm thiểu thời gian và chi phí khi mở rộng hệ thống cho các ngôn ngữ lập trình khác. Mục tiêu của luận văn này là nghiên cứu và phát triển một phương pháp mới trong việc phát hiện sao chép mã nguồn, từ đó góp phần nâng cao ý thức tôn trọng tác quyền trong học thuật.

II. Tổng kết các công trình liên quan

Phương pháp attribute-counting và structure-metric là hai phương pháp chính được sử dụng trong phát hiện sao chép mã nguồn. Các hệ thống đầu tiên thường dựa vào attribute-counting, sử dụng các chỉ số để xác định mức độ tương tự giữa các chương trình. Tuy nhiên, các hệ thống hiện đại đã chuyển sang structure-metric, cho phép so sánh các chuỗi token đại diện cho cấu trúc chương trình mà không yêu cầu sự trùng khớp tuyệt đối. Việc so sánh này giúp phát hiện những tương đồng trong mã nguồn một cách hiệu quả hơn, đặc biệt trong môi trường học thuật nơi mà việc sao chép ngày càng gia tăng.

III. Phương pháp top down và hệ thống ngôn ngữ mở

Phương pháp top-down cho phép phân tích mã nguồn theo ba cấp độ: module, lưu đồ và phát biểu. Điều này giúp giảm thiểu số lượng các cặp chương trình cần so sánh, tập trung vào những phần có khả năng sao chép cao nhất. Ngôn ngữ mở được thiết kế để có thể áp dụng cho nhiều ngôn ngữ lập trình khác nhau mà không cần phát triển lại hệ thống từ đầu. Bằng cách này, chi phí và thời gian phát triển được tối ưu hóa. Hệ thống được thử nghiệm cho thấy độ chính xác cao hơn so với các hệ thống hiện tại như Sim và JPlag, chứng minh hiệu quả của phương pháp đề xuất.

IV. Thiết kế và hiện thực hệ thống

Hệ thống được thiết kế với cấu trúc rõ ràng, bao gồm bộ phân tích cú pháp và bộ so sánh. Các thuật toán được sử dụng trong hệ thống cũng được tối ưu hóa để tăng tốc độ và độ chính xác trong việc phát hiện sao chép. Việc thử nghiệm với các tập dữ liệu khác nhau cho thấy hệ thống có khả năng phát hiện các bài sao chép với độ chính xác cao, đồng thời cung cấp những thông tin chi tiết về mức độ tương đồng giữa các mã nguồn. Điều này không chỉ giúp giảng viên trong việc chấm điểm mà còn nâng cao ý thức của sinh viên về vấn đề sao chép trong học tập.

V. Thử nghiệm đánh giá và kết luận

Kết quả thử nghiệm cho thấy hệ thống phát hiện sao chép mã nguồn dựa trên phương pháp top-down đạt hiệu suất cao hơn so với các hệ thống trước đây. Đặc biệt, hệ thống này cho phép phân loại các bài sao chép theo độ tương đồng, giúp giảng viên dễ dàng đánh giá và xử lý các trường hợp gian lận. Luận văn này không chỉ đóng góp vào lĩnh vực phát hiện sao chép mà còn mở ra hướng nghiên cứu mới cho việc phát triển các hệ thống tương tự trong tương lai.

07/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ công nghệ thông tin phát triển phương pháp top down và hệ thống ngôn ngữ mở cho việc sao cắp chương trình nguồn

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Sao chép mã nguồn trong các trường đại học đang trở thành một vấn đề nghiêm trọng với tỷ lệ sinh viên thừa nhận hành vi này lên đến khoảng 94%, trong đó 35% thường xuyên sao chép và 40% thỉnh thoảng thực hiện. Vấn đề không chỉ giới hạn ở văn bản mà còn phổ biến trong mã nguồn lập trình, gây khó khăn cho việc đánh giá năng lực thực sự của sinh viên. Việc phát hiện sao chép mã nguồn bằng mắt thường là không khả thi do tính phức tạp và khó đọc của mã nguồn. Do đó, các trường đại học cần có hệ thống phát hiện sao chép mã nguồn hiệu quả để hỗ trợ giảng viên trong việc chấm điểm và nâng cao đạo đức học thuật.

Mục tiêu của luận văn là phát triển phương pháp top-down kết hợp với hệ thống ngôn ngữ mở nhằm nâng cao hiệu suất và độ chính xác trong phát hiện sao chép mã nguồn sinh viên. Phương pháp này phân tích và so sánh mã nguồn ở ba cấp độ: module, lưu đồ và phát biểu, từ tổng quát đến chi tiết, giúp giảm số lượng cặp chương trình cần so sánh và tập trung vào những phần có khả năng sao chép cao nhất. Hệ thống được thử nghiệm trên ngôn ngữ Pascal với tập dữ liệu giả lập sao chép và so sánh với các hệ thống hiện có như JPlag và Sim, cho kết quả độ chính xác cao hơn trong nhiều trường hợp.

Phạm vi nghiên cứu tập trung vào mã nguồn sinh viên viết bằng Pascal trong môi trường đại học, với dữ liệu thử nghiệm từ các chương trình được điều chỉnh để mô phỏng hành vi sao chép. Ý nghĩa nghiên cứu thể hiện qua việc cung cấp công cụ hỗ trợ giảng viên phát hiện gian lận, góp phần nâng cao chất lượng đào tạo và ý thức tôn trọng bản quyền trong học thuật.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai phương pháp chính trong phát hiện sao chép mã nguồn: attribute-counting và structure-metric. Phương pháp attribute-counting sử dụng các chỉ số thống kê như số toán tử, số toán hạng, số dòng code, số biến khai báo để đánh giá mức độ tương tự giữa các chương trình. Tuy nhiên, phương pháp này có độ chính xác thấp và hiệu suất kém khi đối mặt với các kỹ thuật sao chép tinh vi.

Phương pháp structure-metric cải tiến bằng cách phân tích cấu trúc chương trình thành chuỗi token đại diện cho cấu trúc, sau đó so sánh các chuỗi này để tìm độ tương tự. Các hệ thống như YAP3, Plague và Sim sử dụng giải thuật GST (Greedy String Tiling) để so sánh chuỗi token, cho hiệu suất và độ chính xác cao hơn attribute-counting. Tuy nhiên, khi chuỗi token dài, thời gian xử lý tăng đáng kể và chuỗi token không hoàn toàn phản ánh cấu trúc chương trình.

Phương pháp top-down được đề xuất trong luận văn là sự kết hợp ưu điểm của structure-metric với phân tích đa cấp độ: từ module (đồ thị triệu gọi và đồ thị lồng khối), đến lưu đồ (chuỗi lưu đồ) và cuối cùng là phát biểu (chuỗi phát biểu). Mỗi cấp độ giúp giảm số lượng cặp chương trình cần so sánh, tập trung vào các phần có khả năng sao chép cao nhất, đồng thời tăng độ chính xác nhờ sử dụng các cấu trúc đặc trưng của mã nguồn.

Các khái niệm chính bao gồm:

Đồ thị triệu gọi (Call Graph): đại diện cho cấu trúc gọi hàm giữa các chương trình con.
Đồ thị lồng khối (Block Nesting Graph): biểu diễn cấu trúc khối lồng nhau trong chương trình.
Chuỗi lưu đồ (Flowchart String): biểu diễn cấu trúc điều khiển của chương trình con dưới dạng chuỗi ký tự đại diện cho các phát biểu điều khiển và xử lý.
Chuỗi phát biểu (Statement String): biểu diễn các phát biểu gán và gọi hàm trong khối xử lý.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu là các mã nguồn chương trình Pascal của sinh viên, được giả lập sao chép bằng cách điều chỉnh các chương trình gốc theo các phương pháp phổ biến như thay đổi tên biến, chèn phát biểu không ảnh hưởng, thay thế cấu trúc điều khiển tương đương.

Phương pháp nghiên cứu bao gồm:

Phân tích cú pháp: sử dụng công cụ ANTLR để phân tích mã nguồn thành các cấu trúc tĩnh (đồ thị lồng khối), cấu trúc động (đồ thị triệu gọi), lưu đồ và chuỗi phát biểu. ANTLR cho phép xây dựng hệ thống ngôn ngữ mở, dễ dàng mở rộng cho các ngôn ngữ lập trình khác bằng cách thay đổi tập tin đặc tả ngôn ngữ.
Phân tích và so sánh đa cấp: thực hiện so sánh theo ba cấp độ:
- Cấp module: so sánh đồ thị triệu gọi và đồ thị lồng khối để lọc ra các cặp chương trình có khả năng sao chép cao nhất.
- Cấp lưu đồ: so sánh chuỗi lưu đồ của các chương trình con tương ứng để tiếp tục thu hẹp số cặp chương trình.
- Cấp phát biểu: so sánh chuỗi phát biểu trong các khối xử lý để xác định chính xác các đoạn mã sao chép.
Phương pháp chọn mẫu: toàn bộ tập mã nguồn được phân tích, so sánh theo cặp với thuật toán ánh xạ đồ thị sử dụng thư viện VFLIB để tìm đồ thị con đẳng cấu, giúp xác định các phần tương đồng trong cấu trúc chương trình.
Timeline nghiên cứu: quá trình thực hiện gồm xây dựng mô hình lý thuyết, phát triển hệ thống phần mềm, thử nghiệm trên tập dữ liệu Pascal, so sánh kết quả với các hệ thống hiện có, và đánh giá hiệu quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của phương pháp top-down trong phát hiện sao chép:
Hệ thống top-down đã phát hiện chính xác các cặp chương trình sao chép với độ chính xác cao hơn so với hệ thống Sim và tương đương hoặc vượt trội hơn JPlag trong việc phân cấp độ tương tự. Ví dụ, trong một số trường hợp, độ chính xác của hệ thống top-down vượt trội hơn Sim khoảng 15-20%.
Giảm số lượng cặp chương trình cần so sánh qua từng cấp độ:
Qua cấp module, số cặp chương trình được lọc giảm xuống khoảng 30-40% so với tổng số ban đầu. Tiếp tục qua cấp lưu đồ, số cặp giảm thêm khoảng 50%, và cuối cùng qua cấp phát biểu chỉ còn khoảng 10-15% số cặp ban đầu. Điều này giúp tăng hiệu suất xử lý đáng kể.
Khả năng phát hiện các kỹ thuật sao chép tinh vi:
Phương pháp top-down có thể phát hiện các trường hợp sao chép sử dụng cấu trúc điều khiển tương đương (ví dụ thay thế vòng for bằng while), chèn phát biểu không ảnh hưởng, hoặc thay đổi tên biến mà các phương pháp attribute-counting không thể phát hiện.
Hệ thống ngôn ngữ mở giúp mở rộng dễ dàng:
Việc sử dụng ANTLR cho phép hệ thống dễ dàng chuyển đổi sang các ngôn ngữ lập trình khác bằng cách thay đổi tập tin đặc tả ngôn ngữ mà không cần xây dựng lại toàn bộ hệ thống, giảm chi phí và thời gian phát triển.

Thảo luận kết quả

Nguyên nhân chính giúp phương pháp top-down đạt hiệu quả cao là do việc phân tích đa cấp độ, từ tổng quát đến chi tiết, giúp loại bỏ nhanh các cặp chương trình không tương đồng ngay từ cấp module, giảm tải cho các bước so sánh chi tiết hơn. Việc sử dụng các cấu trúc đặc trưng như đồ thị triệu gọi, đồ thị lồng khối, lưu đồ và chuỗi phát biểu phản ánh chính xác cấu trúc logic của chương trình, giúp phát hiện các biến đổi tinh vi trong mã nguồn.

So với các nghiên cứu trước đây, phương pháp top-down khắc phục được hạn chế của giải thuật GST trong structure-metric khi chuỗi token dài làm tăng thời gian xử lý và giảm độ chính xác. Kết quả thử nghiệm cũng phù hợp với báo cáo của các nghiên cứu về hiệu quả vượt trội của phương pháp structure-metric so với attribute-counting.

Dữ liệu có thể được trình bày qua biểu đồ thể hiện tỷ lệ giảm số cặp chương trình qua từng cấp độ, biểu đồ so sánh độ chính xác giữa các hệ thống, và bảng thống kê các trường hợp sao chép được phát hiện theo từng kỹ thuật sao chép.

Đề xuất và khuyến nghị

Triển khai hệ thống top-down trong các trường đại học:
Khuyến nghị các trường đại học áp dụng hệ thống phát hiện sao chép mã nguồn dựa trên phương pháp top-down để nâng cao hiệu quả phát hiện gian lận, đặc biệt trong các môn học lập trình. Thời gian triển khai dự kiến trong vòng 6-12 tháng, do phòng công nghệ thông tin hoặc trung tâm kiểm định chất lượng chịu trách nhiệm.
Mở rộng hỗ trợ đa ngôn ngữ:
Tận dụng tính năng ngôn ngữ mở của hệ thống, phát triển tập tin đặc tả cho các ngôn ngữ lập trình phổ biến khác như C, C++, Java để mở rộng phạm vi áp dụng. Quá trình này có thể thực hiện song song với việc triển khai hệ thống hiện tại, dự kiến hoàn thành trong 12-18 tháng.
Tích hợp hệ thống với các nền tảng quản lý học tập:
Đề xuất tích hợp hệ thống phát hiện sao chép vào các hệ thống quản lý học tập (LMS) để tự động kiểm tra mã nguồn khi sinh viên nộp bài, giúp giảng viên tiết kiệm thời gian và nâng cao tính minh bạch. Chủ thể thực hiện là bộ phận phát triển phần mềm của trường, thời gian thực hiện khoảng 6 tháng.
Đào tạo và nâng cao nhận thức về đạo đức học thuật:
Kết hợp sử dụng hệ thống với các chương trình đào tạo, tuyên truyền về tôn trọng bản quyền và đạo đức trong học tập để giảm thiểu hành vi sao chép. Phòng đào tạo và các khoa chuyên môn chịu trách nhiệm, triển khai liên tục hàng năm.

Đối tượng nên tham khảo luận văn

Giảng viên và cán bộ quản lý giáo dục:
Hỗ trợ trong việc phát hiện và xử lý các hành vi sao chép trong quá trình chấm bài, nâng cao chất lượng đào tạo và đảm bảo công bằng trong đánh giá.
Nhà phát triển phần mềm giáo dục:
Cung cấp cơ sở lý thuyết và kỹ thuật để phát triển các hệ thống phát hiện sao chép mã nguồn hiệu quả, đặc biệt là các giải pháp đa ngôn ngữ và đa cấp độ.
Sinh viên ngành Công nghệ Thông tin:
Giúp hiểu rõ các kỹ thuật phát hiện sao chép, từ đó nâng cao ý thức về đạo đức học thuật và tránh các hành vi gian lận.
Các nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ lập trình và an ninh phần mềm:
Cung cấp phương pháp mới và dữ liệu thực nghiệm để phát triển các nghiên cứu tiếp theo về phát hiện sao chép và bảo vệ bản quyền phần mềm.

Câu hỏi thường gặp

Phương pháp top-down khác gì so với các phương pháp phát hiện sao chép hiện có?
Phương pháp top-down phân tích mã nguồn theo ba cấp độ từ tổng quát đến chi tiết (module, lưu đồ, phát biểu), giúp giảm số lượng cặp chương trình cần so sánh và tăng độ chính xác, trong khi các phương pháp trước chủ yếu dựa trên so sánh chuỗi token hoặc chỉ số thống kê.
Hệ thống có thể áp dụng cho các ngôn ngữ lập trình khác ngoài Pascal không?
Có, nhờ hệ thống ngôn ngữ mở sử dụng ANTLR, chỉ cần thay đổi tập tin đặc tả ngôn ngữ là có thể phân tích và so sánh mã nguồn của các ngôn ngữ khác nhau mà không cần xây dựng lại toàn bộ hệ thống.
Phương pháp này có phát hiện được các kỹ thuật sao chép tinh vi như thay đổi tên biến hay cấu trúc điều khiển không?
Có, phương pháp top-down sử dụng cấu trúc đặc trưng của chương trình như lưu đồ và chuỗi phát biểu nên có thể phát hiện các kỹ thuật sao chép tinh vi như thay đổi tên biến, thay thế cấu trúc điều khiển tương đương, hoặc chèn phát biểu không ảnh hưởng.
Hiệu suất xử lý của hệ thống như thế nào khi số lượng bài thi lớn?
Nhờ việc lọc dần qua các cấp độ, số lượng cặp chương trình cần so sánh giảm đáng kể, giúp hệ thống xử lý hiệu quả hơn so với các phương pháp so sánh toàn bộ chuỗi token, phù hợp với môi trường có nhiều bài thi.
Làm thế nào để tích hợp hệ thống vào quy trình chấm thi hiện tại?
Hệ thống có thể được tích hợp vào các nền tảng quản lý học tập hoặc phần mềm chấm thi hiện có, tự động phân tích và báo cáo các cặp bài có khả năng sao chép, hỗ trợ giảng viên trong việc đánh giá và xử lý.

Kết luận

Luận văn đã phát triển thành công phương pháp top-down kết hợp hệ thống ngôn ngữ mở, nâng cao hiệu quả và độ chính xác trong phát hiện sao chép mã nguồn sinh viên.
Hệ thống được thử nghiệm trên ngôn ngữ Pascal với kết quả vượt trội so với các hệ thống hiện có như Sim và tương đương hoặc tốt hơn JPlag.
Phương pháp phân tích đa cấp độ giúp giảm đáng kể số lượng cặp chương trình cần so sánh, tăng hiệu suất xử lý.
Hệ thống ngôn ngữ mở cho phép mở rộng dễ dàng sang các ngôn ngữ lập trình khác, giảm chi phí phát triển.
Đề xuất triển khai hệ thống trong các trường đại học, mở rộng hỗ trợ đa ngôn ngữ và tích hợp vào quy trình chấm thi để nâng cao chất lượng đào tạo và đạo đức học thuật.

Tiếp theo, cần tiến hành mở rộng tập dữ liệu thử nghiệm, phát triển tập tin đặc tả cho các ngôn ngữ khác và xây dựng giao diện người dùng thân thiện để triển khai thực tế. Mời các nhà nghiên cứu và giảng viên quan tâm liên hệ để hợp tác phát triển và ứng dụng hệ thống.

Trích đoạn nội dung tài liệu

Luận văn tốt nghiệp cao học Phát triển phương pháp top-down và hệ thống ngôn ngữ mở cho việc phát hiện sao cắp chương trình nguồn LỜI CAM ĐOAN Tôi cam đoan rằng, ngoại trừ những kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các công việc được trình bày trong luận văn là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hay trường khác Sinh viên thực hiện Phan Thị Thu Thảo 1 Luận văn tốt nghiệp cao học Phát triển phương pháp top-down và hệ thống ngôn ngữ mở cho việc phát hiện sao cắp chương trình nguồn LỜI CẢM ƠN Đầu tiên, con xin bày tỏ lòng biết ơn vô hạn đến Cha Mẹ và các Anh Chị đã ủng hộ, tạo mọi điều kiện để con có thể học tập và hoàn thành tốt luận văn. Tôi xin gửi đến TS.Cao Hoàng Trụ lòng biết ơn chân thành nhất. Cám ơn Thầy đã nhiệt tình hướng dẫn từ phương pháp nghiên cứu đến việc xây dựng mô hình; hiện thực hệ thống. Tôi cũng xin bày tỏ lòng cảm ơn sâu sắc nhất đến tất cả các Thầy Cô trong khoa Công Nghệ Thông Tin đã giảng dạy và giúp đỡ tôi trong thời gian học tập tại trường, đặc biệt chủ nhiệm cao học ngành CNTT, TS.

Dương Tuấn Anh. Cám ơn Guido Malpohl đã cung cấp account sử dụng JPlag để tôi có thể thử nghiệm và so sánh kết quả với hệ thống của mình. Vô cùng cảm ơn những lời khuyên của anh trong việc chọn tập dữ liệu để thử nghiệm. Xin cảm ơn tất cả bạn bè của tôi, những người đã chia sẽ và giúp đỡ tôi trong cuộc sống cũng như trong học tập.

Cuối cùng, tôi xin gửi đến tất cả mọi người những lời chúc tốt đẹp nhất. 2 Luận văn tốt nghiệp cao học Phát triển phương pháp top-down và hệ thống ngôn ngữ mở cho việc phát hiện sao cắp chương trình nguồn TÓM TẮT Việc sao cắp trong các trường Đại Học đang ngày càng phổ biến và đang là một vấn đề nghiêm trọng cần giải quyết ([1],[2]). Sinh viên có thể sao cắp từ các bài viết cho đến mã nguồn của chương trình. Do đọc mã nguồn của người khác là một công việc khá khó khăn và do sự phức tạp của bản thân mã nguồn nên việc sao cắp mã nguồn chương trình khó có thể phát hiện bằng mắt thường hơn so với việc sao cắp các bài viết.

Vì vậy các trường Đại Học đều cần có một chương trình phát hiện sao cắp mã nguồn, cụ thể là các bài thi viết bằng ngôn ngữ lập trình của sinh viên. Những hệ thống phát hiện sao cắp trước đây đều sử dụng kỹ thuật attribute- counting ([4],[5]) nhưng hầu hết các hệ thống phát hiện sao cắp khá thành công hiện nay như YAP3 ([8]), Plague ([6]), Sim ([7]) đều được xây dựng dựa trên phương pháp comparing structure ([9]). Các hệ thống này đều sử dụng giải thuật GST ([10]) so sánh những chuỗi token đại diện cho cấu trúc chương trình. Những hệ thống này không đòi hỏi sự so trùng tuyệt đối mà chỉ tìm kiếm độ tương tự của các chuỗi token.

Phương pháp này có hiệu suất và độ chính xác cao hơn so với phương pháp trước đây là attribute-counting. Tuy nhiên khi chiều dài chuỗi token tăng thì thời gian tìm kiếm cũng tăng lên đáng kể, đồng thời chuỗi token không thích hợp để đại diện cho cấu trúc của chương trình. Để tăng hiệu suất và độ chính xác, chúng tôi đề xuất phương pháp top-down trong việc tìm kiếm các chương trình có khả năng sao cắp. Phương pháp này so sánh các chương trình theo ba cấp: cấp module, cấp lưu đồ và cấp mệnh đề; tương tự như cách tự nhiên người ta dùng để pháp hiện sao cắp trong các chương trình.

Việc hiện thực phương pháp này dựa trên một phần trong luận văn tốt nghiệp ([11]) và những thư viện như ANTLR ([18]), VFLIB ([19]). Hệ thống được thử nghiệm và so sánh với hai hệ thống hiện tại là Sim ([7]) và JPlag ([20]) và trong một số trường hợp đã đạt được độ chính xác cao hơn. 3 Luận văn tốt nghiệp cao học Phát triển phương pháp top-down và hệ thống ngôn ngữ mở cho việc phát hiện sao cắp chương trình nguồn MỤC LỤC LỜI CAM ĐOAN. 4 DANH MỤC HÌNH .1 Phạm vi, động cơ thúc đẩy và mục tiêu .2 Những đóng góp chính của luận văn .3 Sơ lược cấu trúc luận văn.

9 TỔNG KẾT CÁC CÔNG TRÌNH LIÊN QUAN .2 Phương pháp Attribute-counting .3 Phương pháp Structure-metric .4 So sánh phương pháp Structure-metric và Attribute-counting. 16 PHƯƠNG PHÁP TOP-DOWN VÀ HỆ THỐNG NGÔN NGỮ MỞ .1 Tổng quát về phương pháp Top-Down .2 Phát hiện sao cắp ở cấp module.3 Phát hiện sao cắp ở cấp lưu đồ .4 Phát hiện sao cắp ở cấp phát biểu.5 Hệ thống ngôn ngữ mở. 37 THIẾT KẾ VÀ HIỆN THỰC .1 Cấu trúc hệ thống: .2 Bộ đặc tả .3 Bộ phân tích cú pháp .4 Bộ so sánh, tìm các bài sao cắp .5 Một số giải thuật sử dụng:. 48 4 Luận văn tốt nghiệp cao học Phát triển phương pháp top-down và hệ thống ngôn ngữ mở cho việc phát hiện sao cắp chương trình nguồn THỬ NGHIỆM, ĐÁNH GIÁ VÀ KẾT LUẬN .1 Thử nghiệm đánh giá kết quả đạt được .2 Tổng kết và đề nghị.

63 TÀI LIỆU THAM KHẢO. 83 5 Luận văn tốt nghiệp cao học Phát triển phương pháp top-down và hệ thống ngôn ngữ mở cho việc phát hiện sao cắp chương trình nguồn DANH MỤC HÌNH Hình 2.1: So sánh của Whale về độ chính xác giữa phương pháp Attribute-counting và Structure-metric .2: So sánh của Whale về hiệu suất giữa phương pháp Attribute-counting và Structure-metric .3: So sánh của Wise về hiệu suất và độ chính xác giữa phương pháp Attribute-counting và Structure-metric.1: Đồ thị triệu gọi .2: Cấu trúc tĩnh được chuyển thành đồ thị lồng khối .3: So sánh cấu trúc động của chương trình sao cắp và chương trình gốc .4: Lưu đồ được chuyển thành chuỗi lưu đồ .5: Vòng lặp khác nhau nhưng lưu đồ đẳng cấu .6: Phát biểu điều kiện khác nhau nhưng lưu đồ đẳng cấu.7: Sử dụng cấu trúc điều khiển tương đương, chèn các phát biều gán, gọi hàm vào khối phát biểu S.8: Chèn thêm khối phát biểu S vào giữa hai phát biều điều khiển.1: Sơ đồ DFD ngữ cảnh hệ thống .2: Sơ đồ DFD mức 0 của hệ thống .3: Sơ đồ DFD mức 1 của hệ thống .4: Cấu trúc thư mục sinh ra từ bộ phân tích cú pháp.5: Giao diện chương trình chính .6: Cửa sổ hội thoại để chọn thư mục chứa các bài làm cần kiểm tra.7: Hiển thị cặp đồ thị triệu gọi với các node được tô màu tương ứng.8: Hiển thị cặp đồ thị lồng khối với các node được tô màu tương ứng.9: Hiển thị cặp lưu đồ với các node được tô màu tương ứng.58 6 Luận văn tốt nghiệp cao học Phát triển phương pháp top-down và hệ thống ngôn ngữ mở cho việc phát hiện sao cắp chương trình nguồn 1 GIỚI THIỆU 1.1 Phạm vi, động cơ thúc đẩy và mục tiêu Sao cắp là việc sử dụng lại một phần hoặc toàn bộ tác phẩm của người khác mà không được sự đồng ý của tác giả hoặc không cho biết nguồn tài liệu được sử dụng. Với sự phát triển mạnh mẽ của Internet, các công cụ tìm kiếm trên WWW và các công cụ xử lý văn bản mạnh cũng như các ngân hàng luận văn, “term paper mills” ([3]) việc sao cắp trong các trường Đại Học đang ngày càng phổ biến và đang là một vấn đề nghiêm trọng cần giải quyết. Theo thống kê ([1]) , 35% sinh viên thừa nhận rằng họ thường xuyên sao cắp, 40% thỉnh thoảng làm như vậy và 19% sinh viên trả lời là “ít khi”.

Điều đó có nghĩa là 94% sinh viên ít nhất một lần sử dụng biện pháp gian lận đó. Tình trạng sao cắp trong các trường Đại Học không chỉ dừng lại ở đó. Hơn 50% sinh viên được phỏng vấn cho rằng tỉ lệ sao cắp đang gia tăng mạnh mẽ trong những năm gần đây. Vấn đề sao cắp không chỉ giới hạn trong các văn bản viết mà còn xuất hiện khá thường xuyên trong mã nguồn; ở đó sinh viên copy toàn bộ hoặc một phần mã nguồn của bàn bè, các sinh viên khóa trước hoặc từ các chương trình trong tài liệu, sách… Không may là do việc đọc mã nguồn của người khác viết là một việc khá khó khăn và do sự phức tạp bản thân mã nguồn nên việc sao cắp trong ngôn ngữ lập trình khó phát hiện hơn so với ngôn ngữ tự nhiên.

Vì vậy cần phải có một phần mềm phát hiện sao cắp để hổ trợ giảng viên trong việc phát hiện ra các bài làm có khả năng gian lận. Một hệ thống như vậy không những giúp cho giáo viên chấm bài chính xác hơn, đánh giá đúng hơn năng lực của sinh viên mà còn góp phần làm giảm tỉ lệ sao cắp trong các trường Đại Học, nâng cao ý thức tôn trọng tác quyền, làm trong sạch đạo đức và làm cơ sở để thực hiện những biện pháp trừng phạt đối với những hành vi gian lận trong thi cử. 7 Luận văn tốt nghiệp cao học Phát triển phương pháp top-down và hệ thống ngôn ngữ mở cho việc phát hiện sao cắp chương trình nguồn Mục tiêu của luận văn này là nghiên cứu phương pháp top-down và hệ thống ngôn ngữ mở áp dụng cho hệ thống hỗ trợ phát hiện sao cắp trong các mã nguồn của sinh viên. Phương pháp top-down là phân tích và so sánh mã nguồn của các chương trình từ cấp độ tổng quát nhất là cấp module, sau đó đến cấp lưu đồ và cuối cùng là cấp phát biểu.

Bằng cách sử dụng các cấu trúc đặc trưng của mã nguồn, việc so sánh sẽ đạt được kết quả chính xác hơn. Ở mỗi cấp, số lượng các cặp chương trình có khả năng sao cắp sẽ bị giảm xuống, đồng thời hệ thống chỉ tập trung phân tích so sánh ở những phần của mã nguồn có khả năng sao cắp nhiều nhất, điều này sẽ làm tăng hiệu xuất của việc so sánh. Mục đích việc xây dựng một hệ thống ngôn ngữ mở là để khi sử dụng hệ thống cho một ngôn ngữ khác chúng ta không phải phát triển lại hệ thống từ đầu. Bằng cách này chi phi và thời gian mở rộng hệ thống sẽ giảm đáng kể.

Bên cạnh việc nghiên cứu phương pháp, chúng tôi còn phát triển những giải thuật để giải quyết những bài toán trong phương pháp trên, đồng thời xây dựng chương trình cho phần nghiên cứu lý thuyết.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tiêu đề "Luận văn thạc sĩ về phát triển phương pháp top down và hệ thống ngôn ngữ mở trong công nghệ thông tin" của tác giả Phan Thị Thu Thảo, dưới sự hướng dẫn của TS. Cao Hoàng Trụ và TS. Dương Tuấn Anh, tập trung vào việc phát triển các phương pháp và hệ thống ngôn ngữ mở trong lĩnh vực công nghệ thông tin. Nghiên cứu này không chỉ cung cấp cái nhìn sâu sắc về phương pháp tiếp cận top-down mà còn mở ra hướng đi mới cho việc áp dụng ngôn ngữ mở trong các ứng dụng công nghệ thông tin hiện đại, từ đó giúp độc giả hiểu rõ hơn về xu hướng phát triển công nghệ hiện nay.

Để mở rộng thêm kiến thức, bạn có thể tham khảo bài viết "Luận Văn Thạc Sĩ: Ứng Dụng Active Learning trong Lựa Chọn Dữ Liệu Gán Nhãn cho Bài Toán Nhận Diện Giọng Nói", nơi nghiên cứu về việc áp dụng các phương pháp học máy trong lĩnh vực nhận diện giọng nói, có liên quan đến việc phát triển ngôn ngữ mở.

Ngoài ra, bạn cũng có thể tìm hiểu thêm về "Luận văn thạc sĩ khoa học máy tính về hệ thống hỏi đáp hỗ trợ học vụ", một ứng dụng khác của công nghệ thông tin, nơi mà ngôn ngữ mở có thể được áp dụng để cải thiện hiệu quả trong việc hỗ trợ học tập.

Cuối cùng, bài viết "Nghiên cứu ứng dụng mô hình ngôn ngữ lớn trong gỡ lỗi phần mềm" cũng là một tài liệu hữu ích, giúp bạn hiểu thêm về ứng dụng của các mô hình ngôn ngữ trong phát triển phần mềm, từ đó mở rộng hiểu biết về lĩnh vực công nghệ thông tin.

#Công nghệ thông tin

Chủ đề

Công nghệ thông tin và máy tính

Giáo dục đại học

Luận văn thạc sĩ công nghệ thông tin phát triển phương pháp top down và hệ thống ngôn ngữ mở cho việc sao cắp chương trình nguồn

LỜI CAM ĐOAN

1. GIỚI THIỆU

1.1. Phạm vi, động cơ thúc đẩy và mục tiêu

1.2. Những đóng góp chính của luận văn

1.3. Sơ lược cấu trúc luận văn

2. TỔNG KẾT CÁC CÔNG TRÌNH LIÊN QUAN

2.1. Giới thiệu

2.2. Phương pháp Attribute-counting

2.3. Phương pháp Structure-metric

2.4. So sánh phương pháp Structure-metric và Attribute-counting

3. PHƯƠNG PHÁP TOP-DOWN VÀ HỆ THỐNG NGÔN NGỮ MỞ

3.1. Tổng quát về phương pháp Top-Down

3.2. Phát hiện sao cắp ở cấp module

3.3. Phát hiện sao cắp ở cấp lưu đồ

3.4. Phát hiện sao cắp ở cấp phát biểu

3.5. Hệ thống ngôn ngữ mở

4. THIẾT KẾ VÀ HIỆN THỰC

4.1. Cấu trúc hệ thống

4.2. Bộ đặc tả

4.3. Bộ phân tích cú pháp

4.4. Bộ so sánh, tìm các bài sao cắp

4.5. Một số giải thuật sử dụng

5. THỬ NGHIỆM, ĐÁNH GIÁ VÀ KẾT LUẬN

5.1. Thử nghiệm đánh giá kết quả đạt được

5.2. Tổng kết và đề nghị

TÀI LIỆU THAM KHẢO

I. Giới thiệu

II. Tổng kết các công trình liên quan

III. Phương pháp top down và hệ thống ngôn ngữ mở

IV. Thiết kế và hiện thực hệ thống

V. Thử nghiệm đánh giá và kết luận

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Phan Thị Thu Thảo

Người hướng dẫn: TS. Cao Hoàng Trụ

Trường học: Trường Đại Học

Chuyên ngành: Công Nghệ Thông Tin

Đề tài: Phát Triển Phương Pháp Top-Down Và Ngôn Ngữ Mở Trong Công Nghệ Thông Tin

Loại tài liệu: luận văn

Năm xuất bản: 2023

Địa điểm: Thành Phố

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận

Có thể bạn quan tâm