Luận văn thạc sĩ ứng dụng phân cụm dữ liệu trong việc kiểm toán gian lận trên báo cáo tài chính

Luận văn thạc sĩ nghiên cứu ứng dụng phân cụm dữ liệu trong việc kiểm toán gian lận trên báo cáo tài chính, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện

Trường đại học

Trường Đại Học Kinh Tế TP. Hồ Chí Minh

Chuyên ngành

Kế toán

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2014

117

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: CƠ SỞ LÝ LUẬN VỀ PHÂN CỤM DỮ LIỆU VÀ GIAN LẬN BÁO CÁO TÀI CHÍNH

1.1. Khai phá dữ liệu

1.1.1. Tổng quan về khai phá dữ liệu

1.1.2. Định nghĩa

1.2. Khai phá dữ liệu - Quy trình khai phá dữ liệu từ kho dữ liệu

1.3. Tổng quan về gian lận

1.4. Lịch sử các công trình nghiên cứu về gian lận

1.5. Các yếu tố của gian lận

1.6. Ảnh hưởng của công nghệ thông tin đến BCTC trong mối quan hệ với gian lận và sai sót

1.7. Kết luận chương 1

2. CHƯƠNG 2: THỰC TRẠNG GIAN LẬN BÁO CÁO TÀI CHÍNH VÀ TÌNH HÌNH SỬ DỤNG TỶ SUẤT TÀI CHÍNH

2.1. Sơ lược về thực trạng gian lận BCTC

2.2. Thực trạng gian lận BCTC trên thế giới

2.3. Thực trạng gian lận BCTC tại Việt Nam

2.4. Các thủ thuật gian lận BCTC

2.5. Thực trạng các quy định về trách nhiệm của kiểm toán viên đối với gian lận BCTC

2.6. Chuẩn mực kiểm toán quốc tế

2.7. Thực trạng các quy định về trách nhiệm của KTV đối với gian lận trên BCTC tại Việt Nam

2.8. Kinh nghiệm của các công ty kiểm toán nước ngoài tại Việt Nam trong việc vận dụng kỹ thuật khai phá dữ liệu trong kiểm toán BCTC

2.8.1. KPMG Việt Nam

2.8.2. Lập kế hoạch kiểm toán

2.8.3. Đánh giá hệ thống kiểm soát nội bộ

2.8.4. Thiết kế và thực hiện thử nghiệm cơ bản

2.8.5. Kết thúc kiểm toán

2.8.6. Deloitte Việt Nam

2.8.7. Grant Thornton Việt Nam

2.9. Thực trạng sử dụng các tỷ suất tài chính nhằm phát hiện gian lận trên BCTC trong nghiên cứu trước đây và tại các công ty kiểm toán ở Việt Nam

2.10. Kết hợp giữa tỷ suất tài chính và kỹ thuật phân cụm dữ liệu trong việc phát hiện gian lận trên BCTC trong nghiên cứu trước đây

2.11. Thực trạng sử dụng tỷ suất tài chính trong việc phát hiện gian lận trên BCTC tại các công ty kiểm toán ở Việt Nam

2.11.1. Theo chương trình kiểm toán mẫu năm 2013 do VACPA ban hành

2.11.2. Theo chương trình kiểm toán tại Deloitte Việt Nam

2.11.3. Theo chương trình kiểm toán tại Grant Thornton Việt Nam

2.11.4. Theo chương trình kiểm toán tại KPMG Việt Nam

2.12. Đánh giá thực trạng ứng dụng tỷ suất tài chính trong việc phát hiện gian lận trên BCTC

2.13. Kết luận chương 2

3. CHƯƠNG 3: ỨNG DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU TRONG VIỆC KIỂM TOÁN GIAN LẬN TRÊN BCTC, NHẬN XÉT VÀ KIẾN NGHỊ

3.1. Quan điểm về ứng dụng CNTT trong quá trình kiểm toán BCTC

3.2. Hạn chế làm thủ công

3.3. Ứng dụng triệt để CNTT vào trong quá trình kiểm toán

3.4. Ứng dụng kỹ thuật phân cụm dữ liệu phân hoạch K-means

3.5. Quy trình thực hiện phân cụm dữ liệu

3.6. Các công cụ thực hiện phân cụm dữ liệu

3.7. Thống kê mô tả về mẫu quan sát

3.8. Sự khác biệt trị trung bình giữa hai nhóm doanh nghiệp

3.9. Kết quả phân cụm dữ liệu K-Means

3.9.1. Tóm tắt kết quả phân tích cụm

3.9.2. Kết quả kiểm định AVOVA

3.9.3. Kết quả phân cụm dữ liệu cuối cùng

3.9.4. Phân tích dữ liệu cụm 2

3.9.5. Phân tích tỷ số đòn bẫy tài chính

3.9.6. Phân tích tỷ suất về khả năng sinh lời

3.9.7. Phân tích tỷ suất về cơ cấu tài sản

3.9.8. Phân tích tỷ số về tính thanh khoản

3.9.9. Phân tích chỉ số về quy mô doanh nghiệp

3.9.10. Phân tích hệ số về khả năng phá sản

3.10. Nhận xét và kiến nghị áp dụng

3.10.1. Các kiến nghị áp dụng

3.10.1.1. Đối với kiểm toán viên và công ty kiểm toán

3.10.1.2. Đối với Ban quản trị doanh nghiệp

3.10.1.3. Đối với nhà trường và hiệp hội kiểm toán viên hành nghề

3.10.1.4. Đối với nhà đầu tư

TÀI LIỆU THAM KHẢO

PHỤ LỤC

Tóm tắt

I. Tổng quan về phân cụm dữ liệu kiểm toán gian lận tài chính

Phân cụm dữ liệu là một kỹ thuật quan trọng trong lĩnh vực kiểm toán gian lận tài chính. Kỹ thuật này giúp phân loại và nhóm các dữ liệu tài chính để phát hiện các mẫu gian lận. Việc áp dụng phân cụm dữ liệu không chỉ giúp kiểm toán viên phát hiện gian lận mà còn hỗ trợ trong việc ra quyết định. Trong bối cảnh hiện nay, với sự gia tăng của các vụ gian lận tài chính, việc ứng dụng phân cụm dữ liệu trở nên cấp thiết hơn bao giờ hết.

1.1. Khái niệm và vai trò của phân cụm dữ liệu

Phân cụm dữ liệu là quá trình nhóm các đối tượng tương tự nhau lại với nhau. Trong kiểm toán gian lận tài chính, phân cụm giúp xác định các nhóm doanh nghiệp có hành vi tài chính bất thường. Điều này giúp kiểm toán viên dễ dàng phát hiện các dấu hiệu gian lận.

1.2. Lịch sử nghiên cứu về phân cụm dữ liệu

Nghiên cứu về phân cụm dữ liệu đã bắt đầu từ những năm 90 của thế kỷ trước. Các nghiên cứu này đã chỉ ra rằng phân cụm dữ liệu có thể giúp phát hiện gian lận tài chính hiệu quả hơn so với các phương pháp truyền thống.

II. Vấn đề và thách thức trong kiểm toán gian lận tài chính

Gian lận tài chính đang trở thành một vấn đề nghiêm trọng trong các tổ chức. Các vụ gian lận lớn đã gây thiệt hại nặng nề cho các nhà đầu tư và thị trường tài chính. Kiểm toán viên phải đối mặt với nhiều thách thức trong việc phát hiện gian lận, bao gồm sự phức tạp của dữ liệu và các kỹ thuật gian lận ngày càng tinh vi.

2.1. Các hình thức gian lận tài chính phổ biến

Gian lận tài chính có thể xảy ra dưới nhiều hình thức khác nhau, bao gồm việc bóp méo báo cáo tài chính, biển thủ tài sản, và tham ô. Mỗi hình thức gian lận đều có những đặc điểm riêng, đòi hỏi kiểm toán viên phải có kiến thức sâu rộng để phát hiện.

2.2. Thách thức trong việc phát hiện gian lận

Một trong những thách thức lớn nhất là sự phức tạp của dữ liệu tài chính. Dữ liệu lớn và đa dạng khiến cho việc phân tích và phát hiện gian lận trở nên khó khăn. Hơn nữa, các thủ thuật gian lận ngày càng tinh vi, đòi hỏi các kỹ thuật phân tích hiện đại.

III. Phương pháp phân cụm dữ liệu trong kiểm toán gian lận

Phương pháp phân cụm dữ liệu như K-means và Hierarchical Clustering đã được áp dụng rộng rãi trong kiểm toán gian lận tài chính. Những phương pháp này giúp phân tích và nhóm các dữ liệu tài chính để phát hiện các mẫu gian lận. Việc áp dụng các phương pháp này không chỉ giúp tiết kiệm thời gian mà còn nâng cao độ chính xác trong việc phát hiện gian lận.

3.1. Phương pháp K means trong phân cụm dữ liệu

K-means là một trong những phương pháp phân cụm phổ biến nhất. Phương pháp này hoạt động bằng cách chia dữ liệu thành K nhóm dựa trên sự tương đồng. Trong kiểm toán gian lận, K-means giúp xác định các nhóm doanh nghiệp có hành vi tài chính tương tự.

3.2. Các công cụ hỗ trợ phân tích dữ liệu

Có nhiều công cụ hỗ trợ phân tích dữ liệu như R, Python và các phần mềm chuyên dụng khác. Những công cụ này giúp kiểm toán viên thực hiện phân tích dữ liệu một cách hiệu quả và chính xác hơn.

IV. Ứng dụng thực tiễn của phân cụm dữ liệu trong kiểm toán

Việc ứng dụng phân cụm dữ liệu trong kiểm toán gian lận tài chính đã mang lại nhiều kết quả tích cực. Nhiều công ty kiểm toán đã áp dụng thành công các kỹ thuật phân cụm để phát hiện gian lận, từ đó nâng cao hiệu quả kiểm toán và bảo vệ quyền lợi của nhà đầu tư.

4.1. Kết quả nghiên cứu từ các công ty kiểm toán

Nhiều nghiên cứu đã chỉ ra rằng việc áp dụng phân cụm dữ liệu giúp phát hiện gian lận hiệu quả hơn. Các công ty kiểm toán lớn như Deloitte và KPMG đã sử dụng các kỹ thuật này để nâng cao chất lượng dịch vụ của mình.

4.2. Các trường hợp thành công trong ứng dụng

Có nhiều trường hợp thành công trong việc phát hiện gian lận nhờ vào phân cụm dữ liệu. Những trường hợp này không chỉ giúp bảo vệ quyền lợi của nhà đầu tư mà còn nâng cao uy tín của các công ty kiểm toán.

V. Kết luận và tương lai của phân cụm dữ liệu trong kiểm toán

Phân cụm dữ liệu sẽ tiếp tục đóng vai trò quan trọng trong việc phát hiện gian lận tài chính trong tương lai. Với sự phát triển của công nghệ và dữ liệu lớn, các kỹ thuật phân tích sẽ ngày càng trở nên tinh vi và hiệu quả hơn. Kiểm toán viên cần cập nhật kiến thức và kỹ năng để áp dụng hiệu quả các phương pháp này.

5.1. Xu hướng phát triển của công nghệ trong kiểm toán

Công nghệ sẽ tiếp tục phát triển và ảnh hưởng đến cách thức kiểm toán. Các công nghệ mới như trí tuệ nhân tạo và học máy sẽ được áp dụng để nâng cao hiệu quả kiểm toán.

5.2. Khuyến nghị cho kiểm toán viên

Kiểm toán viên cần thường xuyên cập nhật kiến thức về các kỹ thuật phân tích dữ liệu mới. Việc tham gia các khóa đào tạo và hội thảo sẽ giúp nâng cao kỹ năng và khả năng phát hiện gian lận.

16/08/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ ứng dụng phân cụm dữ liệu trong việc kiểm toán gian lận trên báo cáo tài chính

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh sự phát triển nhanh chóng của công nghệ thông tin và sự bùng nổ dữ liệu trong các lĩnh vực kinh tế - xã hội, việc khai thác tri thức từ các kho dữ liệu lớn trở thành nhu cầu cấp thiết. Đặc biệt, trong lĩnh vực kế toán và kiểm toán, gian lận trên báo cáo tài chính (BCTC) là vấn đề nổi cộm, gây thiệt hại nghiêm trọng cho nền kinh tế toàn cầu. Theo báo cáo của Hiệp hội các nhà điều tra gian lận Mỹ (ACFE), gian lận trên BCTC chiếm tỷ lệ thấp về số lượng vụ việc nhưng lại gây thiệt hại lớn nhất, vượt xa các loại gian lận khác như biển thủ tài sản hay tham ô. Tại Việt Nam, các vụ gian lận tài chính như tại Công ty Cổ phần Dược Viễn Đông hay Tập đoàn Vinashin đã làm dấy lên sự quan tâm về việc phát hiện và ngăn chặn gian lận trên BCTC.

Mục tiêu nghiên cứu của luận văn là ứng dụng kỹ thuật phân cụm dữ liệu (K-means) trong khai phá dữ liệu nhằm phát hiện gian lận trên BCTC của các doanh nghiệp niêm yết trên sàn giao dịch chứng khoán TP. Hồ Chí Minh (HOSE) và Hà Nội (HASTC) trong giai đoạn 2010-2012. Nghiên cứu nhằm hệ thống hóa cơ sở lý luận về khai phá dữ liệu và gian lận, khảo sát thực trạng gian lận và ứng dụng tỷ suất tài chính trong phát hiện gian lận, đồng thời vận dụng kỹ thuật phân cụm dữ liệu để phân tích các tỷ suất tài chính nhằm phát hiện dấu hiệu gian lận. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc hỗ trợ kiểm toán viên, công ty kiểm toán, nhà đầu tư và các cơ quan quản lý trong việc đánh giá rủi ro gian lận, nâng cao hiệu quả kiểm toán và quản trị doanh nghiệp.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: khai phá dữ liệu (Data Mining) và lý thuyết về gian lận trên báo cáo tài chính.

Khai phá dữ liệu (Data Mining): Là quá trình tự động khai thác các mẫu thông tin tiềm ẩn, có giá trị từ các kho dữ liệu lớn và phức tạp. Trong đó, phân cụm dữ liệu (Clustering) là kỹ thuật học không giám sát nhằm nhóm các đối tượng tương tự vào cùng một cụm sao cho sự tương đồng trong cụm cao nhất và khác biệt giữa các cụm lớn nhất. Thuật toán K-means được sử dụng phổ biến do tính hiệu quả và đơn giản, với các bước chính gồm chọn số cụm k, tính tâm cụm, gán đối tượng vào cụm gần nhất và lặp lại cho đến khi ổn định.
Lý thuyết về gian lận trên BCTC: Gian lận được định nghĩa theo chuẩn mực kiểm toán quốc tế ISA 240 là hành vi cố ý làm sai lệch thông tin tài chính nhằm thu lợi bất chính. Mô hình tam giác gian lận của Cressy gồm ba yếu tố: áp lực, cơ hội và thái độ cá nhân, giải thích nguyên nhân phát sinh gian lận. Mô hình bàn cân gian lận của Albrecht bổ sung yếu tố tính trung thực cá nhân và hoàn cảnh tạo áp lực. Các loại gian lận phổ biến gồm che giấu công nợ, ghi nhận doanh thu không có thật, định giá sai tài sản, ghi nhận sai niên độ và không công bố đầy đủ thông tin.

Các khái niệm chính bao gồm: khai phá dữ liệu, phân cụm dữ liệu, gian lận trên BCTC, tỷ suất tài chính, tam giác gian lận, và chuẩn mực kiểm toán quốc tế.

Phương pháp nghiên cứu

Nguồn dữ liệu: Sử dụng dữ liệu thứ cấp từ báo cáo tài chính của các doanh nghiệp niêm yết trên sàn HOSE và HASTC trong giai đoạn 2010-2012. Các tỷ suất tài chính được tính toán từ các chỉ tiêu trên BCTC làm biến quan sát đầu vào cho phân cụm.
Phương pháp phân tích: Kết hợp nghiên cứu định tính và định lượng. Phân tích định tính dựa trên tổng hợp tài liệu, chuẩn mực kiểm toán, các nghiên cứu trước đây về gian lận và khai phá dữ liệu. Phân tích định lượng sử dụng kiểm định trung bình hai mẫu độc lập (Independent sample t-test) để so sánh các nhóm doanh nghiệp gian lận và không gian lận, sau đó áp dụng thuật toán phân cụm K-means để phân nhóm doanh nghiệp dựa trên các tỷ suất tài chính.
Cỡ mẫu và chọn mẫu: Mẫu nghiên cứu gồm các doanh nghiệp niêm yết trên hai sàn chứng khoán lớn của Việt Nam, với số lượng mẫu khoảng vài trăm doanh nghiệp, được chọn lọc dựa trên tính đầy đủ và hợp lệ của dữ liệu tài chính.
Timeline nghiên cứu: Thu thập và xử lý dữ liệu từ năm 2010 đến 2012, phân tích và đánh giá kết quả trong năm 2013-2014.

Phương pháp phân tích tập trung vào việc phát hiện các nhóm doanh nghiệp có đặc điểm tài chính tương đồng với các doanh nghiệp đã được xác định gian lận, từ đó hỗ trợ phát hiện dấu hiệu gian lận tiềm ẩn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Phân cụm dữ liệu thành hai nhóm chính: Kết quả phân cụm K-means cho thấy mẫu doanh nghiệp được chia thành hai cụm với sự khác biệt rõ rệt về các tỷ suất tài chính. Cụm 1 gồm các doanh nghiệp có tỷ suất đòn bẩy tài chính trung bình cao hơn 35% so với cụm 2, đồng thời tỷ suất sinh lời thấp hơn khoảng 20%.
Tỷ suất đòn bẩy tài chính và khả năng gian lận: Doanh nghiệp trong cụm có tỷ suất đòn bẩy cao có nguy cơ gian lận trên BCTC cao hơn, với tỷ lệ doanh nghiệp gian lận được công bố chính thức chiếm khoảng 40% trong cụm này, so với dưới 10% ở cụm còn lại.
Khả năng sinh lời và tính thanh khoản: Các doanh nghiệp có dấu hiệu gian lận thường có tỷ suất sinh lời bất thường, dao động lớn hơn 25% so với nhóm doanh nghiệp không gian lận. Tỷ suất thanh khoản cũng thấp hơn trung bình 15%, cho thấy khả năng thanh toán ngắn hạn kém.
Kết quả kiểm định ANOVA và t-test: Kiểm định thống kê cho thấy sự khác biệt về các tỷ suất tài chính giữa các cụm là có ý nghĩa thống kê với mức ý nghĩa p < 0.05, khẳng định tính phân biệt của các nhóm doanh nghiệp.

Thảo luận kết quả

Nguyên nhân của sự khác biệt này có thể do các doanh nghiệp có dấu hiệu gian lận thường sử dụng đòn bẩy tài chính cao nhằm tạo áp lực tài chính, từ đó có động cơ thực hiện gian lận để che giấu tình hình tài chính thực tế. Tỷ suất sinh lời và thanh khoản bất thường phản ánh sự không ổn định trong hoạt động kinh doanh, là dấu hiệu cảnh báo gian lận.

So sánh với các nghiên cứu quốc tế, kết quả phù hợp với mô hình tam giác gian lận khi áp lực tài chính và cơ hội gian lận được thể hiện qua các chỉ số tài chính. Kết quả cũng tương đồng với nghiên cứu của Gupta và Gill (2012) khi sử dụng phân cụm dữ liệu để phát hiện doanh nghiệp gian lận dựa trên các tỷ suất tài chính.

Dữ liệu có thể được trình bày qua biểu đồ phân bố tỷ suất đòn bẩy và sinh lời giữa các cụm, bảng so sánh trung bình các chỉ số tài chính và biểu đồ tần suất doanh nghiệp gian lận trong từng cụm để minh họa rõ nét hơn.

Đề xuất và khuyến nghị

Áp dụng kỹ thuật phân cụm dữ liệu trong kiểm toán: Kiểm toán viên và công ty kiểm toán nên tích hợp kỹ thuật phân cụm dữ liệu vào quy trình kiểm toán nhằm phát hiện sớm các doanh nghiệp có dấu hiệu gian lận, nâng cao hiệu quả kiểm toán. Thời gian áp dụng trong vòng 1-2 năm, chủ thể là các công ty kiểm toán và tổ chức đào tạo kiểm toán viên.
Tăng cường đào tạo và nâng cao nhận thức: Ban quản trị doanh nghiệp và các kiểm toán viên cần được đào tạo về khai phá dữ liệu và phân tích tỷ suất tài chính để nhận diện rủi ro gian lận. Nhà trường và hội kiểm toán viên hành nghề nên xây dựng chương trình đào tạo chuyên sâu về kỹ thuật này trong 3 năm tới.
Xây dựng hệ thống cảnh báo sớm: Các doanh nghiệp và cơ quan quản lý nên phát triển hệ thống cảnh báo dựa trên phân tích dữ liệu tài chính nhằm giám sát và phát hiện gian lận kịp thời. Chủ thể thực hiện là các cơ quan quản lý thị trường chứng khoán và các tổ chức kiểm toán độc lập, với lộ trình 2 năm.
Tăng cường quy định và giám sát: Cơ quan quản lý cần hoàn thiện các quy định về trách nhiệm của kiểm toán viên trong việc phát hiện gian lận, đồng thời tăng cường giám sát và xử lý nghiêm các hành vi gian lận trên BCTC. Thời gian thực hiện trong 1-3 năm, chủ thể là Bộ Tài chính và các cơ quan liên quan.

Đối tượng nên tham khảo luận văn

Kiểm toán viên và công ty kiểm toán: Nghiên cứu cung cấp công cụ và phương pháp mới giúp phát hiện gian lận hiệu quả hơn, hỗ trợ trong việc lập kế hoạch và thực hiện kiểm toán.
Ban quản trị doanh nghiệp: Giúp nhận diện các rủi ro tài chính và gian lận nội bộ, từ đó xây dựng hệ thống kiểm soát nội bộ chặt chẽ hơn, bảo vệ lợi ích cổ đông và nhà đầu tư.
Nhà nghiên cứu và sinh viên ngành kế toán, kiểm toán: Cung cấp kiến thức chuyên sâu về ứng dụng kỹ thuật khai phá dữ liệu trong phát hiện gian lận, làm nền tảng cho các nghiên cứu tiếp theo.
Cơ quan quản lý và nhà đầu tư: Hỗ trợ trong việc đánh giá rủi ro tài chính của doanh nghiệp, nâng cao hiệu quả giám sát thị trường và quyết định đầu tư chính xác hơn.

Câu hỏi thường gặp

Phân cụm dữ liệu là gì và tại sao lại được sử dụng trong phát hiện gian lận?
Phân cụm dữ liệu là kỹ thuật nhóm các đối tượng tương tự vào cùng một cụm. Trong phát hiện gian lận, nó giúp phân loại doanh nghiệp dựa trên đặc điểm tài chính, từ đó nhận diện nhóm có dấu hiệu gian lận tiềm ẩn.
Tại sao lại chọn thuật toán K-means cho nghiên cứu này?
K-means đơn giản, hiệu quả và phù hợp với dữ liệu số có kích thước lớn. Thuật toán này giúp phân nhóm doanh nghiệp dựa trên các tỷ suất tài chính một cách nhanh chóng và chính xác.
Các tỷ suất tài chính nào được sử dụng để phát hiện gian lận?
Các tỷ suất chính gồm tỷ suất đòn bẩy tài chính, tỷ suất sinh lời, tỷ suất thanh khoản, cơ cấu tài sản và hệ số khả năng phá sản (Z-score). Chúng phản ánh áp lực tài chính và hiệu quả hoạt động của doanh nghiệp.
Kết quả phân cụm có thể áp dụng thực tế như thế nào?
Kết quả giúp kiểm toán viên tập trung kiểm toán sâu vào các doanh nghiệp thuộc cụm có dấu hiệu gian lận, tiết kiệm thời gian và nguồn lực, đồng thời hỗ trợ nhà đầu tư đánh giá rủi ro.
Nghiên cứu có giới hạn gì và hướng phát triển tiếp theo?
Nghiên cứu giới hạn ở dữ liệu từ 2010-2012 và chỉ áp dụng cho doanh nghiệp niêm yết trên HOSE và HASTC. Hướng phát triển là mở rộng dữ liệu, áp dụng các thuật toán phân cụm khác và kết hợp với kỹ thuật học máy nâng cao.

Kết luận

Luận văn đã hệ thống hóa cơ sở lý luận về khai phá dữ liệu và gian lận trên báo cáo tài chính, đồng thời khảo sát thực trạng gian lận tại Việt Nam và thế giới.
Ứng dụng kỹ thuật phân cụm K-means trên các tỷ suất tài chính giúp phân nhóm doanh nghiệp và phát hiện dấu hiệu gian lận hiệu quả.
Kết quả nghiên cứu phù hợp với các mô hình lý thuyết về gian lận và các nghiên cứu quốc tế, góp phần nâng cao hiệu quả kiểm toán và quản trị rủi ro.
Đề xuất các giải pháp ứng dụng kỹ thuật phân cụm trong kiểm toán, đào tạo, xây dựng hệ thống cảnh báo và hoàn thiện quy định pháp luật.
Hướng nghiên cứu tiếp theo là mở rộng phạm vi dữ liệu, áp dụng các kỹ thuật khai phá dữ liệu tiên tiến hơn và phát triển hệ thống hỗ trợ quyết định tự động.

Luận văn kêu gọi các bên liên quan tích cực áp dụng kết quả nghiên cứu nhằm nâng cao tính minh bạch và trung thực của báo cáo tài chính, góp phần phát triển thị trường tài chính bền vững.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 CƠ SỞ LÝ LUẬN VỀ PHÂN CỤM DỮ LIỆU VÀ GIAN LẬN BÁO CÁO TÀI CHÍNH 1. Khai phá dữ liệu 1. Tổng quan về khai phá dữ liệu 1. Định nghĩa Khoảng hơn một thập kỷ trở lại đây, khoa học công nghệ không ngừng phát triển và lượng thông tin được lưu trữ trên các thiết bị điện tử không ngừng tăng lên.

Sự tích lũy dữ liệu này xảy ra với tốc độ bùng nổ. Một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại “đói tri thức”. Câu hỏi đặt ra là liệu chúng ta có thể khai thác gì từ “núi” dữ liệu ấy không? “Necessity is the mother of invention” (Plato, 348 TCN) – Data mining ra đời như một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Khá nhiều định nghĩa về Data mining và sẽ được đề cập sau, tuy nhiên có thể hiểu rằng Data mining như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty hay tổ chức nào đó.

Khai phá dữ liệu được định nghĩa như quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu. Thuật ngữ “data mining” chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một lượng lớn dữ liệu thô. “Data mining” được ví dụ như việc “đãi cát tìm vàng” trong một tập hợp lớn các dữ liệu cho trước. Hiện nay có nhiều thuật ngữ được sử dụng tương tự với “data mining” như “knowledge mining” (khai phá tri thức), “knowledge extraction” (chắt lọc tri thức), “data/pattern analysis” (phân tích dữ liệu/mẫu), “data dredging” (nạo vét dữ liệu)…(Han và Kamber, 2006) [11].

Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tìm ẩn trong tập dữ liệu đó. Khai phá dữ liệu là một bước trong 7 bước của quá trình khai phá dữ liệu (Knowledge Discovery in Database - KDD) và KDD bao gồm 7 quá trình khác nhau theo thứ tự như sau: TIEU LUAN MOI download : skknchat@gmail.1: Quy trình khai phá dữ liệu từ kho dữ liệu (Nguồn: Han and Kamber, 2006 [11]. Data mining: Concepts and Techniques) 1. Làm sạch dữ liệu (data cleaning): loại bỏ nhiễu và các dữ liệu không cần thiết; 2.

Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouse) sau khi đã làm sạch và tiền xử lý (data preprocessing); 3. Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu lớn ban đầu theo những tiêu chí nhất định; 4. Biến đổi dữ liệu (data transformation): là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau; 5. Khai phá dữ liệu (data mining): là bước áp dụng các kỹ thuật phân tích nhằm khai phá dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu.

Đây được xem là bước quan trọng và tốn thời gian nhất của toàn quá trình KDD; 6. Đánh giá mẫu (pattern evaluation): quá trình đánh giá các kết quả tìm được qua các thước đo nào đó; 7. Biểu diễn tri thức (knowledge presentation): quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người sử dụng. TIEU LUAN MOI download : skknchat@gmail.

Các kỹ thuật tiếp cận trong khai phá dữ liệu Nếu đứng trên quan điểm của học máy (Machine learning) thì các kỹ thuật trong Data mining bao gồm: Học có giám sát (Supervised learning): Là quá trình gán nhãn lớp cho các phần tử trong cơ sở dữ liệu dựa trên một tập các ví dụ huấn luyện và các thông tin về nhãn lớp đã biết. Học không có giám sát (Unsupervised learning): Là quá trình phân chia một tập dữ liệu thành các lớp hay là cụm dữ liệu tương tự nhau mà chưa biết trước các thông tin về lớp hay tập các ví dụ huấn luyện. Học nửa giám sát (Semi – Supervised learning): Là quá trình phân chia một tập dữ liệu thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và một số các thông tin về một số nhãn lớp đã biết trước. Nếu căn cứ vào lớp các bài toán cần giải quyết thì Data mining bao gồm các kỹ thuật sau: Phân lớp và dự đoán (Classification & Prediction) Là việc xếp các đối tượng vào một trong các lớp đã biết trước.

Phân lớp là lĩnh vực rất quan trọng trong khai phá dữ liệu, phân lớp còn được gọi là học có giám sát, hướng tiếp cận này thường được sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Phân tích luật kết hợp (Association rule) Luật kết hợp là luật biểu diễn tri thức ở dạng tương đối đơn giản. Mục tiêu của phương pháp này là phát hiện và đưa ra các mối quan hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu. Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh vực khác nhau như kinh doanh, y học, tài chính, thị trường chứng khoán, phân tích quyết định, phân tích thị trường, v. Tuy luật kết hợp là một dạng luật khá đơn giản nhưng lại mang rất nhiều ý nghĩa.

Thông tin mà dạng luật này đem lại rất có lợi trong các hệ hỗ trợ ra quyết định. Tìm kiếm được những luật kết hợp đặc trưng và mang nhiều thông tin từ cơ sở dữ liệu tác nghiệp là một trong những hướng tiếp cận chính trong lĩnh vực khai phá dữ liệu. Khai thác mẫu tuần tự (sequential/temporal patterns) Tương tự như khai thác luật kết hợp nhưng có thêm tính thứ tự và tính thời gian. TIEU LUAN MOI download : skknchat@gmail.com 9 Một luật mô tả mẫu tuần tự có dạng tiêu biểu X  Y phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện kế tiếp biến cố Y.

Hướng tiếp cận này có tính dự báo cao. Phân nhóm – đoạn (Clustering/Segmentation) Mục tiêu chính của việc phân nhóm dữ liệu là nhóm các đối tượng tương tự nhau trong tập dữ liệu vào các nhóm sao cho mức độ tương tự giữa các đối tượng trong cùng một nhóm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các nhóm khác nhau là nhỏ nhất. Các nhóm có thể tách nhau hoặc phân cấp gối lên nhau và số lượng các nhóm là chưa biết trước. Một đối tượng có thể vừa thuộc nhóm này, nhưng cũng có thể vừa thuộc nhóm khác.

Không giống như phân lớp dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu. Vì thế có thể xem phân nhóm dữ liệu là một cách học bằng quan sát (learning by observation), trong khi phân lớp dữ liệu là học bằng ví dụ (learning by example). Phân nhóm còn được gọi là học không có giám sát (unsupervised learning). Phân nhóm dữ liệu được sử dụng nhiều trong các ứng dụng về phân đoạn thị trường, phân đoạn khách hàng, nhận dạng mẫu, phân loại trang web, v.

Ngoài ra phân nhóm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác. Ứng dụng của khai phá dữ liệu Tại Việt Nam, khai phá dữ liệu là hướng tiếp cận khá mới. Tuy nhiên đây là lĩnh vực thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu trên thế giới và nó đã phát triển nhờ vào những ứng dụng của nó như: o Phân tích dữ liệu và ra quyết định (data analysis & decision support); o Điều trị y học (medical treatment); o Tin – sinh (bio-informations); o Tài chính và thị trường chứng khoán (finance & stock market); o Bảo hiểm (insurance); o Nhận dạng (pattern recognition); o Marketing: xác định nhóm khách hàng (khách hàng tiềm năng, khách hàng giá trị, phân loại và dự đoán hành vi khách hàng, v.v) sử dụng sản phẩm hay dịch vụ của công ty để công ty có chiến lược kinh doanh hiệu quả hơn. TIEU LUAN MOI download : skknchat@gmail.com 10 Như vậy, khai phá dữ liệu đã được ứng dụng trong nhiều lĩnh vực kinh tế, xã hội, y học, khoa học, v.

Tuy nhiên, ứng dụng những kỹ thuật này trong lĩnh vực kiểm toán BCTC còn rất hạn chế. Khai phá dữ liệu có thể giúp khám phá kiến thức tiềm ẩn, mối quan hệ không ngờ của các dữ liệu trong khối dữ liệu khổng lồ. Với chức năng này kỹ thuật khai phá dữ liệu được ứng dụng để kiểm toán gian lận và nhầm lẫn trên BCTC. Để thực hiện chức năng này kỹ thuật khai phá dữ liệu mô tả được sử dụng.

Kỹ thuật này dễ dàng ứng dụng trên khối dữ liệu chưa được biết trước. Kỹ thuật khai phá dữ liệu mô tả bao gồm luật liên kết, phân tích cụm và kỹ thuật phát hiện bất thường. Trong phạm vi luận văn, tác giả đi sâu phân tích kỹ thuật phân cụm dữ liệu. Phân cụm dữ liệu 1.

Định nghĩa Phân cụm dữ liệu là tên của nhóm kỹ thuật đa biến có mục tiêu chính là phân loại các đơn vị dựa vào một số các đặc tính của chúng. Các kỹ thuật này nhận diện và phân loại các đối tượng hay các biến sao cho các đối tượng trong cùng một cụm tương tự nhau xét theo các đặc tính được chọn để nghiên cứu. Nội bộ trong các cụm sẽ đồng nhất cao trong khi giữa các cụm có sự khác biệt lớn. Các cụm được gom có chất lượng cao khi chúng tương tự cao trong lớp (intra-class) và tương tự thấp giữa các lớp (inter-class).

Điều đó có nghĩa là các đối tượng trong cùng một nhóm có sự giống nhau hoặc gần giống nhau càng nhiều thì chất lượng gom cụm sẽ càng cao.2: Mô phỏng sự phân cụm dữ liệu (Nguồn: Tác giả tổng hợp và mô phỏng) 1. Yêu cầu của phân cụm dữ liệu Việc thiết kế và sắp xếp các cụm cần thỏa mãn các yêu cầu sau đây: TIEU LUAN MOI download : skknchat@gmail.com 11  Yêu cầu về tính sẵn sàng cao (Availability): các tài nguyên mạng phải luôn sẵn sàng trong khả năng cao nhất để cung cấp và phục vụ cho người dùng cuối cùng và giảm thiểu sự ngưng hoạt động hệ thống ngoài ý muốn;  Yêu cầu về độ tin cậy cao (Realiability): độ tin cậy của cụm được hiểu là khả năng giảm thiểu tần số xảy ra sự cố và nâng cao khả năng chịu đựng sai sót của hệ thống;  Yêu cầu về khả năng mở rộng được (Scalability): hệ thống phải có khả năng dễ dàng cho việc nâng cấp, mở rộng tương lai.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Ứng dụng công nghệ trong kiểm toán

phát hiện gian lận báo cáo tài chính

khai phá và phân tích dữ liệu tài chính