Tổng quan nghiên cứu

Trong bối cảnh nền kinh tế Việt Nam ngày càng hội nhập sâu rộng với thế giới, đặc biệt sau khi gia nhập Tổ chức Thương mại Thế giới (WTO) vào năm 2006, các doanh nghiệp trong nước phải đối mặt với sự cạnh tranh ngày càng khốc liệt. Theo báo cáo của ngành, việc phân tích dữ liệu để đưa ra các quyết định kinh doanh chính xác và kịp thời trở thành yếu tố sống còn giúp doanh nghiệp nâng cao năng lực cạnh tranh. Hệ thống phần mềm hoạch định nguồn lực doanh nghiệp (ERP) hiện lưu trữ một lượng dữ liệu khổng lồ từ các hoạt động sản xuất kinh doanh, vượt quá khả năng xử lý thủ công của con người. Do đó, việc ứng dụng các thuật toán khai phá dữ liệu, đặc biệt là các thuật toán gom cụm mờ, nhằm phân tích và khai thác tri thức từ cơ sở dữ liệu ERP là rất cần thiết.

Mục tiêu chính của nghiên cứu là cải tiến các thuật toán gom cụm mờ, xây dựng ứng dụng khai phá dữ liệu trên cơ sở dữ liệu ERP của doanh nghiệp dược phẩm, từ đó hỗ trợ doanh nghiệp trong việc phân tích khách hàng và đưa ra các chính sách phù hợp. Nghiên cứu tập trung vào dữ liệu thực tế của Công ty Cổ phần Dược phẩm 3/2 (FT-Pharma) trong khoảng thời gian nhiều tháng, với các chỉ tiêu cải tiến thuật toán như hỗ trợ chọn số cụm phù hợp, phân tích dữ liệu đa dạng và đề xuất các hằng số chuẩn cho việc điều chỉnh số cụm.

Ý nghĩa của đề tài không chỉ nằm ở việc nâng cao hiệu quả phân tích dữ liệu trong doanh nghiệp dược phẩm mà còn góp phần thúc đẩy ứng dụng công nghệ thông tin trong quản trị doanh nghiệp tại Việt Nam, giúp doanh nghiệp có cơ sở khoa học để ra quyết định kinh doanh chính xác, từ đó tăng cường sức cạnh tranh trên thị trường trong nước và quốc tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình gom cụm dữ liệu, đặc biệt tập trung vào thuật toán gom cụm mờ Fuzzy C-Means (FCM) và các cải tiến của nó. Gom cụm mờ cho phép mỗi đối tượng dữ liệu thuộc về nhiều cụm với mức độ thuộc về (membership) trong khoảng [0,1], giúp mô hình hóa các dữ liệu có tính chất không rõ ràng hoặc chồng chéo.

Hai thuật toán cải tiến chính được nghiên cứu là FCM+ và FCM++, trong đó FCM+ sử dụng hệ số khuyến nghị điều chỉnh số cụm dựa trên tất cả các phần tử trong cụm, còn FCM++ tập trung vào các phần tử cực biên của cụm để điều chỉnh số cụm phù hợp hơn. Các thuật toán này được phát triển dựa trên hàm mục tiêu mở rộng, bao gồm ma trận phân bố bên trong cụm và ma trận phân bố giữa các cụm, nhằm tăng cường độ chặt và sự phân tách giữa các cụm.

Ngoài ra, nghiên cứu cũng tham khảo các phương pháp gom cụm khác như gom cụm gia tăng K-Means mờ dựa trên K-Center và vector lượng tử, giúp giảm độ phức tạp tính toán và tăng hiệu quả xử lý dữ liệu lớn.

Các khái niệm chính bao gồm:

  • Độ đo khoảng cách (Euclidean, Minkowski, Manhattan) phù hợp với các kiểu dữ liệu hỗn hợp trong ERP.
  • Các kiểu dữ liệu cơ sở: biến trị khoảng, nhị phân đối xứng và bất đối xứng, định danh, thứ tự.
  • Các yêu cầu của thuật toán gom cụm: khả năng xử lý dữ liệu lớn, thích nghi với nhiều loại dữ liệu, khám phá cụm có hình dạng bất kỳ, xử lý dữ liệu nhiễu, ít phụ thuộc tham số đầu vào.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là cơ sở dữ liệu ERP của Công ty Cổ phần Dược phẩm 3/2 (FT-Pharma), được xây dựng trên MS SQL Server với tổng cộng 293 bảng dữ liệu. Dữ liệu được thu thập trong khoảng thời gian tám tháng, bao gồm các bảng liên quan đến hóa đơn bán hàng, phiếu thu tiền mặt, báo có ngân hàng, phản ánh các thuộc tính doanh số, lợi nhuận và thanh toán của khách hàng.

Phương pháp nghiên cứu gồm các bước:

  1. Tổng hợp và làm sạch dữ liệu: Dữ liệu rải rác trong nhiều bảng được tổng hợp thành bảng dữ liệu khách hàng với các thuộc tính chính phục vụ gom cụm. Quá trình làm sạch dữ liệu nhằm loại bỏ dữ liệu nhiễu và sai lệch.
  2. Chọn mẫu và phân tích: Cỡ mẫu khoảng vài nghìn khách hàng được chọn lọc từ dữ liệu thực tế. Phương pháp chọn mẫu ngẫu nhiên có kiểm soát nhằm đảm bảo tính đại diện.
  3. Phân tích gom cụm: Áp dụng thuật toán FCM và các phiên bản cải tiến FCM+, FCM++ để gom cụm khách hàng dựa trên các thuộc tính đã chọn.
  4. Đánh giá và điều chỉnh: Sử dụng các hệ số khuyến nghị điều chỉnh số cụm dựa trên phân tích các phần tử cực biên và toàn bộ phần tử trong cụm.
  5. Timeline nghiên cứu: Quá trình nghiên cứu kéo dài trong khoảng 12 tháng, bao gồm 4 giai đoạn chính từ nghiên cứu lý thuyết, thu thập dữ liệu, phát triển thuật toán và xây dựng ứng dụng, đến tổng kết và đề xuất.

Phương pháp phân tích sử dụng các chỉ số đánh giá chất lượng gom cụm như độ chặt cụm, sự phân tách giữa các cụm, và các chỉ số thống kê hỗ trợ việc lựa chọn số cụm tối ưu.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Hiệu quả cải tiến thuật toán FCM+ và FCM++:
    Kết quả phân tích trên dữ liệu thực tế cho thấy thuật toán FCM++ cải thiện độ chính xác gom cụm lên khoảng 15% so với thuật toán FCM truyền thống, đặc biệt trong việc xác định số cụm phù hợp dựa trên các phần tử cực biên. Thuật toán FCM+ cũng cho kết quả tốt hơn FCM cơ bản, với mức cải thiện khoảng 10%.

  2. Khuyến nghị số cụm phù hợp:
    Qua phân tích dữ liệu tám tháng, hệ số Bmax và θmax biến thiên theo số cụm cho thấy số cụm tối ưu nằm trong khoảng 4 đến 6 cụm, phù hợp với phân loại khách hàng thành nhóm khách hàng thanh toán tốt, khách hàng nợ xấu, khách hàng có doanh số cao và nhóm khách hàng tiềm năng.

  3. Phân tích đặc trưng các cụm khách hàng:
    Mỗi cụm khách hàng có đặc điểm riêng biệt về doanh số và thanh toán. Ví dụ, cụm khách hàng thanh toán tốt chiếm khoảng 40% tổng số khách hàng, đóng góp hơn 60% doanh số; trong khi cụm khách hàng nợ xấu chiếm khoảng 15%, ảnh hưởng tiêu cực đến dòng tiền của doanh nghiệp.

  4. Ứng dụng thực tiễn:
    Việc phân nhóm khách hàng giúp doanh nghiệp xây dựng chính sách chăm sóc khách hàng hiệu quả hơn, như áp dụng chiết khấu cho nhóm khách hàng thanh toán tốt, hoặc có biện pháp thu hồi công nợ với nhóm khách hàng nợ xấu.

Thảo luận kết quả

Nguyên nhân cải tiến hiệu quả của thuật toán FCM++ là do việc tập trung vào các phần tử cực biên giúp xác định rõ ràng ranh giới giữa các cụm, giảm thiểu sự chồng chéo và nhầm lẫn trong phân loại. So với các nghiên cứu trước đây chỉ áp dụng thuật toán FCM trên dữ liệu mẫu, nghiên cứu này sử dụng dữ liệu thực tế từ ERP doanh nghiệp dược phẩm, tăng tính ứng dụng và độ tin cậy của kết quả.

Kết quả cũng phù hợp với các nghiên cứu quốc tế về ứng dụng gom cụm mờ trong phân tích khách hàng, đồng thời bổ sung thêm các hằng số chuẩn hỗ trợ việc điều chỉnh số cụm, giúp giảm thiểu sự phụ thuộc vào tham số đầu vào – một hạn chế thường gặp của các thuật toán gom cụm.

Dữ liệu có thể được trình bày qua các biểu đồ biến thiên hệ số Bmax, θmax theo số cụm, bảng phân bố khách hàng theo từng cụm và biểu đồ tròn thể hiện tỷ lệ doanh số đóng góp của từng cụm, giúp trực quan hóa kết quả và hỗ trợ việc ra quyết định.

Đề xuất và khuyến nghị

  1. Triển khai ứng dụng thuật toán FCM++ trong hệ thống ERP:
    Đề nghị doanh nghiệp tích hợp thuật toán FCM++ vào phần mềm ERP để tự động phân nhóm khách hàng theo thời gian thực, giúp cập nhật chính sách chăm sóc và quản lý công nợ kịp thời. Thời gian thực hiện dự kiến trong 6 tháng, do phòng công nghệ thông tin chủ trì.

  2. Xây dựng hệ thống cảnh báo khách hàng nợ xấu:
    Dựa trên kết quả gom cụm, thiết lập hệ thống cảnh báo tự động cho nhóm khách hàng có độ thuộc về cụm nợ xấu cao, giúp phòng kế toán và kinh doanh có biện pháp xử lý sớm. Mục tiêu giảm tỷ lệ nợ quá hạn xuống dưới 5% trong vòng 12 tháng.

  3. Đào tạo nhân viên sử dụng công cụ phân tích dữ liệu:
    Tổ chức các khóa đào tạo cho nhân viên phòng kinh doanh và kế toán về cách sử dụng kết quả phân tích gom cụm để xây dựng chính sách khách hàng phù hợp, nâng cao hiệu quả quản lý. Thời gian đào tạo trong 3 tháng, do phòng nhân sự phối hợp với phòng CNTT thực hiện.

  4. Mở rộng nghiên cứu áp dụng cho các đối tượng khác:
    Khuyến nghị nghiên cứu tiếp tục áp dụng thuật toán cải tiến cho các đối tượng khác trong ERP như sản phẩm, nhà cung cấp để tối ưu hóa chuỗi cung ứng và quản lý tồn kho. Dự kiến triển khai trong 12-18 tháng tiếp theo.

Đối tượng nên tham khảo luận văn

  1. Các nhà quản lý doanh nghiệp dược phẩm:
    Giúp hiểu rõ cách ứng dụng công nghệ khai phá dữ liệu để phân tích khách hàng, từ đó xây dựng chính sách kinh doanh hiệu quả, nâng cao năng lực cạnh tranh.

  2. Chuyên gia công nghệ thông tin và phát triển phần mềm ERP:
    Cung cấp kiến thức về thuật toán gom cụm mờ cải tiến, hỗ trợ phát triển các module phân tích dữ liệu tích hợp trong hệ thống ERP.

  3. Nhà nghiên cứu và sinh viên ngành khoa học máy tính, công nghệ thông tin:
    Là tài liệu tham khảo quý giá về lý thuyết gom cụm mờ, các thuật toán cải tiến và ứng dụng thực tế trong doanh nghiệp, giúp phát triển các nghiên cứu tiếp theo.

  4. Phòng kinh doanh và kế toán doanh nghiệp:
    Hỗ trợ hiểu và sử dụng kết quả phân tích khách hàng để quản lý công nợ, chăm sóc khách hàng và tối ưu hóa doanh thu.

Câu hỏi thường gặp

  1. Thuật toán gom cụm mờ khác gì so với gom cụm rõ?
    Gom cụm mờ cho phép một đối tượng dữ liệu thuộc về nhiều cụm với mức độ khác nhau (membership trong [0,1]), trong khi gom cụm rõ chỉ cho phép đối tượng thuộc về duy nhất một cụm. Điều này giúp gom cụm mờ xử lý tốt các dữ liệu có tính chồng chéo hoặc không rõ ràng.

  2. Tại sao cần cải tiến thuật toán FCM?
    Thuật toán FCM truyền thống có hạn chế trong việc chọn số cụm phù hợp và xử lý các phần tử cực biên. Các cải tiến như FCM+ và FCM++ giúp tăng độ chính xác, hỗ trợ chọn số cụm tối ưu và cải thiện khả năng phân tách cụm.

  3. Dữ liệu ERP có đặc điểm gì khiến việc gom cụm khó khăn?
    Dữ liệu ERP thường đa dạng về kiểu dữ liệu (số, nhị phân, định danh), có kích thước lớn và chứa nhiều dữ liệu nhiễu, đòi hỏi thuật toán gom cụm phải thích nghi tốt với các đặc điểm này và xử lý hiệu quả.

  4. Làm thế nào để chọn số cụm phù hợp trong gom cụm mờ?
    Nghiên cứu sử dụng các hệ số khuyến nghị dựa trên phân tích phần tử cực biên và toàn bộ phần tử trong cụm, kết hợp với các chỉ số đánh giá chất lượng gom cụm để đề xuất số cụm tối ưu, giúp giảm thiểu sự phụ thuộc vào tham số đầu vào.

  5. Ứng dụng của kết quả gom cụm trong doanh nghiệp dược phẩm là gì?
    Kết quả giúp phân nhóm khách hàng theo đặc điểm thanh toán và doanh số, từ đó xây dựng chính sách chăm sóc, quản lý công nợ hiệu quả, tối ưu hóa doanh thu và giảm thiểu rủi ro tài chính.

Kết luận

  • Đã nghiên cứu và cải tiến thành công các thuật toán gom cụm mờ FCM+ và FCM++ nhằm nâng cao hiệu quả phân tích dữ liệu trong cơ sở dữ liệu ERP doanh nghiệp dược phẩm.
  • Thuật toán FCM++ cho kết quả gom cụm chính xác hơn, đặc biệt trong việc xác định số cụm phù hợp dựa trên phần tử cực biên.
  • Ứng dụng thuật toán trên dữ liệu thực tế của Công ty Cổ phần Dược phẩm 3/2 cho thấy khả năng phân nhóm khách hàng hiệu quả, hỗ trợ xây dựng chính sách kinh doanh phù hợp.
  • Đề xuất triển khai tích hợp thuật toán vào hệ thống ERP, xây dựng hệ thống cảnh báo công nợ và đào tạo nhân viên sử dụng công cụ phân tích dữ liệu.
  • Hướng phát triển tiếp theo là mở rộng ứng dụng thuật toán cho các đối tượng khác trong ERP và nâng cao khả năng xử lý dữ liệu lớn, đa dạng.

Mời các nhà quản lý doanh nghiệp, chuyên gia CNTT và nhà nghiên cứu quan tâm áp dụng và phát triển các giải pháp khai phá dữ liệu dựa trên các thuật toán gom cụm mờ cải tiến để nâng cao hiệu quả quản trị và cạnh tranh trong môi trường kinh doanh hiện đại.