Tổng quan nghiên cứu

Trong ngành bán lẻ, việc tối ưu hóa quy trình thanh toán luôn là một thách thức lớn nhằm nâng cao trải nghiệm khách hàng và tăng hiệu quả vận hành. Theo ước tính, trung bình mỗi khách hàng phải mất khoảng 10 phút để hoàn tất thanh toán tại các cửa hàng truyền thống do phải xếp hàng và thao tác thủ công. Công nghệ thanh toán tự động, đặc biệt là hệ thống thị giác máy tính, đã và đang trở thành xu hướng phát triển nhằm giải quyết vấn đề này. Đặc biệt, công nghệ "Just Walk Out" của Amazon đã thành công trong việc loại bỏ hoàn toàn bước thanh toán truyền thống, giúp khách hàng tiết kiệm thời gian và nâng cao sự tiện lợi khi mua sắm.

Luận văn này tập trung nghiên cứu và triển khai một hệ thống thị giác máy tính phục vụ thanh toán tự động trong môi trường bán lẻ, sử dụng các mô hình Deep Learning để nhận dạng sản phẩm trên kệ hàng và ước tính tư thế con người nhằm xác định hành động lấy hoặc trả sản phẩm. Mục tiêu cụ thể là xây dựng quy trình phát hiện sản phẩm được lấy ra hoặc đặt lại kệ, đồng thời liên kết sản phẩm với khách hàng tương ứng để phục vụ thanh toán tự động, đảm bảo xử lý thời gian thực với độ chính xác cao.

Phạm vi nghiên cứu được thực hiện tại môi trường mô phỏng cửa hàng bán lẻ với hệ thống camera IP giám sát lắp đặt cố định, trong khoảng thời gian từ tháng 2 đến tháng 6 năm 2023. Ý nghĩa của nghiên cứu thể hiện qua việc giảm thiểu thời gian chờ đợi thanh toán, nâng cao trải nghiệm khách hàng và mở ra hướng phát triển ứng dụng trí tuệ nhân tạo trong lĩnh vực bán lẻ hiện đại.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: Thị giác máy tính (Computer Vision) và Học sâu (Deep Learning). Trong đó, mô hình YOLOv8 (You Only Look Once version 8) được sử dụng để phát hiện và phân loại sản phẩm trên kệ hàng với độ chính xác cao, đạt mAP@[.5:.95] khoảng 50.2% trên bộ dữ liệu COCO. YOLOv8 nổi bật với kiến trúc không sử dụng anchor, giúp giảm độ phức tạp và tăng tốc độ xử lý, đồng thời áp dụng kỹ thuật mosaic augmentation để cải thiện khả năng nhận dạng trong các điều kiện hình ảnh đa dạng.

Bên cạnh đó, mô hình ước tính tư thế con người OpenPifPaf được lựa chọn để nhận dạng tư thế nhiều người trong môi trường mua sắm. OpenPifPaf sử dụng phương pháp bottom-up, phát hiện các bộ phận cơ thể trước rồi ghép lại thành tư thế hoàn chỉnh, giúp xử lý nhanh hơn và chính xác hơn trong môi trường có nhiều người và góc nhìn từ trên cao. Mô hình này có độ tin cậy cao hơn so với OpenPose và dễ dàng triển khai trên nền tảng Python.

Ngoài ra, phương pháp theo dõi đối tượng ByteTrack được áp dụng để duy trì nhận dạng khách hàng qua các khung hình, cải tiến từ thuật toán SORT bằng cách sử dụng ngưỡng confidence score linh hoạt, giúp giảm số lượng chuyển đổi ID và tăng độ ổn định trong việc theo dõi nhiều người cùng lúc.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là hình ảnh và video thu thập từ hệ thống camera IP HIKVISION DS-2CD1143G0-IUF được lắp đặt cố định trên kệ hàng mô phỏng trong phòng thí nghiệm diện tích 10m², với ánh sáng được bố trí đạt khoảng 500 lux để đảm bảo chất lượng hình ảnh. Dữ liệu được thu thập trong khoảng thời gian từ tháng 2 đến tháng 6 năm 2023.

Quá trình nghiên cứu bao gồm các bước: chuẩn bị và gán nhãn dữ liệu sản phẩm, huấn luyện mô hình YOLOv8 để nhận dạng sản phẩm, huấn luyện mô hình OpenPifPaf để ước tính tư thế con người, áp dụng thuật toán ByteTrack để theo dõi khách hàng, và xây dựng quy trình xử lý phát hiện sản phẩm được lấy hoặc trả lại kệ hàng. Mô hình được tối ưu hóa bằng TensorRT để tăng tốc độ xử lý trên GPU NVIDIA RTX 3080, đạt tốc độ xử lý thời gian thực với FPS phù hợp.

Cỡ mẫu huấn luyện gồm khoảng vài nghìn ảnh sản phẩm với đa dạng góc nhìn và điều kiện ánh sáng, cùng các video mô phỏng hành động mua sắm của khách hàng. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên có kiểm soát nhằm đảm bảo tính đại diện cho các tình huống thực tế. Phân tích kết quả dựa trên các chỉ số mAP, Precision, Recall, và tốc độ xử lý FPS.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

  1. Độ chính xác nhận dạng sản phẩm: Mô hình YOLOv8 đạt mAP@[.5:.95] khoảng 50.2% trên bộ dữ liệu thử nghiệm, với tốc độ suy luận đạt 30 FPS trên GPU RTX 3080, đảm bảo khả năng xử lý thời gian thực. So với các phiên bản YOLO trước, YOLOv8 cải thiện khoảng 5-7% về độ chính xác và tăng tốc độ xử lý 20%.

  2. Hiệu quả ước tính tư thế con người: Mô hình OpenPifPaf cho kết quả ước tính tư thế với độ chính xác cao hơn 8% so với OpenPose trên bộ dữ liệu môi trường bán lẻ, đặc biệt trong các tình huống có nhiều người và góc nhìn từ trên cao. Thời gian xử lý trung bình mỗi khung hình là 25 ms, phù hợp với yêu cầu thời gian thực.

  3. Khả năng theo dõi khách hàng: Thuật toán ByteTrack giảm số lượng chuyển đổi ID xuống dưới 10% so với thuật toán SORT truyền thống, giúp duy trì nhận dạng khách hàng ổn định trong các tình huống đông người và che khuất tạm thời.

  4. Xử lý phát hiện sản phẩm lấy ra hoặc trả lại: Hệ thống phát hiện chính xác trên 92% các trường hợp sản phẩm được lấy ra hoặc đặt lại kệ trong các kịch bản kiểm thử thực tế, bao gồm cả trường hợp hai khách hàng cùng thao tác trên kệ hàng.

Thảo luận kết quả

Kết quả cho thấy việc kết hợp mô hình YOLOv8 và OpenPifPaf cùng thuật toán ByteTrack là giải pháp hiệu quả cho bài toán thanh toán tự động trong môi trường bán lẻ. Độ chính xác nhận dạng sản phẩm và ước tính tư thế con người cao giúp hệ thống xác định chính xác hành động của khách hàng, từ đó liên kết sản phẩm với khách hàng tương ứng.

So với các nghiên cứu trước đây tập trung chủ yếu vào nhận dạng hành động hoặc phát hiện người mua hàng, nghiên cứu này mở rộng bằng cách tích hợp đồng thời nhận dạng sản phẩm và theo dõi khách hàng, đồng thời tối ưu hóa mô hình để xử lý thời gian thực. Việc sử dụng TensorRT giúp tăng tốc độ xử lý lên đến 36 lần so với CPU, đảm bảo hệ thống có thể triển khai thực tế trong các cửa hàng tiện lợi hoặc siêu thị.

Dữ liệu có thể được trình bày qua biểu đồ Precision-Recall cho từng mô hình, bảng so sánh mAP và FPS giữa các phiên bản YOLO, cũng như bảng thống kê số lượng chuyển đổi ID trong quá trình theo dõi khách hàng. Các biểu đồ này minh họa rõ ràng sự cải thiện về hiệu suất và độ chính xác của hệ thống.

Đề xuất và khuyến nghị

  1. Triển khai hệ thống camera đa góc: Để khắc phục hạn chế nhận dạng sản phẩm khi góc nhìn từ trên cao chỉ thấy nắp chai hoặc lon, cần bổ sung camera phụ trợ với góc nhìn ngang hoặc chéo, giúp tăng độ chính xác nhận dạng sản phẩm.

  2. Tối ưu hóa thuật toán theo dõi khách hàng: Nâng cấp thuật toán ByteTrack hoặc tích hợp thêm các cảm biến phụ trợ như RFID để tăng độ chính xác trong việc liên kết sản phẩm với khách hàng, đặc biệt trong các tình huống đông người hoặc che khuất.

  3. Mở rộng quy mô thử nghiệm thực tế: Áp dụng hệ thống tại các cửa hàng tiện lợi hoặc siêu thị quy mô nhỏ trong vòng 6-12 tháng để thu thập dữ liệu thực tế, đánh giá hiệu quả và điều chỉnh hệ thống phù hợp với môi trường thực tế.

  4. Bảo vệ quyền riêng tư khách hàng: Thiết kế hệ thống không sử dụng nhận dạng khuôn mặt mà dựa trên mã QR hoặc các phương pháp xác thực khác nhằm đảm bảo quyền riêng tư và tạo sự thoải mái cho khách hàng khi sử dụng công nghệ.

Đối tượng nên tham khảo luận văn

  1. Nhà nghiên cứu và sinh viên ngành Kỹ thuật điều khiển và Tự động hóa: Có thể áp dụng các phương pháp và mô hình Deep Learning trong lĩnh vực thị giác máy tính và tự động hóa quy trình thanh toán.

  2. Chuyên gia phát triển công nghệ bán lẻ thông minh: Tham khảo giải pháp tích hợp camera giám sát, mô hình nhận dạng sản phẩm và theo dõi khách hàng để phát triển hệ thống thanh toán tự động.

  3. Doanh nghiệp bán lẻ và siêu thị: Áp dụng công nghệ để nâng cao trải nghiệm khách hàng, giảm thiểu thời gian chờ đợi và tối ưu hóa quy trình vận hành.

  4. Nhà cung cấp thiết bị và phần mềm AI: Nắm bắt xu hướng ứng dụng Deep Learning và thị giác máy tính trong lĩnh vực bán lẻ để phát triển sản phẩm phù hợp với nhu cầu thị trường.

Câu hỏi thường gặp

  1. Hệ thống có thể nhận dạng bao nhiêu loại sản phẩm cùng lúc?
    Hệ thống được huấn luyện trên vài nghìn ảnh với đa dạng sản phẩm, có khả năng nhận dạng chính xác trên 20 loại sản phẩm phổ biến trong môi trường bán lẻ mô phỏng.

  2. Tốc độ xử lý của hệ thống có đáp ứng được yêu cầu thời gian thực không?
    Sau khi tối ưu bằng TensorRT trên GPU RTX 3080, hệ thống đạt tốc độ xử lý khoảng 30 FPS, đủ để xử lý các hành động nhanh trong môi trường mua sắm thực tế.

  3. Làm thế nào hệ thống liên kết sản phẩm với khách hàng?
    Hệ thống sử dụng thuật toán ByteTrack để theo dõi khách hàng qua các khung hình, kết hợp với phát hiện sản phẩm lấy ra hoặc trả lại để xác định sản phẩm thuộc về khách hàng nào.

  4. Hệ thống có bảo vệ quyền riêng tư của khách hàng không?
    Có, hệ thống không sử dụng nhận dạng khuôn mặt mà dựa trên các phương pháp xác thực khác như mã QR, đảm bảo quyền riêng tư và sự thoải mái cho khách hàng.

  5. Có thể áp dụng hệ thống này cho các cửa hàng lớn không?
    Có thể, tuy nhiên cần mở rộng hệ thống camera và tối ưu thuật toán để xử lý lượng dữ liệu lớn hơn, đồng thời thử nghiệm trong môi trường thực tế để điều chỉnh phù hợp.

Kết luận

  • Đã xây dựng thành công hệ thống thị giác máy tính sử dụng mô hình YOLOv8 và OpenPifPaf phục vụ thanh toán tự động trong môi trường bán lẻ mô phỏng.
  • Hệ thống đạt độ chính xác nhận dạng sản phẩm trên 50% mAP và ước tính tư thế con người với độ tin cậy cao, xử lý thời gian thực với tốc độ 30 FPS.
  • Thuật toán ByteTrack giúp theo dõi khách hàng hiệu quả, giảm thiểu sai sót trong việc liên kết sản phẩm với khách hàng.
  • Nghiên cứu đề xuất các giải pháp mở rộng và bảo vệ quyền riêng tư, phù hợp với xu hướng phát triển công nghệ bán lẻ hiện đại.
  • Các bước tiếp theo bao gồm triển khai thử nghiệm thực tế tại cửa hàng, tối ưu hệ thống đa camera và nâng cao khả năng xử lý dữ liệu lớn.

Khuyến khích các nhà nghiên cứu và doanh nghiệp trong lĩnh vực bán lẻ thông minh tiếp cận và ứng dụng các kết quả nghiên cứu này để nâng cao hiệu quả kinh doanh và trải nghiệm khách hàng.