Tổng quan nghiên cứu
Ngành bán lẻ đang phát triển mạnh mẽ với nhu cầu tiêu dùng ngày càng tăng, đóng góp quan trọng vào nền kinh tế hiện đại. Theo ước tính, thời gian chờ thanh toán tại các cửa hàng chiếm trung bình khoảng 15-20 phút mỗi lượt khách, gây ra sự bất tiện và giảm trải nghiệm mua sắm. Vấn đề này thúc đẩy nhu cầu ứng dụng công nghệ tự động hóa nhằm nâng cao hiệu quả và sự hài lòng của khách hàng. Mục tiêu của nghiên cứu là phát triển hệ thống tính tiền tự động trong cửa hàng dựa trên thị giác máy tính, sử dụng mạng YOLOv7 để phát hiện sản phẩm và YOLOv7-tiny để nhận diện giỏ hàng cùng tay cầm sản phẩm. Hệ thống còn ứng dụng thuật toán theo dõi DeepSORT và phép biến đổi homography để đồng bộ dữ liệu từ nhiều camera, giúp quản lý chính xác số lượng và chủng loại sản phẩm trong giỏ hàng. Nghiên cứu được thực hiện trong môi trường cửa hàng thực tế tại TP. Hồ Chí Minh trong năm 2023, với mục tiêu tối ưu hóa quy trình thanh toán, giảm thời gian chờ và nâng cao hiệu suất làm việc của nhân viên. Kết quả thử nghiệm cho thấy hệ thống có thể nhận biết chính xác sản phẩm được lấy ra hoặc bỏ vào giỏ hàng với độ chính xác trên 85% trong điều kiện quan sát thuận lợi, góp phần cải thiện trải nghiệm mua sắm và hiệu quả vận hành cửa hàng.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Nghiên cứu dựa trên hai lý thuyết và mô hình chính:
Mạng phát hiện đối tượng YOLOv7: Là phiên bản cải tiến của dòng mô hình YOLO (You Only Look Once), YOLOv7 là mô hình one-stage detector cho phép phát hiện và phân loại đối tượng trong ảnh với tốc độ nhanh và độ chính xác cao. Kiến trúc YOLOv7 bao gồm ba thành phần chính: Backbone (trích xuất đặc trưng), Neck (kết hợp đặc trưng đa cấp) và Head (dự đoán bounding box và class). Các kỹ thuật tối ưu như ELAN block, compound model scaling và re-parameterization giúp tăng hiệu suất mô hình mà không làm tăng chi phí tính toán.
Thuật toán theo dõi DeepSORT: Thuật toán này kết hợp bộ lọc Kalman và thuật toán Hungarian để theo dõi nhiều đối tượng qua các khung hình video. DeepSORT sử dụng đặc trưng ngoại hình trích xuất từ mạng ReID để liên kết các đối tượng đã phát hiện, duy trì ID ổn định qua thời gian và xử lý các trường hợp mất dấu tạm thời. Quản lý vòng đời track gồm ba trạng thái: tentative, confirmed và deleted, giúp tăng độ chính xác theo dõi.
Phép biến đổi Homography: Đây là phép biến đổi hình học ánh xạ các điểm trên mặt phẳng cảnh sang mặt phẳng ảnh, cho phép đồng bộ hóa tọa độ các đối tượng quan sát từ nhiều camera khác nhau. Việc tìm ma trận homography dựa trên các điểm tương ứng giữa hai ảnh giúp liên kết các bounding box của đối tượng từ các góc nhìn khác nhau về một mặt phẳng tham chiếu duy nhất.
Các khái niệm chính bao gồm: bounding box, confidence score, ID cục bộ và ID toàn cục, data association, cascade matching, và tracking-by-detection.
Phương pháp nghiên cứu
Nguồn dữ liệu chính là hình ảnh và video thu thập từ hai camera Rapoo C260 được bố trí trên cao tại cửa hàng thực tế, ghi lại các hoạt động lấy và trả sản phẩm trên kệ và trong giỏ hàng. Bộ dữ liệu gồm 1201 ảnh sản phẩm thuộc 19 loại khác nhau và 16,381 ảnh tay cầm sản phẩm cùng giỏ hàng, được gán nhãn thủ công bằng phần mềm labelimg.
Phương pháp phân tích gồm:
- Huấn luyện mô hình YOLOv7 để phát hiện sản phẩm và YOLOv7-tiny để nhận diện tay cầm sản phẩm và giỏ hàng, sử dụng Google Colab với GPU NVIDIA RTX 3060Ti.
- Áp dụng thuật toán DeepSORT để theo dõi đối tượng qua các khung hình, gán ID cục bộ duy trì liên tục.
- Thực hiện phép biến đổi homography để đồng bộ tọa độ bounding box từ hai camera về mặt phẳng tham chiếu, từ đó liên kết ID cục bộ thành ID toàn cục.
- Xây dựng giải thuật quản lý kệ hàng và giỏ hàng dựa trên sự xuất hiện và biến mất của bounding box, xác định chính xác sản phẩm được lấy ra hoặc bỏ vào.
- Thời gian nghiên cứu từ tháng 2 đến tháng 5 năm 2023, với các giai đoạn thu thập dữ liệu, huấn luyện mô hình, triển khai hệ thống và đánh giá thực nghiệm.
Cỡ mẫu gồm 1201 ảnh sản phẩm và 16,381 ảnh tay cầm, được chia thành tập huấn luyện và kiểm tra với tỷ lệ khoảng 95% và 5%. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên từ các góc độ và điều kiện ánh sáng khác nhau nhằm đảm bảo tính đa dạng và độ tin cậy của mô hình.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
Hiệu suất nhận diện sản phẩm: Mô hình YOLOv7 đạt độ chính xác trung bình (mAP) trên tập kiểm tra là khoảng 87%, với confidence score trung bình trên 0.75 cho các sản phẩm phổ biến như nước ngọt, bánh mì và các loại nước đóng chai. Tỷ lệ nhận diện chính xác các sản phẩm trên kệ đạt 85-90% trong điều kiện ánh sáng tốt và sản phẩm không bị che khuất.
Nhận diện tay cầm sản phẩm và giỏ hàng: Mô hình YOLOv7-tiny đạt độ chính xác trên 92% trong việc phát hiện tay cầm sản phẩm và giỏ hàng, giúp hệ thống theo dõi chính xác hành động lấy và bỏ sản phẩm. Tỷ lệ phát hiện tay cầm sản phẩm thành công trong các khung hình đạt 90%, giảm nhẹ khi có nhiều sản phẩm chồng lên nhau.
Theo dõi đối tượng qua nhiều camera: Thuật toán DeepSORT kết hợp phép biến đổi homography giúp duy trì ID toàn cục ổn định cho các đối tượng qua hai camera với tỷ lệ liên kết thành công trên 88%. Việc đồng bộ hóa tọa độ bounding box qua homography giúp giảm thiểu lỗi trùng lặp và mất dấu đối tượng.
Khả năng phát hiện hành động lấy và trả sản phẩm: Hệ thống nhận biết chính xác các sự kiện lấy và trả sản phẩm với tỷ lệ thành công khoảng 83% khi khách hàng di chuyển với tốc độ vừa phải và sản phẩm không bị che khuất. Tuy nhiên, khi khách hàng di chuyển nhanh hoặc cầm nhiều sản phẩm chồng lên nhau, tỷ lệ nhận diện giảm xuống còn khoảng 70%.
Thảo luận kết quả
Nguyên nhân chính của các hạn chế là do hiện tượng che khuất sản phẩm và tốc độ di chuyển nhanh gây khó khăn cho việc nhận diện và theo dõi. So với các nghiên cứu trước đây sử dụng YOLOv4 hoặc các mô hình nhận diện đơn camera, hệ thống này cải thiện đáng kể độ chính xác nhờ việc kết hợp nhiều camera và thuật toán homography. Kết quả cũng phù hợp với báo cáo của ngành về các thách thức trong việc nhận diện sản phẩm trong môi trường thực tế.
Việc sử dụng mạng YOLOv7 với các kỹ thuật tối ưu như ELAN block và compound scaling giúp tăng hiệu suất nhận diện mà vẫn đảm bảo tốc độ xử lý thời gian thực, phù hợp với yêu cầu vận hành cửa hàng. Thuật toán DeepSORT với bộ lọc Kalman và Hungarian matching giúp duy trì ID ổn định, giảm thiểu lỗi mất dấu đối tượng.
Dữ liệu có thể được trình bày qua biểu đồ độ chính xác nhận diện sản phẩm theo từng loại, biểu đồ tỷ lệ thành công của việc theo dõi qua camera, và bảng so sánh tỷ lệ nhận diện trong các điều kiện khác nhau (tốc độ di chuyển, số lượng sản phẩm cầm trên tay).
Đề xuất và khuyến nghị
Tăng cường thu thập dữ liệu đa dạng: Mở rộng bộ dữ liệu huấn luyện với các tình huống khách hàng di chuyển nhanh, sản phẩm chồng chéo và điều kiện ánh sáng yếu nhằm cải thiện độ chính xác nhận diện. Thời gian thực hiện: 3-6 tháng. Chủ thể: Bộ phận nghiên cứu và phát triển.
Cải tiến thuật toán xử lý chồng lấp sản phẩm: Phát triển các mô hình nhận diện đa đối tượng nâng cao hoặc áp dụng kỹ thuật phân đoạn ảnh (instance segmentation) để phân biệt các sản phẩm chồng lên nhau. Thời gian thực hiện: 6 tháng. Chủ thể: Nhóm kỹ thuật AI.
Mở rộng hệ thống camera và cải thiện bố trí: Lắp đặt thêm camera với góc nhìn bổ sung để giảm vùng mù và tăng khả năng quan sát sản phẩm ở nhiều góc độ. Thời gian thực hiện: 2-4 tháng. Chủ thể: Ban quản lý cửa hàng và kỹ thuật.
Tối ưu hóa phần mềm và phần cứng: Nâng cấp phần cứng xử lý (GPU, CPU) và tối ưu thuật toán để đảm bảo hệ thống hoạt động ổn định trong thời gian thực, giảm độ trễ trong quá trình thanh toán. Thời gian thực hiện: 1-3 tháng. Chủ thể: Bộ phận IT và kỹ thuật.
Đào tạo nhân viên và hướng dẫn khách hàng: Tổ chức các buổi đào tạo cho nhân viên về cách vận hành hệ thống và hướng dẫn khách hàng sử dụng giỏ hàng thông minh để tăng hiệu quả sử dụng. Thời gian thực hiện: liên tục. Chủ thể: Ban quản lý cửa hàng.
Đối tượng nên tham khảo luận văn
Các nhà nghiên cứu và sinh viên ngành Kỹ thuật Điều khiển và Tự động hóa: Nghiên cứu cung cấp kiến thức chuyên sâu về ứng dụng thị giác máy tính, mạng YOLOv7 và thuật toán DeepSORT trong thực tế, hỗ trợ phát triển các đề tài liên quan.
Doanh nghiệp bán lẻ và siêu thị: Hệ thống tự động hóa thanh toán giúp giảm chi phí nhân sự, tăng tốc độ phục vụ và nâng cao trải nghiệm khách hàng, phù hợp với xu hướng chuyển đổi số trong ngành bán lẻ.
Nhà phát triển phần mềm và kỹ sư AI: Tham khảo kiến trúc mô hình, kỹ thuật huấn luyện và tối ưu hóa thuật toán để phát triển các ứng dụng thị giác máy tính trong lĩnh vực thương mại và dịch vụ.
Cơ quan quản lý và hoạch định chính sách công nghệ: Tài liệu cung cấp cơ sở khoa học để đánh giá và thúc đẩy ứng dụng công nghệ tự động hóa trong ngành bán lẻ, góp phần nâng cao năng lực cạnh tranh và phát triển kinh tế số.
Câu hỏi thường gặp
Hệ thống có thể nhận diện bao nhiêu loại sản phẩm?
Hệ thống được huấn luyện để nhận diện 19 loại sản phẩm phổ biến trong cửa hàng, bao gồm các loại nước uống, bánh mì và thực phẩm đóng gói. Độ chính xác nhận diện trung bình đạt khoảng 87% trên tập kiểm tra.Làm thế nào hệ thống theo dõi sản phẩm qua nhiều camera?
Hệ thống sử dụng thuật toán DeepSORT kết hợp phép biến đổi homography để đồng bộ tọa độ bounding box từ các camera khác nhau về một mặt phẳng tham chiếu, từ đó liên kết ID cục bộ thành ID toàn cục, duy trì theo dõi liên tục.Hệ thống xử lý thế nào khi khách hàng cầm nhiều sản phẩm cùng lúc?
Trong trường hợp sản phẩm chồng chéo hoặc khách hàng di chuyển nhanh, hệ thống có thể giảm độ chính xác nhận diện xuống khoảng 70%. Hiện tại, giải pháp đề xuất là mở rộng dữ liệu huấn luyện và phát triển thuật toán phân đoạn ảnh để cải thiện.Thời gian xử lý của hệ thống có đáp ứng được yêu cầu thời gian thực không?
Với cấu hình GPU NVIDIA RTX 3060Ti và CPU Intel Core i5-12600K, hệ thống có thể xử lý và nhận diện sản phẩm trong vòng vài giây, đảm bảo hoạt động ổn định trong thời gian thực tại cửa hàng.Hệ thống có thể áp dụng cho các cửa hàng lớn với nhiều loại sản phẩm hơn không?
Có thể mở rộng hệ thống bằng cách huấn luyện thêm các lớp sản phẩm mới và tăng số lượng camera để bao phủ toàn bộ không gian cửa hàng. Tuy nhiên, cần cân nhắc về chi phí và hiệu suất xử lý để đảm bảo độ chính xác và tốc độ.
Kết luận
- Hệ thống ứng dụng thị giác máy tính với mạng YOLOv7 và thuật toán DeepSORT đã được triển khai thành công trong việc phát hiện và theo dõi sản phẩm tại cửa hàng.
- Phép biến đổi homography giúp đồng bộ dữ liệu từ nhiều camera, nâng cao độ chính xác và ổn định của việc theo dõi đối tượng.
- Kết quả thử nghiệm cho thấy hệ thống đạt độ chính xác nhận diện sản phẩm trên 85% và khả năng phát hiện hành động lấy, trả sản phẩm hiệu quả trong điều kiện quan sát thuận lợi.
- Hạn chế hiện tại gồm nhận diện kém khi khách hàng di chuyển nhanh hoặc sản phẩm chồng chéo, cần cải tiến thêm về dữ liệu và thuật toán.
- Các bước tiếp theo bao gồm mở rộng dữ liệu huấn luyện, cải tiến thuật toán xử lý chồng lấp, nâng cấp phần cứng và mở rộng hệ thống camera để ứng dụng rộng rãi trong ngành bán lẻ.
Mời các nhà nghiên cứu và doanh nghiệp quan tâm liên hệ để hợp tác phát triển và ứng dụng hệ thống trong thực tế, góp phần thúc đẩy chuyển đổi số ngành bán lẻ.