Ứng Dụng Thị Giác Máy Tính Trong Tính Tiền Tự Động Tại Cửa Hàng

Chuyên khảo phân tích Ứng dụng thị giác máy tính trong tính tiền tự động trong cửa hàng, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo.

Trường đại học

Đại học Quốc gia TP. HCM Trường Đại học Bách Khoa

Chuyên ngành

Kỹ thuật Điều khiển và Tự động hóa

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2023

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN ĐỀ TÀI

1.1. Lý do chọn đề tài

1.2. Những công trình nghiên cứu gần đây

1.2.1. Mô hình giỏ hàng thông minh

1.2.2. Các cảm biến cộng tác theo dõi hàng và sản phẩm của Amazon

1.3. Mục tiêu đề tài

1.4. Nhiệm vụ đề tài

1.4.1. Nhận dạng đối tượng

1.4.1.1. Giới thiệu YOLOv7

1.4.1.2. Kiến trúc YOLOv7

1.4.1.3. Những trainable Bag-of-freebies của YOLOv7

1.4.1.4. Training trên Google Colab

1.4.2. Thuật toán theo dõi Deep SORT

1.4.2.1. Giới thiệu Deep SORT

1.4.2.2. Liên kết dữ liệu trong Deep SORT

1.4.2.3. Quản lý vòng đời 1 track

1.4.3. Chuyển đổi góc nhìn của hai camera quan sát cùng một bề mặt phẳng

1.4.3.1. Chuyển đổi từ mặt phẳng cảnh sang điểm ảnh trên ảnh

1.4.3.2. Homography với hai camera và một bề mặt quan sát

1.4.3.3. Tìm ma trận homography giữa hai ảnh

1.4.3.4. Theo dõi đối tượng trên nhiều camera sử dụng Homography

1.5. Thực hiện hệ thống

1.5.1. Hệ thống giám sát kệ hàng

1.5.2. Xây dựng mô hình YOLOv7 phát hiện đối tượng

1.5.2.1. Thu thập data

1.5.3. Theo dõi đối tượng

1.5.4. Quản lý kệ hàng và giỏ hàng

1.5.4.1. Mô hình phát hiện đối tượng

1.5.4.1.1. Đánh giá kết quả huấn luyện mô hình nhận dạng giỏ hàng và tay cầm sản phẩm (YOLOv7-tiny)

1.5.4.1.2. Đánh giá kết quả huấn luyện mô hình phát hiện sản phẩm (YOLOv7)

1.5.4.2. Phát hiện lấy và trả sản phẩm

1.5.4.2.1. Khảo sát tốc độ xử lý

1.5.4.2.2. Khảo sát tỷ lệ theo dõi và nhận dạng sản phẩm của hệ thống với một khách hàng

1.5.4.2.3. Khảo sát tỷ lệ theo dõi và nhận dạng sản phẩm của hệ thống với hai khách hàng

1.5.4.2.4. Khảo sát tỷ lệ lấy và trả sản phẩm

1.5.4.2.5. Khảo sát tỷ lệ lấy và trả những sản phẩm được nhận dạng tốt

2. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

2.1. Những kết quả đạt được

2.2. Những hạn chế còn tồn tại

2.3. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Ứng Dụng Thị Giác Máy Tính Tính Tiền Tự Động

Nhu cầu tiêu dùng ngày càng tăng thúc đẩy ngành bán lẻ phát triển nhanh chóng. Các nhà bán lẻ cần tạo ra trải nghiệm mua sắm sáng tạo và thu hút khách hàng. Hệ thống tính tiền tự động sử dụng thị giác máy tính là một giải pháp tiềm năng. Giai đoạn thanh toán thường là rào cản lớn, gây khó chịu cho khách hàng. Việc chờ đợi lâu có thể khiến họ rời đi và chọn cửa hàng khác. Một hệ thống có thể phát hiện và phân loại sản phẩm giúp nhân viên xác định nhanh chóng các mặt hàng và tăng hiệu suất làm việc. Mục tiêu là nâng cao trải nghiệm khách hàng và tối ưu hóa quy trình thanh toán.

1.1. Vai Trò Quan Trọng của Thị Giác Máy Tính trong Bán Lẻ

Thị giác máy tính đóng vai trò then chốt trong retail automation, đặc biệt là trong việc xây dựng các self-checkout systems. Nó cho phép nhận diện sản phẩm bằng hình ảnh một cách chính xác, nhanh chóng, từ đó giảm thiểu sự phụ thuộc vào nhân viên thu ngân. Ứng dụng công nghệ deep learning trong bán lẻ để phân tích hình ảnh giúp cải thiện độ chính xác và hiệu quả của hệ thống. Việc này trực tiếp góp phần cải thiện trải nghiệm khách hàng trong bán lẻ.

1.2. Amazon Go Tiên Phong trong Hệ Thống Thanh Toán Tự Động

Mô hình cửa hàng tự phục vụ Amazon Go là một ví dụ điển hình về ứng dụng thành công của hệ thống thanh toán không cần nhân viên. Khách hàng chỉ cần lấy sản phẩm và rời đi, hệ thống sẽ tự động tính tiền vào tài khoản. Điều này mang lại trải nghiệm mua sắm liền mạch và tiện lợi. Tuy nhiên, việc triển khai hệ thống này đòi hỏi đầu tư lớn vào công nghệ deep learning trong bán lẻ và cơ sở hạ tầng.

II. Thách Thức Phát Triển Hệ Thống Thị Giác Máy Tính Tiền Tự Động

Việc phát triển hệ thống tính tiền tự động bằng AI đối mặt với nhiều thách thức. Độ chính xác trong nhận diện sản phẩm bằng hình ảnh là yếu tố then chốt. Các sản phẩm tương tự nhau về hình dáng hoặc bị che khuất có thể gây khó khăn cho hệ thống. Tốc độ xử lý ảnh cũng cần được tối ưu hóa để đảm bảo trải nghiệm mua sắm mượt mà. Hơn nữa, hệ thống cần có khả năng xử lý dữ liệu từ nhiều camera và đồng bộ hóa thông tin để theo dõi khách hàng và sản phẩm một cách chính xác. Các yếu tố về ánh sáng và góc nhìn cũng có thể ảnh hưởng đến hiệu suất của hệ thống. Cần có các giải pháp để giải quyết các vấn đề này.

2.1. Vấn Đề Độ Chính Xác trong Nhận Diện Sản Phẩm

Độ chính xác trong image recognition là yếu tố sống còn của hệ thống tính tiền tự động. Các sản phẩm có bao bì tương tự hoặc bị che khuất một phần có thể bị nhận diện sai. Thuật toán cần được huấn luyện kỹ lưỡng với bộ dữ liệu lớn và đa dạng để tăng cường khả năng object detection trong các tình huống khác nhau. Các phương pháp xử lý ảnh trong bán lẻ như tăng cường độ tương phản, loại bỏ nhiễu cũng cần được áp dụng.

2.2. Yêu Cầu Về Tốc Độ Xử Lý Ảnh Thời Gian Thực

Hệ thống tính tiền tự động cần hoạt động theo thời gian thực để đảm bảo trải nghiệm mua sắm mượt mà. Tốc độ xử lý ảnh trong bán lẻ phải đủ nhanh để theo dõi khách hàng và sản phẩm một cách liên tục. Các thuật toán vision AI cần được tối ưu hóa để giảm thiểu độ trễ. Sử dụng phần cứng mạnh mẽ và các kỹ thuật song song hóa có thể giúp tăng tốc độ xử lý.

2.3. Xử Lý Dữ Liệu Từ Nhiều Camera và Đồng Bộ Hóa

Trong môi trường bán lẻ thực tế, hệ thống tính tiền tự động bằng AI thường sử dụng nhiều camera để theo dõi khách hàng và sản phẩm. Việc đồng bộ hóa dữ liệu từ các camera này là rất quan trọng để đảm bảo tính nhất quán và chính xác. Các phương pháp như biến đổi homography có thể được sử dụng để chuyển đổi góc nhìn của các camera về một mặt phẳng tham chiếu chung.

III. Phương Pháp Ứng Dụng YOLOv7 và DeepSORT Tính Tiền Tự Động

Luận văn này tập trung vào việc sử dụng mạng YOLOv7 để phát hiện sản phẩm và YOLOv7-tiny để phát hiện giỏ hàng và tay cầm sản phẩm. Mô hình theo dõi đối tượng DeepSORT được sử dụng để theo dõi và gán ID cho các đối tượng. Giải thuật quản lý kệ hàng và giỏ hàng được xây dựng để phát hiện đối tượng được bỏ vào và ra khỏi giỏ. Thông tin từ nhiều camera được đồng bộ hóa bằng phép biến đổi homography. Mục tiêu là triển khai phát hiện và theo dõi đối tượng trong khung hình, đồng thời phát hiện việc bỏ sản phẩm vào và ra khỏi giỏ trên nhiều camera.

3.1. Sử Dụng YOLOv7 và YOLOv7 tiny để Nhận Diện Đối Tượng

YOLOv7 là một mạng nơ-ron tích chập (CNN) mạnh mẽ, được sử dụng để object detection thời gian thực. Trong hệ thống tính tiền tự động, YOLOv7 được sử dụng để nhận diện sản phẩm bằng hình ảnh. YOLOv7-tiny, phiên bản rút gọn của YOLOv7, được sử dụng để phát hiện giỏ hàng và tay cầm sản phẩm. Việc sử dụng hai mô hình khác nhau giúp cân bằng giữa độ chính xác và tốc độ xử lý.

3.2. Theo Dõi Đối Tượng Với DeepSORT Gán ID và Quản Lý Vòng Đời

DeepSORT là một thuật toán theo dõi đối tượng được sử dụng để gán ID cho các đối tượng và theo dõi chúng qua nhiều khung hình. Trong hệ thống tính tiền tự động bằng AI, DeepSORT được sử dụng để theo dõi khách hàng và sản phẩm. Việc gán ID giúp hệ thống phân biệt các đối tượng khác nhau và theo dõi hành vi của chúng. Quản lý vòng đời của các đối tượng giúp hệ thống loại bỏ các đối tượng không còn xuất hiện trong khung hình.

3.3. Biến Đổi Homography Đồng Bộ Hóa Góc Nhìn Camera

Phép biến đổi homography là một kỹ thuật được sử dụng để chuyển đổi góc nhìn của các camera về một mặt phẳng tham chiếu chung. Trong hệ thống tính tiền tự động bằng AI, homography được sử dụng để đồng bộ hóa thông tin từ nhiều camera. Điều này cho phép hệ thống theo dõi khách hàng và sản phẩm một cách chính xác, bất kể vị trí của camera.

IV. Thực Nghiệm Đánh Giá Hiệu Suất Hệ Thống Tính Tiền Tự Động

Hệ thống đã được thử nghiệm với các sản phẩm trên kệ và giỏ hàng. Kết quả cho thấy hệ thống có thể nhận biết sản phẩm được lấy vào và bỏ ra khỏi kệ hàng. Tuy nhiên, hệ thống còn nhiều hạn chế khi khách hàng cầm sản phẩm di chuyển quá nhanh hoặc cầm nhiều sản phẩm chồng chéo nhau hoặc khi sản phẩm ở quá xa vùng quan sát camera. Cần cải thiện độ chính xác và độ ổn định của hệ thống trong các điều kiện khác nhau.

4.1. Kết Quả Nhận Diện và Theo Dõi Sản Phẩm trên Kệ Hàng

Thử nghiệm cho thấy hệ thống có thể nhận diện sản phẩm bằng hình ảnh trên kệ hàng với độ chính xác chấp nhận được. Tuy nhiên, độ chính xác giảm khi sản phẩm bị che khuất hoặc nằm ngoài vùng quan sát của camera. Cần cải thiện thuật toán object detection để tăng cường khả năng nhận diện trong các điều kiện khó khăn.

4.2. Đánh Giá Khả Năng Theo Dõi Khách Hàng và Giỏ Hàng

Hệ thống có thể theo dõi khách hàng và giỏ hàng một cách tương đối ổn định. Tuy nhiên, độ chính xác giảm khi khách hàng di chuyển quá nhanh hoặc có nhiều người trong khung hình. Cần cải thiện thuật toán theo dõi đối tượng để tăng cường khả năng theo dõi trong các tình huống phức tạp.

4.3. Phân Tích Tỷ Lệ Phát Hiện Lấy Trả Sản Phẩm vào Giỏ Hàng

Thử nghiệm cho thấy hệ thống có thể phát hiện việc lấy và trả sản phẩm vào giỏ hàng với độ chính xác chấp nhận được. Tuy nhiên, độ chính xác giảm khi sản phẩm bị che khuất hoặc di chuyển quá nhanh. Cần cải thiện thuật toán để tăng cường khả năng phát hiện hành vi trong các tình huống khác nhau.

V. Kết Luận Triển Vọng và Hướng Phát Triển Thị Giác Máy Tính

Ứng dụng thị giác máy tính trong tính tiền tự động là một lĩnh vực đầy tiềm năng. Hệ thống có thể giúp giảm chi phí vận hành cửa hàng, tối ưu hóa quy trình thanh toán và cải thiện trải nghiệm khách hàng trong bán lẻ. Tuy nhiên, vẫn còn nhiều thách thức cần giải quyết để hệ thống hoạt động một cách chính xác và ổn định trong các điều kiện khác nhau. Các nghiên cứu trong tương lai có thể tập trung vào việc cải thiện độ chính xác của thuật toán object detection, tăng cường khả năng theo dõi đối tượng và phát triển các giải pháp xử lý dữ liệu từ nhiều camera.

5.1. Tiềm Năng Ứng Dụng Rộng Rãi của AI trong Bán Lẻ

AI trong bán lẻ không chỉ giới hạn ở việc tính tiền tự động. Nó còn có thể được ứng dụng trong nhiều lĩnh vực khác như quản lý hàng tồn kho, phân tích hành vi khách hàng và cá nhân hóa trải nghiệm mua sắm. Việc tích hợp machine learning cho bán lẻ sẽ giúp các cửa hàng nâng cao hiệu quả hoạt động và tăng cường khả năng cạnh tranh.

5.2. Hướng Phát Triển Thuật Toán Nhận Diện và Theo Dõi Đối Tượng

Các nghiên cứu trong tương lai có thể tập trung vào việc phát triển các thuật toán object detection và theo dõi đối tượng mạnh mẽ hơn. Sử dụng các kỹ thuật tiên tiến như transformer và graph neural networks có thể giúp cải thiện độ chính xác và độ ổn định của hệ thống. Tăng cường khả năng xử lý dữ liệu từ nhiều camera và đồng bộ hóa thông tin cũng là một hướng đi quan trọng.

24/05/2025

Bạn đang xem trước tài liệu:

Ứng dụng thị giác máy tính trong tính tiền tự động trong cửa hàng

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Ngành bán lẻ đang phát triển mạnh mẽ với nhu cầu tiêu dùng ngày càng tăng, đóng góp quan trọng vào nền kinh tế hiện đại. Theo ước tính, thời gian chờ thanh toán tại các cửa hàng chiếm trung bình khoảng 15-20 phút mỗi lượt khách, gây ra sự bất tiện và giảm trải nghiệm mua sắm. Vấn đề này thúc đẩy nhu cầu ứng dụng công nghệ tự động hóa nhằm nâng cao hiệu quả và sự hài lòng của khách hàng. Mục tiêu của nghiên cứu là phát triển hệ thống tính tiền tự động trong cửa hàng dựa trên thị giác máy tính, sử dụng mạng YOLOv7 để phát hiện sản phẩm và YOLOv7-tiny để nhận diện giỏ hàng cùng tay cầm sản phẩm. Hệ thống còn ứng dụng thuật toán theo dõi DeepSORT và phép biến đổi homography để đồng bộ dữ liệu từ nhiều camera, giúp quản lý chính xác số lượng và chủng loại sản phẩm trong giỏ hàng. Nghiên cứu được thực hiện trong môi trường cửa hàng thực tế tại TP. Hồ Chí Minh trong năm 2023, với mục tiêu tối ưu hóa quy trình thanh toán, giảm thời gian chờ và nâng cao hiệu suất làm việc của nhân viên. Kết quả thử nghiệm cho thấy hệ thống có thể nhận biết chính xác sản phẩm được lấy ra hoặc bỏ vào giỏ hàng với độ chính xác trên 85% trong điều kiện quan sát thuận lợi, góp phần cải thiện trải nghiệm mua sắm và hiệu quả vận hành cửa hàng.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên hai lý thuyết và mô hình chính:

Mạng phát hiện đối tượng YOLOv7: Là phiên bản cải tiến của dòng mô hình YOLO (You Only Look Once), YOLOv7 là mô hình one-stage detector cho phép phát hiện và phân loại đối tượng trong ảnh với tốc độ nhanh và độ chính xác cao. Kiến trúc YOLOv7 bao gồm ba thành phần chính: Backbone (trích xuất đặc trưng), Neck (kết hợp đặc trưng đa cấp) và Head (dự đoán bounding box và class). Các kỹ thuật tối ưu như ELAN block, compound model scaling và re-parameterization giúp tăng hiệu suất mô hình mà không làm tăng chi phí tính toán.
Thuật toán theo dõi DeepSORT: Thuật toán này kết hợp bộ lọc Kalman và thuật toán Hungarian để theo dõi nhiều đối tượng qua các khung hình video. DeepSORT sử dụng đặc trưng ngoại hình trích xuất từ mạng ReID để liên kết các đối tượng đã phát hiện, duy trì ID ổn định qua thời gian và xử lý các trường hợp mất dấu tạm thời. Quản lý vòng đời track gồm ba trạng thái: tentative, confirmed và deleted, giúp tăng độ chính xác theo dõi.
Phép biến đổi Homography: Đây là phép biến đổi hình học ánh xạ các điểm trên mặt phẳng cảnh sang mặt phẳng ảnh, cho phép đồng bộ hóa tọa độ các đối tượng quan sát từ nhiều camera khác nhau. Việc tìm ma trận homography dựa trên các điểm tương ứng giữa hai ảnh giúp liên kết các bounding box của đối tượng từ các góc nhìn khác nhau về một mặt phẳng tham chiếu duy nhất.

Các khái niệm chính bao gồm: bounding box, confidence score, ID cục bộ và ID toàn cục, data association, cascade matching, và tracking-by-detection.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là hình ảnh và video thu thập từ hai camera Rapoo C260 được bố trí trên cao tại cửa hàng thực tế, ghi lại các hoạt động lấy và trả sản phẩm trên kệ và trong giỏ hàng. Bộ dữ liệu gồm 1201 ảnh sản phẩm thuộc 19 loại khác nhau và 16,381 ảnh tay cầm sản phẩm cùng giỏ hàng, được gán nhãn thủ công bằng phần mềm labelimg.

Phương pháp phân tích gồm:

Huấn luyện mô hình YOLOv7 để phát hiện sản phẩm và YOLOv7-tiny để nhận diện tay cầm sản phẩm và giỏ hàng, sử dụng Google Colab với GPU NVIDIA RTX 3060Ti.
Áp dụng thuật toán DeepSORT để theo dõi đối tượng qua các khung hình, gán ID cục bộ duy trì liên tục.
Thực hiện phép biến đổi homography để đồng bộ tọa độ bounding box từ hai camera về mặt phẳng tham chiếu, từ đó liên kết ID cục bộ thành ID toàn cục.
Xây dựng giải thuật quản lý kệ hàng và giỏ hàng dựa trên sự xuất hiện và biến mất của bounding box, xác định chính xác sản phẩm được lấy ra hoặc bỏ vào.
Thời gian nghiên cứu từ tháng 2 đến tháng 5 năm 2023, với các giai đoạn thu thập dữ liệu, huấn luyện mô hình, triển khai hệ thống và đánh giá thực nghiệm.

Cỡ mẫu gồm 1201 ảnh sản phẩm và 16,381 ảnh tay cầm, được chia thành tập huấn luyện và kiểm tra với tỷ lệ khoảng 95% và 5%. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên từ các góc độ và điều kiện ánh sáng khác nhau nhằm đảm bảo tính đa dạng và độ tin cậy của mô hình.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất nhận diện sản phẩm: Mô hình YOLOv7 đạt độ chính xác trung bình (mAP) trên tập kiểm tra là khoảng 87%, với confidence score trung bình trên 0.75 cho các sản phẩm phổ biến như nước ngọt, bánh mì và các loại nước đóng chai. Tỷ lệ nhận diện chính xác các sản phẩm trên kệ đạt 85-90% trong điều kiện ánh sáng tốt và sản phẩm không bị che khuất.
Nhận diện tay cầm sản phẩm và giỏ hàng: Mô hình YOLOv7-tiny đạt độ chính xác trên 92% trong việc phát hiện tay cầm sản phẩm và giỏ hàng, giúp hệ thống theo dõi chính xác hành động lấy và bỏ sản phẩm. Tỷ lệ phát hiện tay cầm sản phẩm thành công trong các khung hình đạt 90%, giảm nhẹ khi có nhiều sản phẩm chồng lên nhau.
Theo dõi đối tượng qua nhiều camera: Thuật toán DeepSORT kết hợp phép biến đổi homography giúp duy trì ID toàn cục ổn định cho các đối tượng qua hai camera với tỷ lệ liên kết thành công trên 88%. Việc đồng bộ hóa tọa độ bounding box qua homography giúp giảm thiểu lỗi trùng lặp và mất dấu đối tượng.
Khả năng phát hiện hành động lấy và trả sản phẩm: Hệ thống nhận biết chính xác các sự kiện lấy và trả sản phẩm với tỷ lệ thành công khoảng 83% khi khách hàng di chuyển với tốc độ vừa phải và sản phẩm không bị che khuất. Tuy nhiên, khi khách hàng di chuyển nhanh hoặc cầm nhiều sản phẩm chồng lên nhau, tỷ lệ nhận diện giảm xuống còn khoảng 70%.

Thảo luận kết quả

Nguyên nhân chính của các hạn chế là do hiện tượng che khuất sản phẩm và tốc độ di chuyển nhanh gây khó khăn cho việc nhận diện và theo dõi. So với các nghiên cứu trước đây sử dụng YOLOv4 hoặc các mô hình nhận diện đơn camera, hệ thống này cải thiện đáng kể độ chính xác nhờ việc kết hợp nhiều camera và thuật toán homography. Kết quả cũng phù hợp với báo cáo của ngành về các thách thức trong việc nhận diện sản phẩm trong môi trường thực tế.

Việc sử dụng mạng YOLOv7 với các kỹ thuật tối ưu như ELAN block và compound scaling giúp tăng hiệu suất nhận diện mà vẫn đảm bảo tốc độ xử lý thời gian thực, phù hợp với yêu cầu vận hành cửa hàng. Thuật toán DeepSORT với bộ lọc Kalman và Hungarian matching giúp duy trì ID ổn định, giảm thiểu lỗi mất dấu đối tượng.

Dữ liệu có thể được trình bày qua biểu đồ độ chính xác nhận diện sản phẩm theo từng loại, biểu đồ tỷ lệ thành công của việc theo dõi qua camera, và bảng so sánh tỷ lệ nhận diện trong các điều kiện khác nhau (tốc độ di chuyển, số lượng sản phẩm cầm trên tay).

Đề xuất và khuyến nghị

Tăng cường thu thập dữ liệu đa dạng: Mở rộng bộ dữ liệu huấn luyện với các tình huống khách hàng di chuyển nhanh, sản phẩm chồng chéo và điều kiện ánh sáng yếu nhằm cải thiện độ chính xác nhận diện. Thời gian thực hiện: 3-6 tháng. Chủ thể: Bộ phận nghiên cứu và phát triển.
Cải tiến thuật toán xử lý chồng lấp sản phẩm: Phát triển các mô hình nhận diện đa đối tượng nâng cao hoặc áp dụng kỹ thuật phân đoạn ảnh (instance segmentation) để phân biệt các sản phẩm chồng lên nhau. Thời gian thực hiện: 6 tháng. Chủ thể: Nhóm kỹ thuật AI.
Mở rộng hệ thống camera và cải thiện bố trí: Lắp đặt thêm camera với góc nhìn bổ sung để giảm vùng mù và tăng khả năng quan sát sản phẩm ở nhiều góc độ. Thời gian thực hiện: 2-4 tháng. Chủ thể: Ban quản lý cửa hàng và kỹ thuật.
Tối ưu hóa phần mềm và phần cứng: Nâng cấp phần cứng xử lý (GPU, CPU) và tối ưu thuật toán để đảm bảo hệ thống hoạt động ổn định trong thời gian thực, giảm độ trễ trong quá trình thanh toán. Thời gian thực hiện: 1-3 tháng. Chủ thể: Bộ phận IT và kỹ thuật.
Đào tạo nhân viên và hướng dẫn khách hàng: Tổ chức các buổi đào tạo cho nhân viên về cách vận hành hệ thống và hướng dẫn khách hàng sử dụng giỏ hàng thông minh để tăng hiệu quả sử dụng. Thời gian thực hiện: liên tục. Chủ thể: Ban quản lý cửa hàng.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành Kỹ thuật Điều khiển và Tự động hóa: Nghiên cứu cung cấp kiến thức chuyên sâu về ứng dụng thị giác máy tính, mạng YOLOv7 và thuật toán DeepSORT trong thực tế, hỗ trợ phát triển các đề tài liên quan.
Doanh nghiệp bán lẻ và siêu thị: Hệ thống tự động hóa thanh toán giúp giảm chi phí nhân sự, tăng tốc độ phục vụ và nâng cao trải nghiệm khách hàng, phù hợp với xu hướng chuyển đổi số trong ngành bán lẻ.
Nhà phát triển phần mềm và kỹ sư AI: Tham khảo kiến trúc mô hình, kỹ thuật huấn luyện và tối ưu hóa thuật toán để phát triển các ứng dụng thị giác máy tính trong lĩnh vực thương mại và dịch vụ.
Cơ quan quản lý và hoạch định chính sách công nghệ: Tài liệu cung cấp cơ sở khoa học để đánh giá và thúc đẩy ứng dụng công nghệ tự động hóa trong ngành bán lẻ, góp phần nâng cao năng lực cạnh tranh và phát triển kinh tế số.

Câu hỏi thường gặp

Hệ thống có thể nhận diện bao nhiêu loại sản phẩm?
Hệ thống được huấn luyện để nhận diện 19 loại sản phẩm phổ biến trong cửa hàng, bao gồm các loại nước uống, bánh mì và thực phẩm đóng gói. Độ chính xác nhận diện trung bình đạt khoảng 87% trên tập kiểm tra.
Làm thế nào hệ thống theo dõi sản phẩm qua nhiều camera?
Hệ thống sử dụng thuật toán DeepSORT kết hợp phép biến đổi homography để đồng bộ tọa độ bounding box từ các camera khác nhau về một mặt phẳng tham chiếu, từ đó liên kết ID cục bộ thành ID toàn cục, duy trì theo dõi liên tục.
Hệ thống xử lý thế nào khi khách hàng cầm nhiều sản phẩm cùng lúc?
Trong trường hợp sản phẩm chồng chéo hoặc khách hàng di chuyển nhanh, hệ thống có thể giảm độ chính xác nhận diện xuống khoảng 70%. Hiện tại, giải pháp đề xuất là mở rộng dữ liệu huấn luyện và phát triển thuật toán phân đoạn ảnh để cải thiện.
Thời gian xử lý của hệ thống có đáp ứng được yêu cầu thời gian thực không?
Với cấu hình GPU NVIDIA RTX 3060Ti và CPU Intel Core i5-12600K, hệ thống có thể xử lý và nhận diện sản phẩm trong vòng vài giây, đảm bảo hoạt động ổn định trong thời gian thực tại cửa hàng.
Hệ thống có thể áp dụng cho các cửa hàng lớn với nhiều loại sản phẩm hơn không?
Có thể mở rộng hệ thống bằng cách huấn luyện thêm các lớp sản phẩm mới và tăng số lượng camera để bao phủ toàn bộ không gian cửa hàng. Tuy nhiên, cần cân nhắc về chi phí và hiệu suất xử lý để đảm bảo độ chính xác và tốc độ.

Kết luận

Hệ thống ứng dụng thị giác máy tính với mạng YOLOv7 và thuật toán DeepSORT đã được triển khai thành công trong việc phát hiện và theo dõi sản phẩm tại cửa hàng.
Phép biến đổi homography giúp đồng bộ dữ liệu từ nhiều camera, nâng cao độ chính xác và ổn định của việc theo dõi đối tượng.
Kết quả thử nghiệm cho thấy hệ thống đạt độ chính xác nhận diện sản phẩm trên 85% và khả năng phát hiện hành động lấy, trả sản phẩm hiệu quả trong điều kiện quan sát thuận lợi.
Hạn chế hiện tại gồm nhận diện kém khi khách hàng di chuyển nhanh hoặc sản phẩm chồng chéo, cần cải tiến thêm về dữ liệu và thuật toán.
Các bước tiếp theo bao gồm mở rộng dữ liệu huấn luyện, cải tiến thuật toán xử lý chồng lấp, nâng cấp phần cứng và mở rộng hệ thống camera để ứng dụng rộng rãi trong ngành bán lẻ.

Mời các nhà nghiên cứu và doanh nghiệp quan tâm liên hệ để hợp tác phát triển và ứng dụng hệ thống trong thực tế, góp phần thúc đẩy chuyển đổi số ngành bán lẻ.

Trích đoạn nội dung tài liệu

CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI 1.1 Lý do chọn đề tài Nhu cầu tiêu dùng của con người với các loại hàng hóa ngày càng lớn, ngành dịch vụ bán lẻ trở nên phát triển nhanh chóng và trở thành một trong những mũi nhọn của nền kinh tế. Cùng với sự phát triển của ngành bán lẻ, những nhà bán lẻ cần phải thích ứng để phát triển. Điều này thôi thúc cần phải tạo ra những trải nghiệm tiêu dùng sáng tạo, thú vị cũng như phải có những cách thức mới thu hút sự chú ý của khách hàng.

Trong đó, giai đoạn thanh toán là rào cản rất lớn, gây nên sự khó chịu, trải nghiệm không tốt với khách hàng. Việc phải chờ đợi thanh toán quá lâu khi mua hàng sẽ khiến khách hàng rời đi, chọn những cửa hàng khác thay thế. Kết quả là lợi nhuận bị mất, sự hài lòng của người tiêu dùng giảm và trải nghiệm của khách hàng bị ảnh hưởng. Ngày nay, công nghiệp hóa ngày càng phát triển, rất nhiều kỹ thuật được ứng dụng vào trong đời sống để nâng cao chất lượng cuộc sống của người dân, cũng như giúp nâng cao hiệu suất trong công việc.

Một hệ thống có thể giúp phát hiện các đối tượng và phân loại sản phẩm trong cửa hàng là rất quan trọng để giúp nhân viên có thể xác định được các sản phẩm thuộc loại hàng khác nhau và nhanh chóng biết được giỏ hàng của khách hàng đang có gì để tiến hành thanh toán, và do đó có thể nâng cao hiệu suất làm việc của nhân viên.2 Những công trình nghiên cứu gần đây Bài viết Automated Checkout for Stores: A Computer Vision Approach [1] đề cập đến phương pháp tính tiền tự động ở quầy thu ngân, hệ thống sẽ nhận dạng các sản phẩm và xuất hóa đơn. Tác giả dựa trên thị giác máy bằng cách sử dụng YOLOv4 để nhận dạng 34 đối tượng trong tập dữ liệu MS COCO, những đối tượng này thường xuất hiện trong siêu thị, từ đó xác định xem những mặt hàng có trong một bức ảnh, sau đó đếm số lượng các mặt hàng tương tự có trong danh mục mặt hàng, xuất ra hóa đơn trên giao diện bằng Flask web framework. Sau khi thực hiện, tác giả tiến hành đánh giá các sản 1 phẩm chạy trên băng chuyền, các đối tượng nhận diện được đều có confidence score lớn hơn 50%. Kết quả của tác giả đưa ra là khá tốt và ý tưởng của tác giả rất hay.

Tuy nhiên khách hàng vẫn phải mất thời gian xếp hàng hóa, đóng gói, tính tiền tại quầy. Cửa hàng vẫn phải tốn nhân sự cho việc thu ngân. Cùng với đó các loại sản phẩm ở trong siêu thị rất nhiều, khó có mô hình nhận dạng nào có thể nhận diện được chính xác tất cả. Bài viết Smart Shopping Cart using Machine Vision along with Machine Learning [2] đề cập đến phương án tính tiền tự động đó là một giỏ hàng thông minh.

Bằng cách sử dụng Thị giác máy để xác định các mặt hàng được đặt trong giỏ hàng, một mô-đun Raspbêrry Pi để xử lý dữ liệu và cập nhật cơ sở dữ liệu và màn hình LCD để hiển thị thông tin về khách hàng và giỏ hàng của họ. Ở cuối của quá trình mua sắm, một hóa đơn được tạo ra cho người tiêu dùng.1 Mô hình giỏ hàng thông minh Việc áp dụng loại hệ thống mua sắm thông minh này sẽ là cách rất có lợi cho khách hàng để tránh sự bất tiện mà họ thường gặp phải trong khi mua sắm. Khách hàng sẽ có thể giảm thiểu thời gian xếp hàng trong quá trình thanh toán trong thu ngân. Tuy nhiên giá thành của mỗi giỏ hàng này sẽ rất cao, khó có thể triển khai cho một siêu thị hoặc một trung tâm mua sắm lớn.

Bài viết Just Walk-Out Technology and its Challenges: A case of Amazon Go [3] đề cập đến công nghệ mới tên là “Amazon Go”. Đây là một cửa hàng bán lẻ không có quy trình thanh toán. Khách hàng đơn giản chỉ cần lấy 2 những thứ mà họ muốn và bước ra ngoài, đơn đặt hàng được tính trực tiếp vào tài khoản. Hình ảnh được chụp khi khách hàng bước vào cửa hàng, khi khách hàng chọn bất kỳ sản phẩm nào từ kệ và khi họ rời đi với các sản phẩm trong khi rời đi.

Nhận dạng khuôn mặt và thông tin khách hàng được theo dõi có thể bao gồm hình ảnh, thông tin chi tiết như chiều cao, cân nặng và sinh trắc học. Điều đó cho phép hệ thống giám sát của cửa hàng xác định khách hàng để nó có thể theo dõi họ khi họ di chuyển khắp cửa hàng. Camera ghi lại hình ảnh của khách hàng khi họ đến trước kệ, những món đồ họ chọn được và liệu món đồ đã chọn có nằm trong tay khách hàng hay được giữ trở lại kệ. Cảm biến đặt tại kệ tự động phát hiện khi sản phẩm được lấy từ kệ hoặc trả lại.2 Các cảm biến cộng tác theo dõi hàng và sản phẩm của Amazon [3] Amazon Go hướng đến cuộc cách mạng mua sắm trong thời đại công nghệ tiên tiến bằng cách loại bỏ các quầy thanh toán mang lại sự hài lòng của người tiêu dùng và trải nghiệm của khách hàng.

Đây là một xu hướng mới cho ngành bán lẻ. Ở trên là các phương pháp đang được áp dụng thực tế cho việc bán hàng tự động. Sau khi tìm hiểu, tôi nhận thấy các phương pháp trên đều có ưu và nhược điểm. Tuy nhiên mô hình nổi trội hơn cả là mô hình tính tiền tự động 3 Amazon Go.

Mô hình này có thể sử dụng lại nền tảng các camera giám sát có sẵn ở các siêu thị và cửa hàng hiện tại. Nó có thể chia nhỏ các mô-đun kệ hàng, khi đó số loại sản phẩm cần phải nhận dạng sẽ ít hơn, độ chính xác đảm bảo hơn so với các phương án nhận diện tất cả loại sản phẩm trong cửa hàng.3 Mục tiêu đề tài Sau khi tham khảo các bài báo và nghiên cứu, mục tiêu của đề tài là dựa trên ý tưởng của “Amazon Go” về việc dùng camera phát hiện và theo dõi khi khách hàng chọn bất kỳ sản phẩm nào từ kệ và khi họ rời đi với các sản phẩm trong khi rời đi. Hệ thống sẽ phát hiện khách hàng bỏ và lấy sản phẩm vào giỏ ở nhiều góc nhìn camera: - Phát hiện các sản phẩm có trên kệ, thực hiện theo dõi các sản phẩm qua nhiều khung hình theo thời gian, phát hiện được sản phẩm được bỏ vào và lấy ra khỏi giỏ. - Đồng bộ các góc nhìn từ các camera về một góc nhìn tham chiếu duy nhất, thực hiện định vị giỏ hàng và tay của khách hàng có cầm nắm sản phẩm trong không gian quan sát đó.

- Có được thông tin sản phẩm và khách hàng tiến hành tạo ra giỏ hàng ảo để quản lý khách hàng và các sản phẩm được chọn qua các khung hình. Tối ưu hệ thống thanh toán tự động để có thể chạy ổn định, đảm bảo có thể chạy trên thời gian thực.4 Nhiệm vụ đề tài Sử dụng mạng YOLOv7 để có thể phát hiện các sản phẩm có trong danh mục sản phẩm. Và mạng YOLOv7-tiny để phát hiện giỏ hàng và tay của khách hàng có cầm vật. Thu thập dữ liệu với nhiều góc độ điều kiện khác nhau cho việc huấn luyện.

Sử dụng mô hình thêo dõi đối tượng DêêpSORT để thêo dõi các đối tượng đã phát hiện theo thời gian. Gán ID cho các đối tượng sản phẩm, ID của mỗi đối tượng cần đảm bảo luôn không đổi qua các frame, khi đối tượng biến mất hệ thống vẫn cần đảm bảo nhận diện được đúng ID đối tượng khi xuất hiện. 4 Xây dựng giải thuật quản lý kệ hàng và giỏ hàng từ đó phát hiện được đối tượng được bỏ vào và ra khỏi giỏ. Đảm bảo đúng số lượng các loại sản phẩm đang có trong giỏ.

Đồng bộ hóa từ các ảnh đầu vào. Thực hiện phép biến đổi homography cho từng đầu vào. Tổng quát hóa tọa độ của giỏ hàng và tay cầm sản phẩm ở nhiều camera trên một view duy nhất. Cùng với đó liên kết ID của giỏ hàng và tay của khách hàng cầm sản phẩm ở từng camera thành một ID toàn cục.

Triển khai phát hiện, thêo dõi đối tượng và phát hiện đối tượng được bỏ vào và ra giỏ trên nhiều camera. Khảo sát thực nghiệm và đánh giá.1 Nhận dạng đối tượng 2.1 Giới thiệu YOLOv7 YOLO - You Only Look Once là một trong những mô hình phát hiện vật tốt nhất ở thời điểm hiện tại. Dù đều được gọi là YOLO, các phiên bản của mô hình này đều có những cải tiến rất đáng kể sau mỗi phiên bản. Sau 3 phiên bản của tác giả chính Josêph Rêdmon là YOLOv1 đến v3, tính đến thời điểm hiện tại đã có thêm những phiên bản khác như: YOLOv4 của Alexey Bochkovskiy, YOLOv5 của Glenn Jocher, YOLOv6 được của nhóm nghiên cứu Meituan, YOLOv7 Chien-Yao Wang, Alexey và Bochkovskiy.

YOLOv7 là mô hình one stage detectors (cùng lúc sẽ thực hiện cả việc tìm kiếm bounding box và classification cho một vật thể), chính vì đặc điểm này mà YOLO có tốc độ khá nhanh và độ chính xác cao.2 Kiến trúc YOLOv7 Kiến trúc của YOLO nói chung: Hình 2.1 Kiến trúc của YOLO Các khung hình ảnh đầu vào được trích xuất đặc trưng thông qua một backbonê, sau đó được kết hợp và trộn lẫn trong neck. Cuối cùng YOLO sẽ dự đoán các hộp giới hạn (bounding boxes), các class và các đối tượng của các hộp giới hạn. Input layêr là đầu vào của ảnh. Nó có thể là một mảng hai chiều với ba kênh màu đỏ, xanh lá cây và xanh dương.

Nó cũng có thể là đầu vào video với mỗi khung hình của video. 6 Backbone là một mạng nêural sâu được tạo thành chủ yếu từ các lớp tích chập. Mục tiêu chính của backbone là trích xuất các đặc trưng cần thiết. Lựa chọn backbone là một bước quan trọng vì nó sẽ cải thiện hiệu suất của việc phát hiện đối tượng.

Thường, các mạng neural tiền huấn luyện được sử dụng để huấn luyện backbone. Một số mạng được sử dụng phổ biến là VGG-16, Imagênêt, Routinênêt, Rêsnêt50, vv. Đối với YOLOv7 được sử dụng các trọng số tiền huấn luyện sau đây: VoVNêt, CSPVONêt, ÊLAN. Backbone hoàn chỉnh của YOLOv7 là tập hợp của các ELAN Block và các Transition block Hình 2.2 Cấu trúc Backbone của YOLOv7 Vai trò cần thiết của neck là thu thập các feature map từ các giai đoạn khác nhau.

Thông thường, neck bao gồm một số phần bottom-up và một số phần top-down để tăng cường tính năng. Chúng ta sử dụng FPN, RFB và PAN để tăng cường. Neck của Yolov7 chủ yếu bao gồm các khối: SPPCSPC, PANet, RepConv.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu với tiêu đề "Ứng Dụng Thị Giác Máy Tính Trong Tính Tiền Tự Động Tại Cửa Hàng" khám phá cách công nghệ thị giác máy tính có thể cải thiện quy trình tính tiền tự động tại các cửa hàng. Bằng cách áp dụng các thuật toán nhận diện hình ảnh, tài liệu này không chỉ giúp tăng tốc độ thanh toán mà còn giảm thiểu sai sót trong quá trình tính tiền, mang lại trải nghiệm mua sắm thuận tiện hơn cho khách hàng.

Độc giả sẽ tìm thấy nhiều lợi ích từ việc áp dụng công nghệ này, bao gồm tiết kiệm thời gian, nâng cao hiệu quả quản lý và cải thiện sự hài lòng của khách hàng. Để mở rộng thêm kiến thức về các ứng dụng công nghệ trong lĩnh vực bán lẻ, bạn có thể tham khảo tài liệu "Luận văn thạc sĩ kỹ thuật điều khiển và tự động hóa ứng dụng thị giác máy tính trong tính tiền tự động trong cửa hàng", nơi cung cấp cái nhìn sâu sắc hơn về các giải pháp tự động hóa trong ngành bán lẻ.

Ngoài ra, tài liệu "Luận văn tốt nghiệp xây dựng chương trình quản lý bán lẻ cho siêu thị mini huong mart ở hải phòng" cũng sẽ giúp bạn hiểu rõ hơn về cách quản lý hiệu quả trong môi trường bán lẻ. Cuối cùng, tài liệu "Đồ án hcmute xây dựng và phát triển hệ thống siêu thị minimart online litimart" sẽ mang đến cái nhìn về sự phát triển của các hệ thống bán lẻ trực tuyến, một xu hướng đang ngày càng trở nên phổ biến.

Những tài liệu này không chỉ mở rộng kiến thức của bạn về công nghệ trong bán lẻ mà còn cung cấp những góc nhìn đa dạng về cách thức cải tiến quy trình kinh doanh.

#trải nghiệm khách hàng

#thị giác máy tính

#phân tích hình ảnh

#công nghệ thanh toán

#cửa hàng thông minh

#hệ thống POS

Chủ đề

Ứng dụng AI trong kinh doanh

Công nghệ trong bán lẻ

tự động hóa quy trình thanh toán

tương lai của cửa hàng thông minh