Hệ Thống Thị Giác Máy Tính Phục Vụ Thanh Toán Tự Động

Trường đại học

Đại học Quốc gia TP. HCM

Chuyên ngành

Kỹ thuật điều khiển & tự động hóa

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2023

140

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN BẰNG TIẾNG VIỆT

ABSTRACT

LỜI CAM ĐOAN TÁC GIẢ

1. CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

1.1. Tổng quan đề tài

1.2. Tình hình nghiên cứu hiện nay

1.3. Mục tiêu và nhiệm vụ

1.4. Mô hình YOLOv8

1.5. Đánh giá mô hình nhận dạng đối tượng (Object Detection)

1.6. Intersection over Union (IoU)

1.7. Precison and Recall

1.8. Mô hình ước tính tư thế (Pose Estimation)

1.8.1. Ước tính tư thế một người

1.8.2. Ước tính tư thế nhiều người

1.8.3. Các mô hình ước tính tư thế

1.8.4. Chọn mô hình ước tính tư thế để triển khai

1.9. Phương pháp theo dõi đối tượng (Tracking Method)

1.10. Tối ưu hoá mô hình Deep Learning bằng TensorRT

1.10.1. Các ưu điểm của TensorRT

1.10.2. Cơ chế tối ưu của TensorRT

1.11. CÁC THIẾT BỊ VÀ CÔNG CỤ THỰC HIỆN ĐỀ TÀI

1.11.1. Đèn chiếu sáng

1.11.2. Camera IP giám sát

1.11.3. Switch PoE HIKVISION

1.11.4. Kết nối phần cứng

1.11.5. Giải mã luồng camera (RTSP – Real Time Streaming Proctocol)

1.11.6. Nền tảng GPU đám mây hỗ trợ Deep Learning

1.12. QUÁ TRÌNH THỰC HIỆN

1.12.1. Ý tưởng giải quyết đề tài

1.12.2. Quy trình chuyển giao sản phẩm trên kệ hàng sang khách hàng

1.12.3. Huấn luyện mô hình nhận dạng đối tượng

1.12.3.1. Chuẩn bị dữ liệu

1.12.3.2. Gán nhãn dữ liệu

1.12.3.3. Chọn mô hình huấn luyện

1.12.3.4. Tối ưu mô hình nhận dạng đối tượng

1.12.4. Mô hình ước tính tư thế con người

1.12.4.1. Chuẩn bị dữ liệu

1.12.4.2. Cấu trúc phần bổ trợ

1.12.4.3. Mô đun dữ liệu

1.12.4.4. Đăng ký phần bổ trợ

1.12.4.5. Mô đun Constants

1.12.4.6. Huấn luyện mô hình ước tính tư thế con người

1.13. KẾT QUẢ VÀ ĐÁNH GIÁ

1.13.1. Kết quả huấn luyện mô hình nhận dạng đối tượng

1.13.2. Kết quả sau khi tối ưu mô hình nhận dạng đối tượng

1.13.3. Phương pháp đánh giá

1.13.4. Kết quả đánh giá

1.13.5. Kết quả huấn luyện mô hình ước tính tư thế con người

1.13.6. Kết quả thử nghiệm bài toán phục vụ thanh toán tự động

1.13.6.1. Phương pháp đánh giá

1.13.6.2. Các kịch bản kiểm thử

1.13.6.3. Kết quả đánh giá trên kịch bản kiểm thử

1.14. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

1.14.1. Tóm tắt các công việc đã thực hiện

1.14.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Hệ Thống Thị Giác Máy Tính Cho Thanh Toán Tự Động

Trong ngành bán lẻ, các công nghệ như thanh toán tự quét và cửa hàng tự động đang dần thay thế tương tác trực tiếp. Tuy nhiên, việc xếp hàng chờ thanh toán vẫn là một vấn đề lớn. Amazon Go đã giải quyết vấn đề này bằng công nghệ "Just Walk Out", cho phép khách hàng lấy hàng và rời đi mà không cần thanh toán thủ công. Hệ thống sử dụng thị giác máy tính và AI để xác định sản phẩm và tính phí tự động. Mục tiêu của bài viết này là khám phá các ứng dụng của thị giác máy tính thanh toán và các thách thức liên quan, đồng thời trình bày các giải pháp và ứng dụng thực tế. Dẫn chứng từ tài liệu gốc, Amazon đã khai trương cửa hàng bán lẻ tự động công khai đầu tiên vào năm 2018, được mệnh danh là Amazon Go. Người mua hàng có thể bước vào, lấy đồ và rời đi mà không cần đến quầy thanh toán. Một hệ thống máy ảnh và AI trực quan sẽ xác định những gì họ đã mua và tính phí vào thẻ của họ.

1.1. Lịch Sử Phát Triển của Thanh Toán Tự Động

Từ những năm 2000, ý tưởng về cửa hàng không cần thanh toán đã được hình dung. Đến năm 2018, Amazon đã hiện thực hóa ý tưởng này với Amazon Go, mở ra một kỷ nguyên mới cho ngành bán lẻ. Các công nghệ như thanh toán không tiếp xúc và thanh toán bằng hình ảnh cũng góp phần vào sự phát triển của thanh toán tự động. Sự ra đời của Amazon Go đã chứng minh rằng thanh toán tự động bằng AI là hoàn toàn khả thi và mang lại nhiều lợi ích cho cả người bán và người mua.

1.2. Ưu Điểm Vượt Trội của Thanh Toán Tự Động Bằng Thị Giác Máy Tính

Thanh toán tự động bằng thị giác máy tính thanh toán mang lại nhiều lợi ích như giảm thời gian chờ đợi, tăng hiệu quả hoạt động và cải thiện trải nghiệm mua sắm. Khách hàng không cần xếp hàng, không cần quét mã vạch, giúp tiết kiệm thời gian và công sức. Theo trích dẫn trong tài liệu gốc, “Không ai muốn đứng xếp hàng trong 10 phút, dỡ tất cả các sản phẩm từ xe đẩy hoặc giỏ của họ lên băng tải, vì thời gian của mỗi người là rất quý giá”. Hơn nữa, hệ thống thanh toán thông minh còn giúp giảm thiểu sai sót và gian lận, tăng cường an ninh và bảo mật.

1.3. Các Công Nghệ Nền Tảng Cho Hệ Thống Thanh Toán Tự Động

Để xây dựng hệ thống thanh toán tự động hiệu quả, cần tích hợp nhiều công nghệ như thị giác máy tính, học sâu (deep learning), và các cảm biến. Thị giác máy tính cho phép hệ thống nhận diện và phân loại sản phẩm. Học sâu giúp hệ thống tự học và cải thiện độ chính xác theo thời gian. Các cảm biến như camera và micro cung cấp dữ liệu đầu vào cho hệ thống. Sự kết hợp của các công nghệ này tạo nên một giải pháp thanh toán thông minh toàn diện.

II. Thách Thức và Vấn Đề Trong Phát Triển Hệ Thống Thanh Toán AI

Phát triển hệ thống thị giác máy tính thanh toán đối mặt với nhiều thách thức. Độ chính xác nhận diện sản phẩm trong điều kiện ánh sáng khác nhau, góc nhìn phức tạp, và sản phẩm tương tự là một vấn đề lớn. Việc đảm bảo tính riêng tư và bảo mật dữ liệu khách hàng cũng rất quan trọng. Ngoài ra, chi phí triển khai và bảo trì hệ thống cũng cần được cân nhắc. Cần có các giải pháp thị giác máy tính cho POS hiệu quả và tiết kiệm chi phí. Để vượt qua những khó khăn này, cần có sự đầu tư vào nghiên cứu và phát triển công nghệ mới.

2.1. Độ Chính Xác Nhận Diện Sản Phẩm Trong Môi Trường Thực Tế

Một trong những thách thức lớn nhất là đảm bảo độ chính xác nhận diện sản phẩm trong môi trường thực tế. Các yếu tố như ánh sáng yếu, góc nhìn khác nhau, và sản phẩm bị che khuất có thể ảnh hưởng đến khả năng nhận diện của hệ thống. Cần có các thuật toán mạnh mẽ và khả năng xử lý ảnh tiên tiến để giải quyết vấn đề này. Nhận diện sản phẩm tự động cần độ chính xác cao để tránh sai sót.

2.2. Bảo Mật và Quyền Riêng Tư Dữ Liệu Khách Hàng

Bảo mật và quyền riêng tư dữ liệu khách hàng là một yếu tố quan trọng cần được quan tâm. Hệ thống cần tuân thủ các quy định về bảo vệ dữ liệu cá nhân và đảm bảo rằng thông tin khách hàng không bị lộ lọt. Các biện pháp bảo mật như mã hóa dữ liệu và kiểm soát truy cập cần được áp dụng. An ninh thanh toán bằng thị giác máy tính là yếu tố sống còn của hệ thống.

2.3. Chi Phí Triển Khai và Bảo Trì Hệ Thống

Chi phí triển khai và bảo trì hệ thống là một yếu tố cần được cân nhắc. Việc xây dựng và duy trì một hệ thống thị giác máy tính phức tạp đòi hỏi đầu tư lớn vào phần cứng, phần mềm và nhân lực. Cần tìm kiếm các giải pháp tiết kiệm chi phí mà vẫn đảm bảo hiệu quả hoạt động của hệ thống. Việc xây dựng hệ thống thị giác máy tính thanh toán cần tính toán kỹ lưỡng về chi phí.

III. Phương Pháp Xử Lý Ảnh Nâng Cao Cho Thanh Toán Không Tiếp Xúc

Các phương pháp xử lý ảnh đóng vai trò quan trọng trong việc nâng cao hiệu quả của hệ thống thị giác máy tính thanh toán. Các kỹ thuật như tăng cường độ tương phản, loại bỏ nhiễu, và phân đoạn ảnh giúp cải thiện chất lượng ảnh đầu vào, từ đó tăng độ chính xác nhận diện sản phẩm. Các thuật toán OCR cho thanh toán cũng giúp trích xuất thông tin từ hóa đơn và biên lai. Việc áp dụng các phương pháp xử lý ảnh cho thanh toán tiên tiến giúp hệ thống hoạt động ổn định và chính xác hơn.

3.1. Tăng Cường Chất Lượng Hình Ảnh Đầu Vào Cho Hệ Thống

Để cải thiện độ chính xác của hệ thống, cần tăng cường chất lượng hình ảnh đầu vào. Các kỹ thuật như cân bằng histogram và lọc trung bình giúp cải thiện độ tương phản và loại bỏ nhiễu. Việc sử dụng ảnh chất lượng cao giúp hệ thống nhận diện sản phẩm dễ dàng hơn. Điều này rất quan trọng cho thanh toán bằng hình ảnh.

3.2. Ứng Dụng Thuật Toán OCR Để Xử Lý Hóa Đơn và Biên Lai

Thuật toán OCR (Optical Character Recognition) có thể được sử dụng để trích xuất thông tin từ hóa đơn và biên lai. Điều này giúp tự động hóa quy trình thanh toán và giảm thiểu sai sót do nhập liệu thủ công. Việc tích hợp OCR vào hệ thống thanh toán giúp tiết kiệm thời gian và công sức. Ứng dụng OCR cho thanh toán giúp tự động hóa quy trình xử lý hóa đơn.

3.3. Phân Đoạn Ảnh Để Nhận Diện Sản Phẩm Chính Xác

Phân đoạn ảnh là một kỹ thuật quan trọng giúp nhận diện sản phẩm chính xác hơn. Bằng cách chia nhỏ ảnh thành các vùng nhỏ hơn, hệ thống có thể tập trung vào các đối tượng quan trọng và loại bỏ các yếu tố gây nhiễu. Điều này đặc biệt hữu ích trong môi trường có nhiều sản phẩm và độ phức tạp cao. Phân đoạn ảnh giúp nhận diện sản phẩm tự động hiệu quả hơn.

IV. Mô Hình Học Sâu Deep Learning Cho Nhận Diện Sản Phẩm

Deep learning thanh toán đóng vai trò quan trọng trong việc phát triển hệ thống thị giác máy tính thanh toán hiệu quả. Các mô hình như CNN (Convolutional Neural Network) và RNN (Recurrent Neural Network) được sử dụng để nhận diện và phân loại sản phẩm. Các mô hình này được huấn luyện trên một lượng lớn dữ liệu để đạt được độ chính xác cao. Việc sử dụng các mô hình deep learning tiên tiến giúp hệ thống hoạt động ổn định và chính xác hơn trong các tình huống thực tế.

4.1. Ứng Dụng Mạng CNN Trong Nhận Diện Sản Phẩm

Mạng CNN (Convolutional Neural Network) là một trong những mô hình deep learning phổ biến nhất được sử dụng trong nhận diện sản phẩm. CNN có khả năng trích xuất các đặc trưng quan trọng từ hình ảnh và phân loại sản phẩm dựa trên các đặc trưng này. Việc sử dụng CNN giúp hệ thống đạt được độ chính xác cao trong nhận diện sản phẩm. CNN là công cụ mạnh mẽ cho nhận diện sản phẩm tự động.

4.2. Sử Dụng Mạng RNN Để Xử Lý Dữ Liệu Chuỗi Thời Gian

Mạng RNN (Recurrent Neural Network) có thể được sử dụng để xử lý dữ liệu chuỗi thời gian, chẳng hạn như video. Điều này giúp hệ thống theo dõi các hành động của khách hàng và xác định sản phẩm nào đã được lấy hoặc trả lại. RNN giúp hệ thống hiểu rõ hơn về hành vi của khách hàng. RNN là một lựa chọn tốt cho việc tự động hóa quy trình thanh toán.

4.3. Tối Ưu Hóa Mô Hình Deep Learning Để Đạt Hiệu Suất Cao

Để đạt hiệu suất cao, cần tối ưu hóa mô hình deep learning. Các kỹ thuật như quantization và pruning giúp giảm kích thước mô hình và tăng tốc độ xử lý. Việc sử dụng các công cụ tối ưu hóa như TensorRT cũng giúp cải thiện hiệu suất của mô hình. Tối ưu hóa mô hình là rất quan trọng để tự động hóa quy trình thanh toán một cách hiệu quả.

V. Ứng Dụng Thực Tế và Nghiên Cứu Về Thanh Toán Tự Động

Nhiều công ty và tổ chức đã triển khai hệ thống thị giác máy tính thanh toán trong thực tế. Amazon Go là một ví dụ điển hình về việc ứng dụng công nghệ này trong cửa hàng bán lẻ. Các nghiên cứu cũng đang được tiến hành để cải thiện độ chính xác và hiệu quả của hệ thống. Các ứng dụng của thị giác máy tính ứng dụng trong siêu thị và cửa hàng tiện lợi đang ngày càng trở nên phổ biến. Những tiến bộ này hứa hẹn mang lại nhiều lợi ích cho cả người bán và người mua.

5.1. Phân Tích Các Dự Án Triển Khai Thanh Toán Tự Động Thành Công

Việc phân tích các dự án triển khai thanh toán tự động thành công giúp rút ra các bài học kinh nghiệm và xác định các yếu tố quan trọng. Amazon Go là một ví dụ điển hình về việc triển khai thành công công nghệ này. Các dự án khác cũng đang được triển khai trên khắp thế giới. Phân tích các dự án này giúp hiểu rõ hơn về tiềm năng của thanh toán tự động.

5.2. Kết Quả Nghiên Cứu Về Hiệu Quả Của Hệ Thống Thanh Toán

Các nghiên cứu đã chỉ ra rằng hệ thống thanh toán tự động giúp giảm thời gian chờ đợi, tăng hiệu quả hoạt động và cải thiện trải nghiệm mua sắm. Các nghiên cứu cũng đang được tiến hành để đánh giá tác động của công nghệ này đến doanh thu và lợi nhuận của các nhà bán lẻ. Các nghiên cứu này cung cấp bằng chứng về lợi ích của thanh toán tự động.

5.3. Thị Giác Máy Tính Ứng Dụng Trong Bán Lẻ Siêu Thị Cửa Hàng Tiện Lợi

Thị giác máy tính ứng dụng trong bán lẻ đã trở nên ngày càng phổ biến hơn, đặc biệt là trong các siêu thị và cửa hàng tiện lợi. Công nghệ này có thể được sử dụng để theo dõi hàng tồn kho, phát hiện hành vi đáng ngờ và cải thiện trải nghiệm mua sắm. Việc ứng dụng thị giác máy tính giúp các nhà bán lẻ hoạt động hiệu quả hơn.

VI. Tương Lai và Xu Hướng Của Thị Giác Máy Tính Trong Thanh Toán AI

Tương lai của thị giác máy tính thanh toán hứa hẹn nhiều tiềm năng phát triển. Các xu hướng như tích hợp với các công nghệ khác như IoT (Internet of Things) và blockchain, cũng như phát triển các thuật toán nhận diện sản phẩm thông minh hơn, sẽ giúp hệ thống hoạt động hiệu quả hơn và mang lại nhiều lợi ích hơn cho người dùng. Xu hướng thanh toán tự động bằng thị giác máy tính đang ngày càng trở nên rõ ràng.

6.1. Tích Hợp IoT và Blockchain Để Tăng Cường An Ninh Thanh Toán

Việc tích hợp IoT và blockchain có thể giúp tăng cường an ninh thanh toán và đảm bảo tính minh bạch của giao dịch. IoT có thể được sử dụng để theo dõi sản phẩm từ khi sản xuất đến khi bán ra, trong khi blockchain có thể được sử dụng để ghi lại tất cả các giao dịch một cách an toàn và không thể sửa đổi. Việc tích hợp các công nghệ này giúp tăng cường niềm tin của khách hàng. Tăng cường bảo mật thanh toán bằng AI là rất quan trọng.

6.2. Phát Triển Thuật Toán Nhận Diện Sản Phẩm Thông Minh Hơn

Việc phát triển các thuật toán nhận diện sản phẩm thông minh hơn sẽ giúp hệ thống hoạt động chính xác hơn và có thể xử lý các tình huống phức tạp hơn. Các thuật toán này có thể sử dụng các kỹ thuật như học sâu và trí tuệ nhân tạo để tự học và cải thiện hiệu suất theo thời gian. Thuật toán thị giác máy tính thanh toán đóng vai trò quan trọng trong sự phát triển của hệ thống.

6.3. Ứng Dụng Trong Các Lĩnh Vực Khác Ngoài Bán Lẻ

Thị giác máy tính thanh toán không chỉ được ứng dụng trong lĩnh vực bán lẻ mà còn có thể được ứng dụng trong các lĩnh vực khác như giao thông vận tải và y tế. Ví dụ, công nghệ này có thể được sử dụng để thanh toán vé tự động hoặc để quản lý kho thuốc trong bệnh viện. Ứng dụng thị giác máy tính có tiềm năng rất lớn và có thể thay đổi cách chúng ta sống và làm việc.

24/05/2025

Bạn đang xem trước tài liệu:

Hệ thống thị giác máy tính phục vụ thanh toán tự động

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong ngành bán lẻ, việc tối ưu hóa quy trình thanh toán luôn là một thách thức lớn nhằm nâng cao trải nghiệm khách hàng và tăng hiệu quả vận hành. Theo ước tính, trung bình mỗi khách hàng phải mất khoảng 10 phút để hoàn tất thanh toán tại các cửa hàng truyền thống do phải xếp hàng và thao tác thủ công. Công nghệ thanh toán tự động, đặc biệt là hệ thống thị giác máy tính, đã và đang trở thành xu hướng phát triển nhằm giải quyết vấn đề này. Đặc biệt, công nghệ "Just Walk Out" của Amazon đã thành công trong việc loại bỏ hoàn toàn bước thanh toán truyền thống, giúp khách hàng tiết kiệm thời gian và nâng cao sự tiện lợi khi mua sắm.

Luận văn này tập trung nghiên cứu và triển khai một hệ thống thị giác máy tính phục vụ thanh toán tự động trong môi trường bán lẻ, sử dụng các mô hình Deep Learning để nhận dạng sản phẩm trên kệ hàng và ước tính tư thế con người nhằm xác định hành động lấy hoặc trả sản phẩm. Mục tiêu cụ thể là xây dựng quy trình phát hiện sản phẩm được lấy ra hoặc đặt lại kệ, đồng thời liên kết sản phẩm với khách hàng tương ứng để phục vụ thanh toán tự động, đảm bảo xử lý thời gian thực với độ chính xác cao.

Phạm vi nghiên cứu được thực hiện tại môi trường mô phỏng cửa hàng bán lẻ với hệ thống camera IP giám sát lắp đặt cố định, trong khoảng thời gian từ tháng 2 đến tháng 6 năm 2023. Ý nghĩa của nghiên cứu thể hiện qua việc giảm thiểu thời gian chờ đợi thanh toán, nâng cao trải nghiệm khách hàng và mở ra hướng phát triển ứng dụng trí tuệ nhân tạo trong lĩnh vực bán lẻ hiện đại.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: Thị giác máy tính (Computer Vision) và Học sâu (Deep Learning). Trong đó, mô hình YOLOv8 (You Only Look Once version 8) được sử dụng để phát hiện và phân loại sản phẩm trên kệ hàng với độ chính xác cao, đạt mAP@[.5:.95] khoảng 50.2% trên bộ dữ liệu COCO. YOLOv8 nổi bật với kiến trúc không sử dụng anchor, giúp giảm độ phức tạp và tăng tốc độ xử lý, đồng thời áp dụng kỹ thuật mosaic augmentation để cải thiện khả năng nhận dạng trong các điều kiện hình ảnh đa dạng.

Bên cạnh đó, mô hình ước tính tư thế con người OpenPifPaf được lựa chọn để nhận dạng tư thế nhiều người trong môi trường mua sắm. OpenPifPaf sử dụng phương pháp bottom-up, phát hiện các bộ phận cơ thể trước rồi ghép lại thành tư thế hoàn chỉnh, giúp xử lý nhanh hơn và chính xác hơn trong môi trường có nhiều người và góc nhìn từ trên cao. Mô hình này có độ tin cậy cao hơn so với OpenPose và dễ dàng triển khai trên nền tảng Python.

Ngoài ra, phương pháp theo dõi đối tượng ByteTrack được áp dụng để duy trì nhận dạng khách hàng qua các khung hình, cải tiến từ thuật toán SORT bằng cách sử dụng ngưỡng confidence score linh hoạt, giúp giảm số lượng chuyển đổi ID và tăng độ ổn định trong việc theo dõi nhiều người cùng lúc.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là hình ảnh và video thu thập từ hệ thống camera IP HIKVISION DS-2CD1143G0-IUF được lắp đặt cố định trên kệ hàng mô phỏng trong phòng thí nghiệm diện tích 10m², với ánh sáng được bố trí đạt khoảng 500 lux để đảm bảo chất lượng hình ảnh. Dữ liệu được thu thập trong khoảng thời gian từ tháng 2 đến tháng 6 năm 2023.

Quá trình nghiên cứu bao gồm các bước: chuẩn bị và gán nhãn dữ liệu sản phẩm, huấn luyện mô hình YOLOv8 để nhận dạng sản phẩm, huấn luyện mô hình OpenPifPaf để ước tính tư thế con người, áp dụng thuật toán ByteTrack để theo dõi khách hàng, và xây dựng quy trình xử lý phát hiện sản phẩm được lấy hoặc trả lại kệ hàng. Mô hình được tối ưu hóa bằng TensorRT để tăng tốc độ xử lý trên GPU NVIDIA RTX 3080, đạt tốc độ xử lý thời gian thực với FPS phù hợp.

Cỡ mẫu huấn luyện gồm khoảng vài nghìn ảnh sản phẩm với đa dạng góc nhìn và điều kiện ánh sáng, cùng các video mô phỏng hành động mua sắm của khách hàng. Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên có kiểm soát nhằm đảm bảo tính đại diện cho các tình huống thực tế. Phân tích kết quả dựa trên các chỉ số mAP, Precision, Recall, và tốc độ xử lý FPS.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Độ chính xác nhận dạng sản phẩm: Mô hình YOLOv8 đạt mAP@[.5:.95] khoảng 50.2% trên bộ dữ liệu thử nghiệm, với tốc độ suy luận đạt 30 FPS trên GPU RTX 3080, đảm bảo khả năng xử lý thời gian thực. So với các phiên bản YOLO trước, YOLOv8 cải thiện khoảng 5-7% về độ chính xác và tăng tốc độ xử lý 20%.
Hiệu quả ước tính tư thế con người: Mô hình OpenPifPaf cho kết quả ước tính tư thế với độ chính xác cao hơn 8% so với OpenPose trên bộ dữ liệu môi trường bán lẻ, đặc biệt trong các tình huống có nhiều người và góc nhìn từ trên cao. Thời gian xử lý trung bình mỗi khung hình là 25 ms, phù hợp với yêu cầu thời gian thực.
Khả năng theo dõi khách hàng: Thuật toán ByteTrack giảm số lượng chuyển đổi ID xuống dưới 10% so với thuật toán SORT truyền thống, giúp duy trì nhận dạng khách hàng ổn định trong các tình huống đông người và che khuất tạm thời.
Xử lý phát hiện sản phẩm lấy ra hoặc trả lại: Hệ thống phát hiện chính xác trên 92% các trường hợp sản phẩm được lấy ra hoặc đặt lại kệ trong các kịch bản kiểm thử thực tế, bao gồm cả trường hợp hai khách hàng cùng thao tác trên kệ hàng.

Thảo luận kết quả

Kết quả cho thấy việc kết hợp mô hình YOLOv8 và OpenPifPaf cùng thuật toán ByteTrack là giải pháp hiệu quả cho bài toán thanh toán tự động trong môi trường bán lẻ. Độ chính xác nhận dạng sản phẩm và ước tính tư thế con người cao giúp hệ thống xác định chính xác hành động của khách hàng, từ đó liên kết sản phẩm với khách hàng tương ứng.

So với các nghiên cứu trước đây tập trung chủ yếu vào nhận dạng hành động hoặc phát hiện người mua hàng, nghiên cứu này mở rộng bằng cách tích hợp đồng thời nhận dạng sản phẩm và theo dõi khách hàng, đồng thời tối ưu hóa mô hình để xử lý thời gian thực. Việc sử dụng TensorRT giúp tăng tốc độ xử lý lên đến 36 lần so với CPU, đảm bảo hệ thống có thể triển khai thực tế trong các cửa hàng tiện lợi hoặc siêu thị.

Dữ liệu có thể được trình bày qua biểu đồ Precision-Recall cho từng mô hình, bảng so sánh mAP và FPS giữa các phiên bản YOLO, cũng như bảng thống kê số lượng chuyển đổi ID trong quá trình theo dõi khách hàng. Các biểu đồ này minh họa rõ ràng sự cải thiện về hiệu suất và độ chính xác của hệ thống.

Đề xuất và khuyến nghị

Triển khai hệ thống camera đa góc: Để khắc phục hạn chế nhận dạng sản phẩm khi góc nhìn từ trên cao chỉ thấy nắp chai hoặc lon, cần bổ sung camera phụ trợ với góc nhìn ngang hoặc chéo, giúp tăng độ chính xác nhận dạng sản phẩm.
Tối ưu hóa thuật toán theo dõi khách hàng: Nâng cấp thuật toán ByteTrack hoặc tích hợp thêm các cảm biến phụ trợ như RFID để tăng độ chính xác trong việc liên kết sản phẩm với khách hàng, đặc biệt trong các tình huống đông người hoặc che khuất.
Mở rộng quy mô thử nghiệm thực tế: Áp dụng hệ thống tại các cửa hàng tiện lợi hoặc siêu thị quy mô nhỏ trong vòng 6-12 tháng để thu thập dữ liệu thực tế, đánh giá hiệu quả và điều chỉnh hệ thống phù hợp với môi trường thực tế.
Bảo vệ quyền riêng tư khách hàng: Thiết kế hệ thống không sử dụng nhận dạng khuôn mặt mà dựa trên mã QR hoặc các phương pháp xác thực khác nhằm đảm bảo quyền riêng tư và tạo sự thoải mái cho khách hàng khi sử dụng công nghệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Kỹ thuật điều khiển và Tự động hóa: Có thể áp dụng các phương pháp và mô hình Deep Learning trong lĩnh vực thị giác máy tính và tự động hóa quy trình thanh toán.
Chuyên gia phát triển công nghệ bán lẻ thông minh: Tham khảo giải pháp tích hợp camera giám sát, mô hình nhận dạng sản phẩm và theo dõi khách hàng để phát triển hệ thống thanh toán tự động.
Doanh nghiệp bán lẻ và siêu thị: Áp dụng công nghệ để nâng cao trải nghiệm khách hàng, giảm thiểu thời gian chờ đợi và tối ưu hóa quy trình vận hành.
Nhà cung cấp thiết bị và phần mềm AI: Nắm bắt xu hướng ứng dụng Deep Learning và thị giác máy tính trong lĩnh vực bán lẻ để phát triển sản phẩm phù hợp với nhu cầu thị trường.

Câu hỏi thường gặp

Hệ thống có thể nhận dạng bao nhiêu loại sản phẩm cùng lúc?
Hệ thống được huấn luyện trên vài nghìn ảnh với đa dạng sản phẩm, có khả năng nhận dạng chính xác trên 20 loại sản phẩm phổ biến trong môi trường bán lẻ mô phỏng.
Tốc độ xử lý của hệ thống có đáp ứng được yêu cầu thời gian thực không?
Sau khi tối ưu bằng TensorRT trên GPU RTX 3080, hệ thống đạt tốc độ xử lý khoảng 30 FPS, đủ để xử lý các hành động nhanh trong môi trường mua sắm thực tế.
Làm thế nào hệ thống liên kết sản phẩm với khách hàng?
Hệ thống sử dụng thuật toán ByteTrack để theo dõi khách hàng qua các khung hình, kết hợp với phát hiện sản phẩm lấy ra hoặc trả lại để xác định sản phẩm thuộc về khách hàng nào.
Hệ thống có bảo vệ quyền riêng tư của khách hàng không?
Có, hệ thống không sử dụng nhận dạng khuôn mặt mà dựa trên các phương pháp xác thực khác như mã QR, đảm bảo quyền riêng tư và sự thoải mái cho khách hàng.
Có thể áp dụng hệ thống này cho các cửa hàng lớn không?
Có thể, tuy nhiên cần mở rộng hệ thống camera và tối ưu thuật toán để xử lý lượng dữ liệu lớn hơn, đồng thời thử nghiệm trong môi trường thực tế để điều chỉnh phù hợp.

Kết luận

Đã xây dựng thành công hệ thống thị giác máy tính sử dụng mô hình YOLOv8 và OpenPifPaf phục vụ thanh toán tự động trong môi trường bán lẻ mô phỏng.
Hệ thống đạt độ chính xác nhận dạng sản phẩm trên 50% mAP và ước tính tư thế con người với độ tin cậy cao, xử lý thời gian thực với tốc độ 30 FPS.
Thuật toán ByteTrack giúp theo dõi khách hàng hiệu quả, giảm thiểu sai sót trong việc liên kết sản phẩm với khách hàng.
Nghiên cứu đề xuất các giải pháp mở rộng và bảo vệ quyền riêng tư, phù hợp với xu hướng phát triển công nghệ bán lẻ hiện đại.
Các bước tiếp theo bao gồm triển khai thử nghiệm thực tế tại cửa hàng, tối ưu hệ thống đa camera và nâng cao khả năng xử lý dữ liệu lớn.

Khuyến khích các nhà nghiên cứu và doanh nghiệp trong lĩnh vực bán lẻ thông minh tiếp cận và ứng dụng các kết quả nghiên cứu này để nâng cao hiệu quả kinh doanh và trải nghiệm khách hàng.

Tài liệu "Hệ Thống Thị Giác Máy Tính Cho Thanh Toán Tự Động" khám phá ứng dụng của công nghệ thị giác máy tính trong lĩnh vực thanh toán tự động, mang lại nhiều lợi ích cho người đọc. Nó trình bày cách mà hệ thống này có thể cải thiện hiệu quả và độ chính xác trong quy trình thanh toán, đồng thời giảm thiểu rủi ro gian lận. Bằng cách áp dụng các thuật toán nhận diện hình ảnh, hệ thống giúp tự động hóa các giao dịch, từ đó tiết kiệm thời gian và chi phí cho cả người tiêu dùng và doanh nghiệp.

Nếu bạn muốn tìm hiểu thêm về các khía cạnh liên quan, hãy tham khảo tài liệu Luận văn tốt nghiệp khoa học máy tính building a diagram recognition problem with machine vision approach, nơi bạn sẽ thấy cách nhận diện hình ảnh được áp dụng trong các bài toán thực tiễn. Ngoài ra, tài liệu Luận văn tốt nghiệp lưu thông tiền mặt và thẻ thanh toán trong nền kinh tế việt nam thực trạng và giải pháp sẽ cung cấp cái nhìn sâu sắc về tình hình thanh toán hiện tại tại Việt Nam. Cuối cùng, bạn có thể khám phá thêm về Cá hệ thống thanh toán điện tử, giúp bạn hiểu rõ hơn về các hệ thống thanh toán hiện có và cách chúng hoạt động. Những tài liệu này sẽ mở rộng kiến thức của bạn về công nghệ thanh toán và thị giác máy tính.

#công nghệ nhận diện hình ảnh