Dự án CNTT: Mạng Máy Tính & Truyền Thông Dữ Liệu - ĐH Tôn Đức Thắng

Dự án công nghệ thông tin về mạng máy tính và truyền thông dữ liệu: Tìm hiểu kiến thức chuyên sâu, ứng dụng thực tế và xu hướng phát triển mới nhất.

Trường đại học

Trường Đại học Tôn Đức Thắng

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

Dự án công nghệ thông tin

2024

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC TÔN ĐỨC THẮNG

TÓM TẮT

MỤC LỤC

DANH MỤC HÌNH VẼ

DANH MỤC BẢNG BIỂU

DANH MỤC CÁC CHỮ VIẾT TẮT

1. CHƯƠNG 1: LÝ DO CHỌN ĐỀ TÀI

1.1. Thị giác máy tính và bài toán Face Recognition

1.2. Thị giác máy tính

1.3. Bài toán Face Recognition

1.4. Mạng nơ ron tích chập

1.5. Dữ liệu phân tán

1.6. Thuật toán Locality Sensitive Hashing (LSH)

1.7. Bài toán Nearest Neighbor Search (NNS)

1.8. Locality Sensitive Hashing (LSH)

1.9. Ứng dụng di động

2. MÔ HÌNH TRÍCH XUẤT ĐẶC TRƯNG KHUÔN MẶT

2.1. Tổng quan và tiền sử lý dữ liệu

2.2. Xây dựng mô hình

2.3. Trích xuất đặc trưng véc to ảnh

3. MÔ HÌNH TRUY VẤN ẢNH SỬ DỤNG LSH

3.1. Thuật toán Bucketed Random Projection

4. HỆ THỐNG ỨNG DỤNG

4.1. Quy trình hoạt động tổng quát

4.2. Nền tảng sử dụng

4.3. Hạn chế và thuận lợi

4.4. Hướng phát triển trong tương lai

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về dự án mạng máy tính truyền thông dữ liệu

Một dự án mạng máy tính & truyền thông dữ liệu là một quy trình toàn diện, bao gồm việc lập kế hoạch, thiết kế, triển khai và quản lý một hệ thống cơ sở hạ tầng mạng. Mục tiêu chính là đảm bảo việc truyền tải thông tin giữa các thiết bị đầu cuối diễn ra một cách hiệu quả, an toàn và đáng tin cậy. Trong bối cảnh công nghệ 4.0, các dự án này không chỉ dừng lại ở việc kết nối máy tính trong một văn phòng (mạng LAN/WAN), mà đã phát triển để hỗ trợ các ứng dụng phức tạp, đòi hỏi khả năng xử lý dữ liệu lớn và độ trễ thấp. Các ứng dụng trí tuệ nhân tạo, như nhận dạng hình ảnh hay xử lý ngôn ngữ tự nhiên, là những ví dụ tiêu biểu. Chúng đòi hỏi một hạ tầng mạng mạnh mẽ để xử lý các luồng dữ liệu khổng lồ giữa máy khách, máy chủ ứng dụng và các Data Center. Một giải pháp mạng doanh nghiệp thành công phải cân bằng được ba yếu tố cốt lõi: hiệu suất, khả năng mở rộng và an ninh. Hiệu suất đảm bảo dữ liệu được truyền đi nhanh chóng. Khả năng mở rộng cho phép hệ thống phát triển cùng với quy mô của tổ chức. An ninh là yếu tố sống còn, bảo vệ dữ liệu nhạy cảm khỏi các mối đe dọa. Việc triển khai một dự án như vậy yêu cầu kiến thức sâu rộng về nhiều lĩnh vực, từ phần cứng như Router và Switch, các giao thức TCP/IP, cho đến phần mềm quản trị mạng và các biện pháp an ninh mạng tiên tiến. Một ví dụ điển hình là dự án "Facial Image Retrieval in Large-scale Datasets" được nghiên cứu tại Đại học Tôn Đức Thắng, nơi một hệ thống mạng phức tạp được xây dựng để hỗ trợ ứng dụng di động truy vấn hình ảnh trên tập dữ liệu lớn, minh chứng cho sự hội tụ giữa truyền thông dữ liệu và trí tuệ nhân tạo.

1.1. Xác định phạm vi và mục tiêu của một dự án mạng

Phạm vi của một dự án mạng xác định ranh giới và các yêu cầu cụ thể. Nó không chỉ là việc kết nối vật lý mà còn là xây dựng một giải pháp mạng doanh nghiệp hoàn chỉnh. Các mục tiêu cần được định lượng rõ ràng, ví dụ: hỗ trợ 500 người dùng đồng thời, đạt thông lượng 10Gbps, và đảm bảo thời gian hoạt động 99.9%. Trong nghiên cứu "Facial Image Retrieval", mục tiêu là "tạo ra mô hình có khả năng nhận diện và truy xuất thông tin từ tập dữ liệu lớn một cách nhanh chóng và chính xác". Điều này đòi hỏi một hạ tầng mạng phải có khả năng xử lý các yêu cầu API từ ứng dụng di động, truyền tải dữ liệu hình ảnh đến backend, và trả về kết quả truy vấn với độ trễ tối thiểu.

1.2. Vai trò của truyền thông dữ liệu trong kỷ nguyên AI

Trong kỷ nguyên AI, truyền thông dữ liệu không còn là một dịch vụ hỗ trợ mà đã trở thành nền tảng cốt lõi. Các mô hình học sâu đòi hỏi khối lượng dữ liệu khổng lồ cho việc huấn luyện và suy luận. Quá trình này tạo ra lưu lượng mạng cực lớn giữa các máy chủ tính toán, hệ thống lưu trữ và thiết bị người dùng. Một hệ thống truyền thông dữ liệu hiệu quả giúp giảm thiểu độ trễ, tăng tốc độ xử lý và cho phép triển khai các ứng dụng thời gian thực. Như trong tài liệu tham khảo, hệ thống nhận dạng khuôn mặt phải xử lý ảnh từ người dùng, gửi đến backend, sau đó backend lại truy vấn đến cơ sở dữ liệu vector lớn, tất cả đều dựa vào một đường truyền ổn định và tốc độ cao.

II. Thách thức chính trong dự án mạng và truyền thông dữ liệu

Việc triển khai một dự án mạng máy tính & truyền thông dữ liệu phải đối mặt với nhiều thách thức, đặc biệt khi làm việc với các hệ thống dữ liệu lớn và phân tán. Thách thức đầu tiên là khả năng mở rộng. Khi số lượng người dùng và khối lượng dữ liệu tăng lên, hệ thống phải có khả năng xử lý mà không làm suy giảm hiệu suất. Điều này đòi hỏi việc thiết kế mạng máy tính phải có tầm nhìn xa. Thách thức thứ hai là an ninh mạng. Các hệ thống phân tán với nhiều điểm truy cập là mục tiêu hấp dẫn cho các cuộc tấn công. Việc bảo vệ dữ liệu truyền đi và dữ liệu lưu trữ yêu cầu các biện pháp phức tạp như mã hóa, Tường lửa (Firewall) và mạng riêng ảo (Virtual Private Network - VPN). Một thách thức lớn khác là giám sát hiệu suất mạng. Việc xác định các điểm nghẽn cổ chai và tối ưu hóa luồng dữ liệu là một công việc liên tục. Đặc biệt với các ứng dụng AI, độ trễ dù chỉ vài mili giây cũng có thể ảnh hưởng nghiêm trọng đến trải nghiệm người dùng. Tài liệu nghiên cứu "Facial Image Retrieval" đã chỉ ra những khó khăn thực tế: "việc huấn luyện mô hình tiêu tốn rất nhiều thời gian và tài nguyên", và việc "triển khai chúng vào thực tế cũng gặp nhiều khó khăn về tốc độ và tài nguyên". Điều này nhấn mạnh rằng hạ tầng mạng và năng lực tính toán phải được xem xét song song để đảm bảo dự án thành công. Cuối cùng, việc tích hợp nhiều công nghệ khác nhau (như PySpark, FastAPI, Android) cũng tạo ra sự phức tạp trong quản trị mạng và bảo trì hệ thống.

2.1. Quản lý và xử lý các tập dữ liệu quy mô lớn

Dữ liệu lớn là một thách thức cốt lõi. Tài liệu đề cập đến việc sử dụng Hadoop và Spark, những công nghệ được thiết kế để xử lý dữ liệu phân tán. Spark, với khái niệm Resilient Distributed Dataset (RDD), cho phép xử lý dữ liệu trên bộ nhớ (RAM), giúp tăng tốc đáng kể so với Hadoop. Trong dự án "Facial Image Retrieval", PySpark được sử dụng để triển khai thuật toán LSH, một phương pháp hiệu quả để truy vấn trên không gian nhiều chiều. Việc này cho thấy quản trị mạng không chỉ là quản lý kết nối, mà còn là quản lý luồng dữ liệu qua các cụm xử lý phân tán.

2.2. Đảm bảo an ninh mạng và tính toàn vẹn của dữ liệu

Một hệ thống mạng phân tán mở ra nhiều vectơ tấn công. An ninh mạng là ưu tiên hàng đầu. Dữ liệu hình ảnh khuôn mặt là thông tin cá nhân nhạy cảm, cần được bảo vệ nghiêm ngặt. Hệ thống phải triển khai các cơ chế xác thực mạnh mẽ cho các lệnh gọi API. Dữ liệu truyền giữa ứng dụng di động và backend cần được mã hóa bằng các giao thức như HTTPS. Ở phía backend, các biện pháp bảo vệ như Tường lửa (Firewall) và hệ thống phát hiện xâm nhập là cần thiết để bảo vệ máy chủ và Data Center khỏi truy cập trái phép. Tính toàn vẹn dữ liệu đảm bảo rằng thông tin không bị thay đổi trong quá trình truyền tải.

III. Phương pháp thiết kế và lập kế hoạch dự án mạng hiệu quả

Một kế hoạch chi tiết là nền tảng cho sự thành công của bất kỳ dự án mạng máy tính & truyền thông dữ liệu nào. Giai đoạn này bắt đầu bằng việc khảo sát yêu cầu, phân tích nhu cầu của người dùng và các bên liên quan để xác định các thông số kỹ thuật. Tiếp theo là giai đoạn thiết kế mạng máy tính, bao gồm thiết kế logic và thiết kế vật lý. Thiết kế logic xác định cách dữ liệu sẽ di chuyển trong mạng, bao gồm việc phân chia địa chỉ IP, định tuyến, và các chính sách bảo mật. Thiết kế vật lý liên quan đến việc lựa chọn và bố trí các thiết bị mạng như Router và Switch, hệ thống dây cáp, và các điểm truy cập mạng không dây (Wireless). Việc lựa chọn công nghệ phù hợp là cực kỳ quan trọng. Ví dụ, trong dự án nghiên cứu, việc lựa chọn FastAPI làm web framework được lý giải bởi tốc độ và sự đơn giản, phù hợp cho các dự án cần triển khai nhanh. Tương tự, việc lựa chọn PySpark cho xử lý dữ liệu lớn là một quyết định chiến lược dựa trên yêu cầu về hiệu suất. Một phần không thể thiếu trong kế hoạch là dự toán chi phí và phân bổ nguồn lực. Cuối cùng, tài liệu hóa hệ thống là bước quan trọng, giúp cho việc quản trị mạng, bảo trì và nâng cấp sau này trở nên dễ dàng hơn. Quy trình này đảm bảo hệ thống không chỉ đáp ứng yêu cầu hiện tại mà còn có thể mở rộng trong tương lai.

3.1. Lựa chọn công nghệ và giao thức TCP IP phù hợp

Việc lựa chọn công nghệ phụ thuộc vào yêu cầu bài toán. Đối với backend, FastAPI được chọn vì "hiệu suất cao và khả năng xây dựng API nhanh chóng". Đối với xử lý dữ liệu, PySpark được chọn để tận dụng sức mạnh của Apache Spark. Nền tảng của mọi kết nối mạng là bộ giao thức TCP/IP. Giao thức HTTP/HTTPS được sử dụng để ứng dụng di động giao tiếp với API, đảm bảo tính tương thích rộng rãi. Bên trong Data Center, các giao thức định tuyến như OSPF hoặc BGP có thể được sử dụng để tối ưu hóa đường đi của dữ liệu giữa các máy chủ.

3.2. Cấu hình thiết bị mạng cốt lõi Router và Switch

Router và Switch là xương sống của hạ tầng mạng. Switch hoạt động ở Lớp 2 của mô hình OSI, chịu trách nhiệm chuyển tiếp các khung dữ liệu trong cùng một mạng LAN. Router hoạt động ở Lớp 3, kết nối các mạng khác nhau và quyết định đường đi tốt nhất cho các gói tin. Việc cấu hình mạng cho các thiết bị này bao gồm thiết lập VLANs để phân đoạn mạng, cấu hình các quy tắc định tuyến, và triển khai các danh sách kiểm soát truy cập (ACLs) để tăng cường bảo mật. Một cấu hình tối ưu sẽ giúp giảm tắc nghẽn và cải thiện hiệu suất toàn hệ thống.

IV. Quy trình thi công hệ thống mạng và triển khai ứng dụng

Giai đoạn triển khai biến bản thiết kế thành hiện thực. Quá trình này bắt đầu với thi công hệ thống mạng vật lý, bao gồm việc lắp đặt cáp, tủ rack, và các thiết bị mạng. Sau khi hạ tầng vật lý hoàn tất, giai đoạn cấu hình mạng bắt đầu. Các kỹ sư sẽ cấu hình Router và Switch, máy chủ, Tường lửa (Firewall), và các thành phần khác theo bản thiết kế logic. Trong dự án "Facial Image Retrieval", quá trình triển khai bao gồm hai phần chính: backend và frontend. Backend được triển khai trên một máy chủ (với CPU AMD Ryzen 7 4800H và GPU 1660ti), cài đặt các môi trường cần thiết như Python, FastAPI, và Apache Spark. Các mô hình học sâu đã được huấn luyện sẵn được tải lên máy chủ. Frontend là một ứng dụng di động Android, được phát triển bằng Android Studio và ngôn ngữ Java. Giao tiếp giữa hai thành phần này được thực hiện thông qua API. Một điểm quan trọng trong quá trình triển khai là việc sử dụng các dịch vụ đám mây. Dự án đã sử dụng Google Cloud Storage để lưu trữ dữ liệu ảnh. Điều này không chỉ giúp "tiết kiệm bộ nhớ cho ứng dụng" mà còn cải thiện tốc độ truy xuất và khả năng mở rộng của hệ thống. Quá trình này đòi hỏi sự phối hợp chặt chẽ giữa các nhóm phát triển phần mềm và quản trị hệ thống.

4.1. Mô hình Client Server với API và ứng dụng di động

Hệ thống hoạt động theo mô hình client-server. Ứng dụng di động (client) do người dùng cuối sử dụng, chịu trách nhiệm thu thập ảnh đầu vào và hiển thị kết quả. Hệ thống backend (server) cung cấp các dịch vụ xử lý cốt lõi. Giao tiếp giữa chúng được thực hiện thông qua API (Application Programming Interface), cụ thể là Web API xây dựng bằng FastAPI. Frontend gửi yêu cầu chứa dữ liệu ảnh đã mã hóa đến một điểm cuối (endpoint) của API. Backend nhận yêu cầu, xử lý ảnh, thực hiện truy vấn, và trả về một phản hồi (response) chứa các đường link ảnh kết quả. Mô hình này giúp tách biệt logic giao diện và logic nghiệp vụ, làm cho hệ thống dễ bảo trì và phát triển.

4.2. Triển khai mô hình học sâu và thuật toán LSH

Một phần quan trọng của việc triển khai là đưa các mô hình trí tuệ nhân tạo vào hoạt động. Mô hình trích xuất đặc trưng (dựa trên Inception) và mô hình truy vấn (dựa trên thuật toán Bucketed Random Projection của LSH) được tích hợp vào backend FastAPI. Khi nhận được ảnh, backend sẽ: 1. Đưa ảnh qua mô hình Inception để trích xuất vector đặc trưng. 2. Sử dụng vector này làm đầu vào cho mô hình LSH đã được huấn luyện bằng PySpark để tìm các vector gần nhất trong cơ sở dữ liệu. Quá trình này minh họa rõ nét cách truyền thông dữ liệu hỗ trợ các tác vụ tính toán phức tạp trong một ứng dụng thực tế.

V. Case study Kết quả từ dự án mạng truy vấn hình ảnh

Dự án "Facial Image Retrieval in Large-scale Datasets" là một minh chứng thực tiễn cho việc ứng dụng thành công các nguyên tắc của một dự án mạng máy tính & truyền thông dữ liệu. Kết quả đạt được không chỉ là một sản phẩm phần mềm mà còn là những kinh nghiệm quý báu trong việc tích hợp nhiều công nghệ phức tạp. Về mặt kỹ thuật, hệ thống đã xây dựng thành công một quy trình end-to-end: từ việc người dùng chọn ảnh trên ứng dụng di động, gửi yêu cầu qua mạng, xử lý bằng các mô hình AI ở backend, đến việc trả kết quả về cho người dùng. Thời gian xử lý trung bình cho một yêu cầu là khoảng 15 giây, một con số khả quan với hạ tầng phần cứng hạn chế. Về mặt học thuật, nghiên cứu đã so sánh hiệu quả của các mô hình học sâu khác nhau (Inception, MobileNet, ResNet50) và xác định Inception cho kết quả tốt nhất với chỉ số F1-score cao nhất. Mô hình truy vấn sử dụng LSH trên PySpark đạt được độ chính xác khoảng 70,04% trên tập dữ liệu kiểm tra. Con số này cho thấy tiềm năng của phương pháp, đồng thời cũng chỉ ra các điểm cần cải thiện trong tương lai, như việc bổ sung dữ liệu huấn luyện đa dạng hơn. Dự án này cho thấy tầm quan trọng của việc có một hạ tầng mạng và hệ thống backend đủ mạnh để hỗ trợ các ứng dụng thông minh, cũng như vai trò của giám sát hiệu suất mạng để tối ưu hóa thời gian phản hồi.

5.1. Đánh giá hiệu suất và độ chính xác của hệ thống

Hiệu suất hệ thống được đánh giá dựa trên hai tiêu chí chính: thời gian phản hồi và độ chính xác. Thời gian trung bình 15 giây cho mỗi truy vấn là một con số có thể chấp nhận được ở giai đoạn thử nghiệm. Độ chính xác của mô hình LSH là 70,04%, được tính trên tập kiểm tra gồm 447 bức ảnh khác nhau. Tài liệu cũng chỉ ra rằng mô hình Inception có hiệu suất tốt nhất trong việc trích xuất đặc trưng, dựa trên chỉ số F1-score. Các kết quả này cung cấp một cơ sở định lượng để đánh giá thành công của dự án và xác định các hướng tối ưu hóa tiếp theo.

5.2. Các bài học kinh nghiệm và hướng phát triển tương lai

Dự án đã rút ra nhiều bài học quan trọng. Thứ nhất, việc chuẩn bị và xử lý dữ liệu thô đòi hỏi rất nhiều thời gian và công sức. Thứ hai, việc lựa chọn và huấn luyện mô hình phù hợp là một quá trình tốn kém tài nguyên. Hướng phát triển trong tương lai được đề ra rất rõ ràng: "nâng cao hiệu suất và độ chính xác sẽ là ưu tiên hàng đầu". Điều này có thể đạt được bằng cách tối ưu hóa các siêu tham số, tăng cường dữ liệu huấn luyện, hoặc khám phá các kiến trúc mô hình mới. Ngoài ra, việc tích hợp thêm các tính năng khác như nhận diện và theo dõi đối tượng cũng là một hướng đi tiềm năng để mở rộng chức năng của ứng dụng.

11/09/2025

Bạn đang xem trước tài liệu:

Dự án công nghệ thông tin mạng máy tính và truyền thông dữ liệu

Tải đầy đủ

Trích đoạn nội dung tài liệu

CHƯƠNG 1.1 Lý do chọn đề tài Trong thời đại Cách mạng Công nghệ 4.0, trí tuệ nhân tạo đang dần xuất hiện trong mọi mặt của cuộc sống, từ các những trợ lý ảo, chatbot được tạo ra để phục vụ cho công việc, học tập và nghiên cứu cho đến những ứng dụng, hệ thông được tích hợp các công nghệ hiện đại như nhận diện khuôn mặt để xác thực người dùng trong việc chuyển tiền ngân hàng, định danh cá nhân trong hệ thống dữ liệu dân cư quốc gia. Một trong những lĩnh vực nổi bật của trí tuệ nhân tạo là thị giác máy tính (Computer Vision). Lĩnh vực này tập trung vào việc tái tạo lại hệ thống thị giác của con người. Từ đó cho phép máy tính xách định và xử lý các đối tượng trong hình ảnh và video giống như cách của con người.

Ngày này, nhờ có lượng dữ liệu khổng lồ được chia sẻ trực truyến liên tục và áp dụng học sâu (Deep Learning) đã làm cho việc đào tạo những mô hình thị giác máy tính trở nên dễ dạng và có thể đạt được độ chính xác cao. Đặc biệt là khi việc chuyển đổi số ngày càng nhanh chóng sẽ tạo ra lượng lưu trữ lớn về hình ảnh khuôn mặt, do đó việc phát triển những phương pháp hiệu quả để truy xuất thông tin từ những bộ dữ liệu lớn về hình ảnh khuôn mặt có ý nghĩa rất lớn trong nhiều lĩnh vực như an nình, y tế, giáo dục. Từ các yếu tố trên, đề tài “Facial Image Retrieval in Large-scale Datasets” là một chủ đề hấp dẫn vì tính ứng dụng cao của nó.2 Mục tiêu Mục tiêu của đề tài là ứng dụng và phát triển được các công nghệ về trí tuệ nhân tạo, xử lý dữ liệu lớn để tạo ra mô hình có khả năng nhận diện và truy xuất thông tin từ tập dữ liệu lớn một cách nhanh chóng và chính xác. Cụ thể, để xây dựng được hệ thống như vậy ta cần đạt được những mục tiêu sau trong quá trình thực hiện: 2 - Xây dụng được hệ thống nhận diện hình ảnh khuôn mặt chính xác: Sử dụng các mô hình (model) đã được đào tạo sẵn và thay đổi để phù hợp với yêu cầu là có khả năng nhận diện khuôn mặt một cách chính xác.

- Tối ưu hóa khả năng truy xuất thông tin: Thử nghiệm những thuật toán truy xuất dữ liệu, từ đó chọn ra được mô hình có khả năng truy xuất nhanh chóng thông tin từ tập dữ liệu lớn - Xử lý dữ liệu đa dạng và phức tạp: Hệ thống phải có khả năng xử lý và truy xuất thông tin từ các bộ dữ liệu với đa dạng khuôn mặt, điều kiện khuôn mặt là chính diện và được chụp vào ban ngày. - Ứng dụng thực tiển: Áp dụng kết quả nghiên cứu vào các lĩnh vực thực tế như giáo dục, y tế, an ninh,. để tiết kiệm thời gian và công sức, cải thiện hiệu suất làm việc của trong người trong việc quản lý và truy xuất thông tin từ dữ liệu khuôn mặt.3 Ý nghĩa Đề tài này không chỉ mang tính nghiên cứu mà nó còn có thể mang lại những ảnh hưởng sâu rộng đối với các lĩnh vực khác nhau. Trong lĩnh vực an nình, các hệ thống truy xuất hình ảnh có thể được áp dụng để giám sát và phát hiện các hành động bất thường của phạm nhân, của những người có ý định phạm tội.

Nó cũng giúp việc tìm kiếm người mất tích trở nên dễ dàng hơn với việc lấy được thông tin từ những người đã tiếp xúc với họ. Đề tài này còn có ý nghĩa trong việc quản lý thông tin giúp tiết kiệm thời gian và công sức. Công nghệ truy xuất hình ảnh có thể giúp tự động hóa quy trình quản lý dữ liệu, giúp cải thiện hiệu xuất làm việc, giảm thiểu sai sót. Đề tài này cũng mở ra cách cửa cho các ứng dụng tiềm năng như theo dõi tình trạng sức khỏe, cải thiện trải nghiệm người dùng.

Tóm lại, không chỉ có ý nghĩa trong việc nghiên cứu, đề tài này còn mạng lại những lợi ích to lớn cho xã hội từ những ứng dụng của nó trong các lĩnh vực thực tế.1 Thị giác máy tính và bài toán Face Recognition 2.1 Thị giác máy tính 2.1 Định nghĩa Thị giác máy tính (Computer Vision - CV) là một lĩnh vực trong khoa học máy tính nhằm làm cho máy tính có thể tái tạo lại khả năng nhìn và xác định các vật thể như thị giác con người. Lĩnh vực này tập trung vào việc cho phép máy tính có thể trích xuất, phân tích và hiểu được các thông tin hữu ích một các tự động từ hình ảnh hoặc một chuỗi các hình ảnh. Hiểu trong trường hợp này có nghĩa là máy tính có thể chuyển đổi các hình ảnh đầu vào thành những mô tả có ý nghĩa và hữu ích với con người. Để làm được điều này cần phải những phát triển về cơ sở lý thuyết và thuật toán, từ đó tạo ra sự hiểu biết trực quan và tự động từ máy tính.

Nhờ vào việc có nhiều ứng dụng trong thực tế, CV đang dần trở thành một phần trong trung tâm của những công nghệ về trí tuệ nhân tạo.2 Phương thức hoạt động Hình 2.1: Phương thức hoạt động của thị giác máy tính CV hoạt động dựa trên đầu vào là các hình ảnh, chuỗi hình ảnh từ những thiết bị cảm biến ảnh, các mô hình trí tuệ nhân tạo, học máy,. Sau đó, các hình ảnh này sẽ được đưa đến thiết bị phiên dịch để xử lý bằng những mô hình được huấn luyện với những mục đích khác nhau như nhận diện khuôn mặt, nhận diện một đối tượng nào đó. Hình ảnh đã qua xử lý sẽ được dùng nhằm truy xuất thông tin để xem có thể tìm được bất kỳ nội dụng nào trùng khớp với nội dung hình ảnh hay không. Điều này được thực hiện thông qua các thuật toán tìm kiếm, truy vấn cùng với kết hợp những phương thức lưu trữ dư liệu hiện đại nhằm đạt được hiệu xuất tìm kiếm 4 tốt nhất.

Sau đó những thông tin truy xuất được sẽ được trả về cho phía người dùng nhằm cung cấp những thông tin phục vụ cho công việc, mục đích nào đó.3 Lịch sử của thị giác máy tính Trong những năm 1960, các nhà khoa học bắt đầu nghiên cứu những thuật toán để xử lý và phân tích dữ liệu trực quan nhưng vẫn còn một số hạn chế về khả năng tính toán của máy tính. Đến năm 1970, những thuật toán phức tạp hơn phục vụ cho xử lý hình ảnh và phát hiện đối tượng đã được phát triển. Trong đó phép biến đổi Hough (Hough transform) là một bước đột phá nhờ việc phát hiện được những đường thẳng và các dạng hình học khác nhau trong ảnh. Từ năm 1980 đến năm 1990, các nhà khoa học tiếp tục phát triển những thuật toán học máy cho CV có khả năng cải thiện độ chính xác theo thời gian.

Thuật toán phát hiện khuôn mặt đầu tiên là Viola- Jones được phát triển vào năm 2001 là điểm nhấn quan trọng nhất trong thời điểm bấy giờ. Đến khoảng năm 2010, các thuật toán học sâu đã tạo ra đợt cách mạng hóa trong ngành CV khi máy tính có thể học cách biểu diển dữ liệu theo cấp bậc. Tiếp đến là sự phát triển về các mạng nơ ron tích chập (Convolutional Neural Networks - CNN) kết hợp với lượng dữ liệu lớn là sự bùng nổ khi mà máy tính đã có thể phát hiện đối tượng, theo dõi chuyển động với hiệu xuất và kết quả cho độ chính xác cao hơn bao giờ hết. Ngày nay, CV là một lĩnh vực quan trọng và phát triển nhanh chóng với các ứng dụng vào lĩnh vực an ninh, y tế,.

Cùng với sự tiến bộ của trí tuệ nhân tạo, CV dự kiến sẽ tiếp tục phát triển và tạo ra những bước đột phá góp phần làm thay đổi cách chúng ta tương tác với dữ liệu hình ảnh trong tương lai.4 Ứng dụng của thị giác máy tính Hiện nay, có nhiều nghiên cứu đang được thực hiện trong lĩnh vực CV, nhưng hơn hết là các ứng dụng thực tế trong cuộc sống như công việc, y tế, cuốc sống hằng ngày,. đã chứng mình tầm quan trọng của CV. Một trong những động lức chính cửa sự phát triển này là dòng dữ liệu được lưu trữ, tạo ra từ các ứng dụng, thiết bị như điện thoại, hệ thống camera an nình, các hệ thống giám sát khác. Các dữ liệu này 5 đóng vai trò trong nhiều ngành, từ đó tạo ra nền tảng để huấn luyền các mô hình CV và giúp các mô hình này trở thành một phần không thể thiếu trong hoạt động của con người.

Các ứng dụng nổi bật hiên nay có thể kể đến như là Google Translate có thể sử dụng ảnh một ngôn ngữ lấy từ camera của điện thoại và có thể dịch ra gần như ngay lập tức. Ngoài ra còn có xe tự lái được phát triển dựa vào CV bằng việc xử lý dữ liệu đầu vào các hình ảnh xung quanh, cảm biến vật thể từ đó đưa ra những phân tích về thông tin trên đường.5 Những gì thị giác máy tính có thể làm Mặc dù có được tài nguyên là lượng dữ liệu lớn được tạo ra hằng ngày cùng với sự trợ giúp của học sâu giúp cho việc phát triển các ứng dụng một cách dễ dàng. Nhưng ta cần biết chính xác CV có thể làm được những gì, từ đó đưa ra quyết định sẽ áp dụng những công nghệ, mô hình, thuật toán vào dự án. Một số tác vụ chính của thị giác máy tính là: - Phân loại hình ảnh (Image classification): máy tính có thể thấy những vật thể trong hình ảnh và phân loại những vật thể, hình ảnh đó vào một lớp nhất định.

Ví dụ: một mạng xã hội có thể xử dụng hệ thống phân loại để xác định những hình ảnh có nội dung phản cảm mà người dùng đưa lên. - Theo dõi đối tượng (Object tracking): máy tính theo dõi một đối tường nào đó từ đó xác định được hành vị, vị trí của đối tượng đó. Ví dụ: xe tự lái sẽ theo dõi các hình ảnh của các vật thể xung quanh từ đó xác định vị trí của các vật thể đó. - Phát hiện đối tượng (Object detection): máy tính sử dụng phân loại hình ảnh để xác định những đối tượng được quy định sẵn trong hình ảnh đó.

Ví dụ: hệ thống nhận diện biển số xe trong các hầm xe.2 Bài toán Face Recognition 2.1 Mô tả bài toán 6 Face Recognition (DR) là một trong những bài toán phổ biến nhất trong CV, đây là bài toán nhận dạng và xác thực người dựa vào khuôn mặt của họ. Cho đến tận ngày nay đây đã có nhiều nghiên cứu, mô hình được đưa ra để giải quyết bài toán này.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ