Luận văn thạc sĩ: Phát hiện văn bản ngoại cảnh trong giao thông bằng khoa học máy tính

Khám phá luận văn thạc sĩ về phát hiện văn bản ngoại cảnh trong giao thông, ứng dụng công nghệ khoa học máy tính trong quản lý giao thông.

Trường đại học

Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành

Khoa học máy tính

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2023

110

Phí lưu trữ

35 Point

Tóm tắt

I. Giới thiệu đề tài

Đề tài "Phát hiện văn bản ngoại cảnh trong giao thông" tập trung vào việc phát hiện và nhận dạng văn bản ngoại cảnh xuất hiện trên các biển báo giao thông. Giao thông hiện đại yêu cầu các hệ thống tự động hóa có khả năng hiểu và phân tích thông tin từ môi trường xung quanh, đặc biệt là từ các biển báo. Việc phát hiện và nhận dạng văn bản ngoại cảnh không chỉ hỗ trợ xe tự lái mà còn có thể ứng dụng trong nhiều lĩnh vực khác như robot tự hành và hệ thống giám sát giao thông. Theo nghiên cứu, các thách thức chính trong việc phát hiện văn bản bao gồm sự đa dạng về màu sắc, font chữ, kích thước và hướng văn bản, cũng như các yếu tố môi trường có thể gây nhầm lẫn như ký hiệu và biển số xe. Những yếu tố này tạo ra khó khăn trong việc phát hiện và nhận diện, yêu cầu các phương pháp xử lý dữ liệu tiên tiến hơn.

1.1 Động cơ nghiên cứu

Sự gia tăng nhanh chóng của dữ liệu và nhu cầu tự động hóa trong giao thông đã thúc đẩy nghiên cứu về phát hiện văn bản ngoại cảnh. Các hệ thống tự động cần có khả năng đọc hiểu các biển báo để đưa ra quyết định chính xác. Các nghiên cứu đã chỉ ra rằng việc phát hiện văn bản ngoại cảnh có thể cải thiện đáng kể hiệu suất của xe tự lái và các ứng dụng khác. Tuy nhiên, việc tối ưu hóa các phương pháp hiện tại vẫn còn nhiều thách thức, đặc biệt là trong việc xử lý các tình huống phức tạp trong môi trường thực tế.

II. Tổng quan nghiên cứu

Chương này phân tích và đánh giá các công trình nghiên cứu đã có liên quan đến phát hiện văn bản ngoại cảnh. Các nghiên cứu trước đây đã sử dụng nhiều phương pháp khác nhau, từ các kỹ thuật học máy cổ điển đến các mô hình học sâu hiện đại. Một số công trình nổi bật như PMTD, CRAFT, và PSENet đã chứng minh được hiệu quả trong việc phát hiện văn bản trong điều kiện thực tế. Tuy nhiên, vẫn còn nhiều vấn đề tồn tại, như độ chính xác và tốc độ xử lý. Việc tổng hợp và phân tích các nghiên cứu trước sẽ giúp xác định hướng đi cho nghiên cứu hiện tại, từ đó đề xuất các cải tiến và giải pháp mới cho phát hiện văn bản trong giao thông.

2.1 Các công trình nghiên cứu tiêu biểu

Các công trình nghiên cứu tiêu biểu đã chỉ ra rằng việc ứng dụng các mô hình học sâu như CNN và RNN có thể cải thiện đáng kể hiệu suất phát hiện văn bản. Nghiên cứu về PMTD đã chỉ ra rằng kiến trúc mạng nơ ron tích chập (CNN) có thể đạt được độ chính xác cao trong việc nhận diện văn bản. Tuy nhiên, các thách thức như văn bản cong hay văn bản bị che khuất vẫn chưa được giải quyết triệt để. Điều này mở ra cơ hội cho các nghiên cứu tiếp theo nhằm phát triển các phương pháp mới có khả năng xử lý tốt hơn các tình huống phức tạp trong giao thông.

III. Phương pháp nghiên cứu

Phương pháp nghiên cứu trong luận văn này bao gồm việc áp dụng các kỹ thuật học sâu và xử lý ngôn ngữ tự nhiên để phát hiện và nhận dạng văn bản ngoại cảnh. Việc thu thập dữ liệu từ các bộ dữ liệu giao thông như Vietnam Traffic Signs Dataset (VTSD) và Zalo AI Challenge là bước đầu tiên quan trọng. Hệ thống sẽ được xây dựng dựa trên các mô hình học sâu hiện đại, nhằm tối ưu hóa khả năng phát hiện văn bản trong điều kiện thực tế. Bên cạnh đó, các phương pháp tiền xử lý dữ liệu cũng sẽ được áp dụng để nâng cao chất lượng đầu vào cho mô hình. Các thí nghiệm sẽ được thực hiện để đánh giá hiệu suất của hệ thống, từ đó đề xuất các cải tiến cần thiết.

3.1 Xây dựng hệ thống

Hệ thống sẽ được xây dựng dựa trên các kiến trúc mạng nơ ron tiên tiến như YOLO và Faster R-CNN. Việc lựa chọn mô hình phù hợp sẽ dựa trên các tiêu chí như độ chính xác, tốc độ xử lý và khả năng thích ứng với các điều kiện môi trường khác nhau. Mô hình sẽ được huấn luyện trên các bộ dữ liệu đã thu thập, với các phương pháp tối ưu hóa nhằm cải thiện hiệu suất. Các kết quả từ quá trình huấn luyện sẽ được so sánh và đánh giá để tìm ra giải pháp tối ưu nhất cho phát hiện văn bản ngoại cảnh trong giao thông.

IV. Kết quả và thảo luận

Chương này trình bày các kết quả đạt được từ việc áp dụng các phương pháp đã đề xuất. Các thí nghiệm cho thấy rằng hệ thống có khả năng phát hiện và nhận dạng văn bản ngoại cảnh với độ chính xác cao. Tuy nhiên, vẫn còn một số thách thức như tốc độ xử lý và khả năng nhận diện trong các điều kiện ánh sáng khác nhau. Việc phân tích và so sánh với các công trình trước đây cho thấy rằng mặc dù hệ thống đã cải thiện đáng kể, nhưng vẫn cần tiếp tục nghiên cứu để giải quyết các vấn đề còn tồn tại.

4.1 Đánh giá hiệu suất

Đánh giá hiệu suất của hệ thống được thực hiện thông qua các chỉ số như Precision, Recall và F1-Score. Kết quả cho thấy rằng hệ thống có thể đạt được độ chính xác lên tới 90% trong điều kiện lý tưởng. Tuy nhiên, trong các điều kiện thực tế như ánh sáng yếu hoặc văn bản bị che khuất, độ chính xác giảm xuống. Điều này nhấn mạnh tầm quan trọng của việc phát triển các phương pháp xử lý tốt hơn cho các tình huống khó khăn trong giao thông.

V. Kết luận và kiến nghị

Luận văn này đã đề xuất một hệ thống phát hiện văn bản ngoại cảnh trong giao thông dựa trên các mô hình học sâu. Kết quả nghiên cứu cho thấy rằng hệ thống có khả năng hoạt động hiệu quả trong điều kiện thực tế, tuy nhiên vẫn còn nhiều thách thức cần giải quyết. Các kiến nghị cho nghiên cứu tiếp theo bao gồm việc cải thiện khả năng nhận diện trong các điều kiện khó khăn và tối ưu hóa tốc độ xử lý. Việc phát triển các phương pháp mới sẽ góp phần nâng cao hiệu quả của các hệ thống giao thông tự động trong tương lai.

5.1 Hướng phát triển

Hướng phát triển tiếp theo của nghiên cứu này có thể tập trung vào việc tích hợp các công nghệ mới như trí tuệ nhân tạo và machine learning để cải thiện khả năng nhận diện và xử lý văn bản trong thời gian thực. Việc ứng dụng các công nghệ mới không chỉ giúp nâng cao độ chính xác mà còn tối ưu hóa tốc độ xử lý, đáp ứng yêu cầu ngày càng cao của các hệ thống giao thông tự động.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính phát hiện văn bản ngoại cảnh trong giao thông

Tải đầy đủ

Trích đoạn nội dung tài liệu

Mở đầu 1.1 Giới thiệu đề tài Văn bản luôn là một công cụ không thiểu thiếu trong cuộc sống hằng ngày của con người với vai trò thể hiện thông tin có thể được hiển thị trên tài liệu hoặc cảnh vật. Phát hiện và nhận dạng văn bản bằng hình ảnh đã và đang là một chủ đề được quan tâm trong lĩnh vực thị giác máy tính với nhiều ứng dụng cũng như thách thức cho các nhà nghiên cứu. Chủ đề này được chia làm hai hướng nghiên cứu dựa vào đối tượng nghiên cứu, đó là phát hiện và nhận dạng văn bản trên tài liệu in và phát hiện và nhận dạng văn bản ngoại cảnh (hình ảnh chứa văn bản trong cảnh vật thường ngày như trên biển báo, biển hiệu, tường, nhà cửa,. có thể bị ảnh hưởng bởi các điều kiện môi trường như độ chói, bị che khuất,.

Đề tài này sẽ tập trung vào phát hiện văn bản ngoại cảnh.1 Động cơ nghiên cứu Trong thời đại ngày nay, khi lượng dữ liệu được sinh ra hằng ngày càng lớn thì việc tạo ra các phương pháp xử lý dữ liệu một cách hiệu quả là điều đòi hỏi tất yếu để phát triển xã hội. Đối với chủ đề phát hiện và nhận dạng văn bản ngoại cảnh cũng không phải ngoại lệ, với nhiều ứng dụng đối với con người thì chủ đề này đã được các nhà nghiên cứu đề xuất nhiều phương pháp để ngày một tối ưu khả năng của máy móc trong việc phát hiện và nhận dạng bằng hình ảnh. Tuy nhiên để xử lý một cách tối ưu thì phải giải quyết tốt các thách thức của chủ đề này.1 Ứng dụng Phát hiện và nhận dạng văn bản ngoại cảnh có thể giúp con người ứng dụng trong nhiều vấn đề như: • Giúp xe tự lái đọc hiểu biển báo giao thông. 2 • Giúp robot đọc hiểu được văn bản ngoại cảnh.

• Xử lý tự động hóa trong công nghiệp. • Phiên dịch văn bản ngoại cảnh.2 Các thách thức Ngoài các ứng dụng thì vẫn tồn tại một số thách thức làm cho việc phát hiện và nhận dạng văn bản ngoại cảnh trở nên khó khăn. Các thách thức có thể được chia thành ba nhóm [1] như sau: • Đa dạng văn bản: Văn bản ngoại cảnh có thể tồn tại dưới nhiều màu sắc, font, kích thước văn bản, hướng văn bản và ngôn ngữ. • Ngoại cảnh phức tạp: Ngoại cảnh có thể tồn tại những thứ có hình dáng giống văn bản có thể gây nhầm lẫn như các ký hiệu, biểu tượng, biển số xe,.

• Các yếu tố làm biến dạng: Các yếu tố có thể làm biến bạng văn bản ngoại cảnh như bị mờ do chuyển động, camera có độ phân giải thấp, góc chụp, khoảng cách chụp và che khuất hoặc mất một phần văn bản. • Thời gian trong ngày: Ban ngày và ban đêm cũng là một yếu tố ảnh hưởng lớn, vì tùy vào khoảng thời gian trong ngày mà độ sáng sẽ khác nhau.3 Các nghiên cứu đã có Để khắc phục các thách thức nêu trên và tối ưu hóa hiệu suất của việc phát hiện và nhận dạng văn bản ngoại cảnh thì nhiều công trình đã được thí nghiệm và đề xuất. Từ các công trình dựa trên các kỹ thuật học máy cổ điển cho tới các kỹ thuật dựa trên học sâu đã cho thấy sự phát triển của các phương pháp sau này đối với các phương pháp trước về khả năng phát hiện và nhận diện cũng như giải quyết các vấn đề còn tồn đọng hay những hạn chế của các công trình trước đó. Một số công trình nổi bật gần đây đối với nhiệm vụ phát hiện văn bản ngoại cảnh như PMTD [2], CRAFT [26], PSENet [27], và đối với nhiệm vụ nhận dạng văn bản ngoại cảnh như CLOVA [4], ASTER [28], ROSETTA [29].2 Đối tượng và thách thức chính của đề tài Tên đề tài ,"Phát hiện văn bản ngoại cảnh trong giao thông", nói lên đối tượng đầu ra của đề tài là văn bản ngoại cảnh trong giao thông, tức là các văn bản xuất hiện trên các biển báo giao thông.

Đối tượng đầu vào của đề tài là hình ảnh hoặc video (thu từ camera hành trình) có chứa văn bản ngoại cảnh trong giao thông. Đề tài này nhắm đến hỗ trợ phát hiện và xác định vị trí của các văn bản ngoại cảnh trên biển báo giao thông. Mặc dù đã có nhiều công trình đi trước tạo tiền đề để phát triển thì đề tài này vẫn gặp phải một số trở ngại khác. Việc có nhiều công trình đi trước đồng nghĩa với việc có nhiều kiến trúc và phương pháp học khác nhau dẫn đến việc chọn lựa kiến trúc mạng và phương pháp học phù hợp và tối ưu cũng trở nên thách thức.

Bởi chúng ta phải xây dựng lại các công trình trước và so sánh trên các bộ dữ liệu tương đồng để đánh giá độ tốt của các công trình đó nhằm chọn ra các thành phần phù hợp để có thể dựa vào và phát triển theo đề tài này. Tuy nhiên việc xây dựng lại và đánh giá các công trình trước là một thách thức khi một số công trình đã chia sẻ mã nguồn còn một số khác thì không, bên cạnh đó là thách thức về phần cứng, bởi một số bộ dữ liệu có sẵn có dung lượng rất lớn vì thế cần không gian lưu trữ lớn cũng như phải chuẩn bị một cấu hình máy tính đủ mạnh (GPU) để có thể giúp quá trình huấn luyện trở nên nhanh chóng hơn. Ngoài ra, các thách thức đã nêu tại 1.2 đối với đề tài này như sau: • Đa dạng văn bản: 4 Hình 1.1: Văn bản ngoại cảnh có thể tồn tại dưới nhiều màu sắc, font, kích thước văn bản, hướng văn bản và ngôn ngữ. (Ảnh: Sưu tầm) • Ngoại cảnh phức tạp: Hình 1.2: Ngoại cảnh có thể tồn tại những thứ có hình dáng giống văn bản có thể gây nhầm lẫn như các ký hiệu, biểu tượng, biển số xe,.

(Ảnh: Sưu tầm) • Các yếu tố làm biến dạng: 5 Hình 1.3: Các yếu tố có thể làm biến bạng văn bản ngoại cảnh như bị mờ do chuyển động, camera có độ phân giải thấp, góc chụp, khoảng cách chụp và che khuất hoặc mất một phần văn bản. (Ảnh: Sưu tầm) • Thời gian trong ngày: Hình 1.4: Ban ngày và ban đêm cũng là một yếu tố ảnh hưởng lớn, vì tùy vào khoảng thời gian trong ngày mà độ sáng sẽ khác nhau. (Ảnh: Sưu tầm) Đối với các thách thức trên thì việc tinh chỉnh để có thể xử lý tốt nhiều trở ngại cũng trở thành vấn đề khi các công trình trước đa số cũng chỉ tập trung giải quyết một số trở ngại riêng lẻ, bên cạnh đó một số trở ngại lớn (văn bản cong, văn bản nhiều hướng, văn bản bị che hoặc mất một phần) cũng làm giảm hiệu suất của các công trình trước và hiện vẫn chưa thực sự có phương pháp nào xử lý tốt các trở ngại lớn trên. Bên cạnh độ chính xác cao thì tốc độ xử lý cũng là một thách thức cần phải giái 6 quyết, bởi nếu áp dụng trong thực tế thì tốc độ xử lý có thể mang tính chất quyết định (ví dụ như xe tự lái), thách thức ở đây là sự đánh đổi giữa độ phức tạp của hệ thống và tốc độ xử lý của hệ thống, một hệ thống đơn giản có thể xử lý nhanh tuy nhiên với kiến trúc đơn giản thì độ chính xác có thể chưa thực sự tốt và ngược lại.

Thử thách lớn nhất vẫn là sự thiếu hụt lượng dữ liệu văn bản ngoại cảnh cho Tiếng Việt đã được đánh nhãn phù hợp để phục vụ đề tài, vì nếu dữ liệu không đủ số lượng, không đủ độ tổng quát thì hệ thống sẽ không thể hoạt động tốt khi hoạt động trên những điểm dữ liệu mới. Những thách thức trên là những vấn đề cần phải giải quyết để có thể xây dựng được một hệ thống đủ tốt cho việc áp dụng vào thực tiễn. Và đó cũng chính là động lực cho các công trình sau này phát triển để khắc phục.2 Mục tiêu và phạm vi nghiên cứu 1.1 Mục tiêu Mục tiêu của đề tài là nghiên cứu đề xuất được một hệ thống dựa trên học sâu có khả năng phát hiện và xác định vị trí của văn bản trên biển báo giao thông bằng hình ảnh và video. Bên cạnh đó đề ra mục tiêu của hệ thống là phải đáp ứng độ chính xác cao cũng như tốc độ xử lý thời gian thực nhanh chóng.2 Phạm vi nghiên cứu Một số giới hạn của đề tài: • Dữ liệu cho văn bản ngoại cảnh giao thông của Việt Nam còn hạn chế, dẫn tới yêu cầu thu thập thêm dữ liệu cũng như gắn nhãn cho dữ liệu để thực hiện đề tài.

• Việc thu thập dữ liệu có thể làm xuất hiện nhiều trường hợp dữ liệu khó như đã nêu tại 1.2, chất lượng dữ liệu thu thập bị phụ thuộc vào chất lượng thiết bị thu thập, góc nghiêng khi thu thập, các điều kiện môi trường,. • Cấu hình phần cứng cũng là một vấn đề đáng quan tâm vì nó ảnh hưởng tới tốc độ huấn luyện, số thí nghiệm có thể thực hiện và môi trường ứng dụng trong thực tiễn. Qua đó, phạm vi của đề tài này sẽ chỉ nằm trong phạm vi Academic, hệ thống được 7 đề xuất sẽ chỉ phục vụ việc ứng dụng sau khi R&D. Vì nếu để propose thành một công trình mới hoặc deploy thành sản phẩm mới thì sẽ cần phải giải quyết và cải thiện nhiều giới hạn mà đề tài hiện đang gặp phải, và hiện tại những nguồn lực để thực hiện việc đó hiện chưa thể đáp ứng.3 Ý nghĩa khoa học và thực tiễn của đề tài nghiên cứu Đối với Việt Nam là một đất nước đang phát triển , thì những nghiên cứu, giải pháp về giao thông vẫn còn hạn chế.

Đề tài này có tầm quan trọng lớn trong không chỉ lĩnh vực thị giác máy tính nói chung mà còn đối với đời sống người Việt Nam nói riêng. Đề tài này mang tính ứng dụng cao và có thể áp dụng vào nhiều khía cạnh trong giao thông. Nghiên cứu đề tài này sẽ góp phần thúc đẩy những nghiên cứu tiếp theo hoặc những nghiên cứu liên quan đến giao thông của Việt Nam, giúp quá trình tham gia giao thông, giám sát giao thông của người Việt Nam trở nên dễ dàng hơn. Nhiệm vụ của chúng ta là tiếp thu tinh hoa của các công trình nghiên cứu trên Thế giới về áp dụng, cải thiện vào hoàn cảnh của Việt Nam nhằm mục đích cuối cùng là xây dựng, phát triển đất nước.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài viết "Luận văn thạc sĩ: Phát hiện văn bản ngoại cảnh trong giao thông bằng khoa học máy tính" của tác giả Nguyễn Phạm Anh Nguyên, dưới sự hướng dẫn của TS. Nguyễn Quang Hùng, trình bày một nghiên cứu quan trọng về việc ứng dụng khoa học máy tính để phát hiện và phân tích các văn bản ngoại cảnh trong lĩnh vực giao thông. Luận văn này không chỉ cung cấp cái nhìn sâu sắc về các phương pháp kỹ thuật và công nghệ hiện đại mà còn mở ra hướng đi mới cho việc cải thiện an toàn giao thông và quản lý đô thị hiệu quả hơn. Độc giả sẽ tìm thấy nhiều thông tin hữu ích về cách mà công nghệ có thể hỗ trợ trong việc nhận diện và xử lý thông tin trong môi trường giao thông phức tạp.

Nếu bạn quan tâm đến các chủ đề liên quan, có thể tham khảo thêm các bài viết như Luận Văn Thạc Sĩ Về Quản Lý Thông Tin Giao Thông Đô Thị Qua Dữ Liệu Cộng Đồng, nơi nghiên cứu về cách quản lý thông tin giao thông dựa trên dữ liệu cộng đồng, hoặc Luận án tiến sĩ về quản lý đổi mới phương pháp dạy học ở trường trung học phổ thông, để hiểu thêm về việc áp dụng công nghệ trong giáo dục và quản lý. Thêm vào đó, bài viết Nghiên cứu phát triển kỹ thuật hỗ trợ phát hiện đạo văn trong văn bản tiếng Việt cũng có thể mang lại cái nhìn thú vị về ứng dụng công nghệ trong việc phát hiện và xử lý thông tin văn bản. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và khám phá thêm nhiều khía cạnh khác nhau trong lĩnh vực khoa học máy tính và ứng dụng của nó.

#khoa học máy tính

#hệ thống giao thông thông minh

#nhận diện văn bản

#phát hiện văn bản

#văn bản ngoại cảnh

Chủ đề

Công nghệ thông tin trong giao thông

Ứng dụng khoa học máy tính

Phân tích dữ liệu trong giao thông

Trí tuệ nhân tạo và nhận diện hình ảnh

Luận văn thạc sĩ: Phát hiện văn bản ngoại cảnh trong giao thông bằng khoa học máy tính

I. Giới thiệu đề tài

1.1 Động cơ nghiên cứu

II. Tổng quan nghiên cứu

2.1 Các công trình nghiên cứu tiêu biểu

III. Phương pháp nghiên cứu

3.1 Xây dựng hệ thống

IV. Kết quả và thảo luận

4.1 Đánh giá hiệu suất

V. Kết luận và kiến nghị

5.1 Hướng phát triển

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Phạm Anh Nguyên

Người hướng dẫn: TS. Nguyễn Quang Hùng

Trường học: Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành: Khoa học máy tính

Đề tài: Phát hiện văn bản ngoại cảnh trong giao thông

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2023

Địa điểm: TP. Hồ Chí Minh

Luận văn thạc sĩ: Phát hiện văn bản ngoại cảnh trong giao thông bằng khoa học máy tính

I. Giới thiệu đề tài

1.1 Động cơ nghiên cứu

II. Tổng quan nghiên cứu

2.1 Các công trình nghiên cứu tiêu biểu

III. Phương pháp nghiên cứu

3.1 Xây dựng hệ thống

IV. Kết quả và thảo luận

4.1 Đánh giá hiệu suất

V. Kết luận và kiến nghị

5.1 Hướng phát triển

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Phạm Anh Nguyên

Người hướng dẫn: TS. Nguyễn Quang Hùng

Trường học: Đại học Quốc gia TP. Hồ Chí Minh

Chuyên ngành: Khoa học máy tính

Đề tài: Phát hiện văn bản ngoại cảnh trong giao thông

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2023

Địa điểm: TP. Hồ Chí Minh

Có thể bạn quan tâm