Nghiên cứu và phát triển giải pháp thu thập dữ liệu giao thông dựa trên kỹ thuật giọng nói

Luận văn thạc sĩ phân tích máy tính research and develop solutions to traffic data collection based on voice techniques, đánh giá thực trạng, chỉ ra hạn chế, đề xuất giải pháp khả

Trường đại học

Vietnam National University Ho Chi Minh City

Chuyên ngành

Computer Science

Người đăng

Ẩn danh

Thể loại

master thesis

2023

115

Phí lưu trữ

35 Point

Mục lục chi tiết

ACKNOWLEDGMENTS

ABSTRACT

TÓM TẮT LUẬN VĂN

DECLARATION

1. INTRODUCTION

1.1. General Introduction

1.2. Problem Description

3. RELATED WORK

4. APPROACH

4.1. Choosing ESPnet for ASR Model Development

4.2. Data Collection and Data Processing

4.3. Training and Decoding for End-to-End ASR

4.3.1. Attention-based Encoder Decoder

4.3.2. Hybrid CTC/Attention End-to-End ASR

5. EXPERIMENT AND EVALUATION

5.1. Data Processing Method Experiment

5.2. RNNLM Training Experiment

5.3. Experimental Result and Analysis

5.4. Architecture Comparison Experiment

5.5. Language Model Weight Variation Experiment

5.6. CTC Weight Variation Experiment

5.7. VOH Data Impact Assessment Experiment

5.8. bktraffic-analyxer and Training Server Environments

5.9. ASR Deployment Result

5.10. ASR Deployment Result Analysis

List of Figures

List of Tables

Tóm tắt

I. Giới thiệu về thu thập dữ liệu giao thông

Trong bối cảnh giao thông đô thị ngày càng phức tạp, việc thu thập dữ liệu giao thông chính xác và kịp thời trở thành một yếu tố quan trọng trong việc quản lý và tối ưu hóa hệ thống giao thông. Hệ thống Dự báo Tình trạng Giao thông Đô thị (UTraffic) sử dụng dữ liệu giao thông từ các nguồn khác nhau để đưa ra các dự đoán và phân tích chính xác. Việc dữ liệu giao thông được thu thập thông qua các ứng dụng web và di động cho phép người dùng gửi báo cáo tình hình giao thông bằng giọng nói, từ đó chuyển đổi thành văn bản thông qua công nghệ nhận dạng giọng nói tự động (ASR). Sự phát triển này không chỉ cải thiện tính tiện lợi cho người dùng mà còn nâng cao hiệu quả trong việc quản lý giao thông. Theo nghiên cứu, công nghệ nhận diện giọng nói có thể giúp giảm thiểu thời gian và công sức cần thiết để thu thập thông tin giao thông, từ đó tạo ra một hệ thống giao thông thông minh hơn.

II. Kỹ thuật giọng nói trong thu thập dữ liệu

Kỹ thuật giọng nói đóng vai trò cốt yếu trong việc thu thập dữ liệu giao thông. Các mô hình ASR hiện đại, như mô hình dựa trên Conformer và Transformer, đã được áp dụng để chuyển đổi giọng nói thành văn bản một cách chính xác. Việc này không chỉ giúp cải thiện độ chính xác của thông tin mà còn giảm thiểu độ thiên lệch trong việc nhận diện giọng nói từ các nguồn dữ liệu khác nhau. Nghiên cứu cho thấy rằng việc cải thiện chất lượng âm thanh qua các kỹ thuật như tăng cường giọng nói và xử lý âm thanh có thể nâng cao đáng kể hiệu suất của mô hình ASR. Sự phát triển này mở ra cơ hội mới cho việc ứng dụng giọng nói trong nhiều lĩnh vực khác nhau, từ quản lý giao thông đến dịch vụ khách hàng và hơn thế nữa.

III. Phân tích dữ liệu giao thông

Phân tích dữ liệu giao thông là một bước quan trọng trong quá trình tối ưu hóa hệ thống giao thông. Qua việc áp dụng các kỹ thuật phân tích dữ liệu tiên tiến, các nhà nghiên cứu có thể xác định các mẫu và xu hướng trong dữ liệu giao thông, từ đó đưa ra các giải pháp quản lý hiệu quả. Hệ thống UTraffic sử dụng dữ liệu từ các báo cáo giọng nói để phân tích tình trạng giao thông theo thời gian thực, giúp phát hiện sự cố và tối ưu hóa lộ trình cho người lái xe. Việc tích hợp dữ liệu từ nhiều nguồn khác nhau và xử lý chúng một cách hiệu quả là rất cần thiết để đảm bảo rằng thông tin được cung cấp là chính xác và kịp thời.

IV. Thách thức trong nhận diện giọng nói giao thông

Mặc dù công nghệ ASR đã đạt được nhiều thành tựu, vẫn tồn tại nhiều thách thức trong việc nhận diện giọng nói trong lĩnh vực giao thông. Một trong những vấn đề chính là sự thiếu hụt dữ liệu chất lượng cao để huấn luyện mô hình ASR. Dữ liệu hiện tại chủ yếu là dữ liệu tổng hợp, dẫn đến việc mô hình không thể nhận diện chính xác các báo cáo giao thông thực tế. Ngoài ra, sự khác biệt về giọng nói giữa các người dùng và điều kiện môi trường cũng có thể ảnh hưởng đến độ chính xác của mô hình. Để khắc phục những vấn đề này, việc thu thập dữ liệu từ các nguồn thay thế và áp dụng các kỹ thuật xử lý âm thanh tiên tiến là rất cần thiết.

V. Giải pháp công nghệ trong giao thông thông minh

Giải pháp công nghệ cho việc thu thập dữ liệu giao thông bằng kỹ thuật giọng nói không chỉ dừng lại ở việc phát triển mô hình ASR mà còn bao gồm việc cải thiện quy trình thu thập và xử lý dữ liệu. Việc áp dụng trí tuệ nhân tạo (AI) và học máy (machine learning) trong phân tích dữ liệu giao thông có thể giúp tối ưu hóa hiệu suất của hệ thống. Hơn nữa, việc phát triển các ứng dụng di động cho phép người dùng báo cáo tình hình giao thông một cách dễ dàng và nhanh chóng cũng là một yếu tố quan trọng. Những giải pháp này không chỉ giúp nâng cao hiệu quả trong quản lý giao thông mà còn tạo ra một hệ thống giao thông thông minh và bền vững hơn.

10/01/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ khoa học máy tính research and develop solutions to traffic data collection based on voice techniques

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh đô thị hóa nhanh chóng, hệ thống giao thông thông minh đóng vai trò quan trọng trong việc quản lý và dự báo tình trạng giao thông nhằm giảm thiểu ùn tắc và tai nạn. Hệ thống Dự Báo Tình Trạng Giao Thông Đô Thị (UTraffic) tại TP. Hồ Chí Minh sử dụng công nghệ nhận dạng giọng nói tự động (ASR) để chuyển đổi các báo cáo giao thông bằng giọng nói thành văn bản, hỗ trợ phân tích và dự báo. Tuy nhiên, hệ thống hiện tại gặp phải hai thách thức chính: thiếu hụt dữ liệu thực tế chất lượng cao để huấn luyện mô hình ASR và độ chính xác của mô hình ASR trong việc nhận dạng các báo cáo giọng nói thực tế còn hạn chế. Bộ dữ liệu hiện tại chủ yếu dựa trên dữ liệu tổng hợp, dẫn đến thiên lệch và giảm hiệu quả khi áp dụng cho dữ liệu thực tế. Mục tiêu nghiên cứu là phát triển giải pháp thu thập dữ liệu giao thông dựa trên kỹ thuật giọng nói, xây dựng pipeline xử lý dữ liệu hiệu quả và thử nghiệm các kiến trúc mô hình ASR tiên tiến nhằm nâng cao độ chính xác nhận dạng. Nghiên cứu tập trung vào dữ liệu thu thập từ kênh phát thanh VOH 95.6 MHz, dữ liệu người dùng đóng góp và dữ liệu tổng hợp, trong khoảng thời gian từ cuối năm 2022 đến đầu năm 2023 tại TP. Hồ Chí Minh. Kết quả nghiên cứu có ý nghĩa quan trọng trong việc cải thiện chất lượng dữ liệu và hiệu suất mô hình ASR, góp phần nâng cao hiệu quả quản lý giao thông đô thị thông minh.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình chính trong lĩnh vực nhận dạng giọng nói tự động (ASR), bao gồm:

Mô hình âm học (Acoustic Modeling): Sử dụng các kiến trúc mạng nơ-ron sâu như Conformer, Transformer và Branchformer để mô hình hóa mối quan hệ giữa tín hiệu âm thanh và các đơn vị phát âm. Conformer kết hợp mạng tích chập và cơ chế tự chú ý để nắm bắt cả phụ thuộc cục bộ và toàn cục trong tín hiệu âm thanh. Branchformer cải tiến bằng cách sử dụng hai nhánh song song để xử lý các mối quan hệ ở các phạm vi khác nhau, tăng tính linh hoạt và hiệu quả.
Mô hình ngôn ngữ (Language Modeling): Áp dụng các mô hình RNN và Transformer để dự đoán xác suất xuất hiện của các chuỗi từ, giúp cải thiện độ chính xác trong quá trình giải mã.
Kiến trúc kết hợp CTC/Attention: Kết hợp ưu điểm của Connectionist Temporal Classification (CTC) và cơ chế attention trong mô hình end-to-end, giúp cải thiện khả năng căn chỉnh và nhận dạng chính xác hơn.

Các khái niệm chính bao gồm: sampling rate conversion (chuyển đổi tần số lấy mẫu), speech enhancement (tăng cường giọng nói), word error rate (WER - tỷ lệ lỗi từ), real-time factor (RTF - hệ số thời gian thực), và latency (độ trễ).

Phương pháp nghiên cứu

Nguồn dữ liệu: Thu thập dữ liệu từ ba nguồn chính gồm: báo cáo giọng nói do người dùng đóng góp qua ứng dụng UTraffic (khoảng 3,251 giây), dữ liệu tổng hợp từ công cụ Vbee (khoảng 122,569 giây), và báo cáo giao thông thực tế từ kênh VOH 95.6 MHz (khoảng 25,628 giây). Dữ liệu VOH được thu thập trong giai đoạn từ 22/11/2022 đến 31/01/2023, tập trung vào chương trình "Đi an toàn, về hạnh phúc".
Phương pháp phân tích: Xây dựng pipeline xử lý dữ liệu bao gồm chuyển đổi tần số lấy mẫu về 16 kHz, chuyển đổi âm thanh đa kênh sang đơn kênh, và áp dụng mô hình tăng cường giọng nói Conv-TasNet để giảm nhiễu. Dữ liệu VOH được phiên âm thủ công nhằm đảm bảo độ chính xác cao. Mô hình ASR được phát triển trên nền tảng ESPnet, thử nghiệm ba kiến trúc hybrid CTC/attention gồm Transformer, Conformer và Branchformer. Đánh giá hiệu suất dựa trên các chỉ số WER, latency và real-time factor.
Timeline nghiên cứu: Nghiên cứu bắt đầu từ tháng 2/2023, hoàn thành thu thập và xử lý dữ liệu trong quý 1, thử nghiệm mô hình và đánh giá trong quý 2, hoàn thiện luận văn vào tháng 6/2023.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Phát triển bộ dữ liệu chất lượng cao: Bằng cách bổ sung dữ liệu thực tế từ kênh VOH 95.6 MHz (khoảng 7 giờ), bộ dữ liệu huấn luyện được mở rộng và giảm thiểu sự thiên lệch do dữ liệu tổng hợp. Tỷ lệ dữ liệu thực tế chiếm khoảng 15% tổng thời lượng, giúp mô hình học được đa dạng phong cách giọng nói và từ vựng đặc thù giao thông.
Cải thiện hiệu quả xử lý dữ liệu: Việc chuẩn hóa tần số lấy mẫu về 16 kHz và chuyển đổi âm thanh đa kênh sang đơn kênh giúp đồng nhất dữ liệu. Áp dụng Conv-TasNet giảm đáng kể nhiễu nền, làm giảm WER khoảng 1.5% so với dữ liệu chưa xử lý, từ mức 6.5% xuống còn khoảng 5%.
So sánh kiến trúc mô hình ASR: Kiến trúc Branchformer cho kết quả tốt nhất với WER thấp hơn 3-5% so với Conformer và Transformer trên cùng bộ dữ liệu thử nghiệm. Branchformer cũng thể hiện độ trễ thấp hơn và khả năng xử lý song song tốt hơn, phù hợp với yêu cầu thời gian thực.
Ảnh hưởng của mô hình ngôn ngữ: Kết hợp mô hình ngôn ngữ RNN-LM trong quá trình giải mã giúp giảm WER thêm khoảng 2%, nâng cao độ chính xác nhận dạng các thuật ngữ chuyên ngành và từ vựng địa phương.

Thảo luận kết quả

Nguyên nhân cải thiện hiệu suất mô hình ASR chủ yếu đến từ việc bổ sung dữ liệu thực tế đa dạng, giúp mô hình giảm thiểu hiện tượng overfitting vào dữ liệu tổng hợp. Việc xử lý dữ liệu âm thanh chuẩn hóa và tăng cường giọng nói làm tăng chất lượng đầu vào, giảm nhiễu và biến động âm thanh, từ đó nâng cao độ chính xác nhận dạng. So với các nghiên cứu trước đây chỉ sử dụng dữ liệu tổng hợp và kiến trúc Conformer, nghiên cứu này đã mở rộng phạm vi dữ liệu và thử nghiệm kiến trúc mới, đạt được bước tiến rõ rệt về độ chính xác và hiệu suất. Kết quả có thể được minh họa qua biểu đồ so sánh WER giữa các kiến trúc và các kịch bản xử lý dữ liệu, cũng như bảng tổng hợp các chỉ số latency và real-time factor, giúp đánh giá toàn diện hiệu quả mô hình.

Đề xuất và khuyến nghị

Tiếp tục mở rộng thu thập dữ liệu thực tế: Khuyến nghị duy trì và tăng cường thu thập báo cáo giao thông từ các kênh phát thanh địa phương và người dùng để đa dạng hóa dữ liệu, giảm thiểu thiên lệch và nâng cao khả năng tổng quát của mô hình. Mục tiêu tăng thêm ít nhất 20 giờ dữ liệu thực tế trong 12 tháng tới, do nhóm nghiên cứu và các đối tác truyền thông thực hiện.
Triển khai pipeline xử lý dữ liệu tự động: Xây dựng hệ thống tự động chuẩn hóa tần số lấy mẫu, chuyển đổi kênh và áp dụng tăng cường giọng nói để đảm bảo chất lượng dữ liệu đầu vào ổn định, giảm thiểu công sức thủ công. Thời gian hoàn thành dự kiến trong 6 tháng, do nhóm kỹ thuật phát triển.
Ưu tiên sử dụng kiến trúc Branchformer trong mô hình ASR: Do hiệu quả vượt trội về độ chính xác và tốc độ xử lý, kiến trúc Branchformer nên được triển khai chính thức trong hệ thống UTraffic, đồng thời tiếp tục nghiên cứu tối ưu tham số và mở rộng quy mô huấn luyện. Thời gian áp dụng trong vòng 3 tháng.
Tích hợp mô hình ngôn ngữ nâng cao: Phát triển và cập nhật mô hình ngôn ngữ RNN-LM hoặc Transformer-LM phù hợp với ngữ cảnh giao thông địa phương, giúp cải thiện khả năng nhận dạng từ vựng chuyên ngành và từ mới. Dự kiến hoàn thiện trong 9 tháng, phối hợp giữa nhóm nghiên cứu và chuyên gia ngôn ngữ.
Đào tạo và nâng cao nhận thức người dùng: Tổ chức các chương trình hướng dẫn người dùng ứng dụng UTraffic cách ghi âm báo cáo chính xác, giúp tăng chất lượng dữ liệu thu thập từ người dùng. Thời gian triển khai liên tục, do bộ phận truyền thông và hỗ trợ khách hàng đảm nhiệm.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và phát triển công nghệ ASR: Luận văn cung cấp kiến thức chuyên sâu về kiến trúc mô hình, xử lý dữ liệu và đánh giá hiệu suất, hỗ trợ phát triển các hệ thống nhận dạng giọng nói trong lĩnh vực giao thông và các lĩnh vực tương tự.
Chuyên gia quản lý giao thông đô thị: Các giải pháp và kết quả nghiên cứu giúp cải thiện hệ thống dự báo và quản lý giao thông thông minh, nâng cao hiệu quả vận hành và giảm thiểu ùn tắc.
Nhà phát triển phần mềm ứng dụng giao thông: Thông tin về pipeline xử lý dữ liệu và tích hợp mô hình ASR giúp xây dựng các ứng dụng thu thập và phân tích dữ liệu giao thông dựa trên giọng nói.
Cơ quan truyền thông và báo chí: Nguồn dữ liệu và phương pháp xử lý âm thanh từ kênh phát thanh VOH 95.6 MHz có thể được áp dụng để nâng cao chất lượng nội dung phát thanh và phân tích dữ liệu liên quan đến giao thông.

Câu hỏi thường gặp

Tại sao cần bổ sung dữ liệu thực tế thay vì chỉ dùng dữ liệu tổng hợp?
Dữ liệu tổng hợp thường thiếu đa dạng về giọng nói, ngữ điệu và tiếng ồn nền, dẫn đến mô hình ASR không thể nhận dạng chính xác khi áp dụng thực tế. Dữ liệu thực tế giúp mô hình học được các biến thể tự nhiên, nâng cao khả năng tổng quát.
Làm thế nào để xử lý dữ liệu âm thanh có nhiều kênh và tần số lấy mẫu khác nhau?
Dữ liệu được chuyển đổi về định dạng chuẩn gồm một kênh âm thanh và tần số lấy mẫu 16 kHz để đảm bảo tính đồng nhất, giúp mô hình ASR hoạt động hiệu quả và ổn định.
Conv-TasNet có vai trò gì trong pipeline xử lý dữ liệu?
Conv-TasNet là mô hình tăng cường giọng nói giúp giảm nhiễu nền và cải thiện chất lượng âm thanh, từ đó giảm tỷ lệ lỗi nhận dạng (WER) của mô hình ASR.
Kiến trúc Branchformer có ưu điểm gì so với Conformer?
Branchformer sử dụng hai nhánh song song để xử lý các mối quan hệ âm thanh ở phạm vi khác nhau, tăng tính linh hoạt, cải thiện hiệu suất nhận dạng và giảm độ trễ so với Conformer.
Làm thế nào để đánh giá hiệu quả của mô hình ASR?
Hiệu quả được đánh giá qua các chỉ số như Word Error Rate (WER) đo độ chính xác nhận dạng, latency đo độ trễ xử lý, và real-time factor (RTF) đo khả năng xử lý thời gian thực của mô hình.

Kết luận

Đã xây dựng thành công bộ dữ liệu giao thông thực tế chất lượng cao, bổ sung đáng kể cho dữ liệu tổng hợp hiện có.
Thiết kế pipeline xử lý dữ liệu chuẩn hóa và tăng cường giọng nói giúp cải thiện hiệu suất mô hình ASR, giảm WER khoảng 1.5%.
Kiến trúc Branchformer được xác định là lựa chọn tối ưu cho mô hình ASR trong hệ thống UTraffic, vượt trội về độ chính xác và hiệu suất so với các kiến trúc khác.
Kết hợp mô hình ngôn ngữ RNN-LM nâng cao khả năng nhận dạng từ vựng chuyên ngành và từ mới trong báo cáo giao thông.
Đề xuất các giải pháp mở rộng dữ liệu, tự động hóa xử lý, triển khai kiến trúc mới và đào tạo người dùng nhằm nâng cao hiệu quả hệ thống trong tương lai.

Next steps: Triển khai mô hình Branchformer trong hệ thống UTraffic, mở rộng thu thập dữ liệu thực tế, và phát triển pipeline xử lý tự động.

Các nhà nghiên cứu và chuyên gia trong lĩnh vực ASR và giao thông đô thị được khuyến khích áp dụng và phát triển tiếp các giải pháp dựa trên kết quả nghiên cứu này để nâng cao hiệu quả quản lý giao thông thông minh.

Trích đoạn nội dung tài liệu

VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY NGUYỄN THỊ TY RESEARCH AND DEVELOP SOLUTIONS TO TRAFFIC DATA COLLECTION BASED ON VOICE TECHNIQUES Major: Computer Science Major code: 8480101 MASTER THESIS HO CHI MINH CITY, July 2023 VIETNAM NATIONAL UNIVERSITY HO CHI MINH CITY HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY NGUYỄN THỊ TY RESEARCH AND DEVELOP SOLUTIONS TO TRAFFIC DATA COLLECTION BASED ON VOICE TECHNIQUES Major: Computer Science Major code: 8480101 MASTER THESIS HO CHI MINH CITY, July 2023 THIS THESIS IS COMPLETED AT HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY – VNU-HCM Supervisor: Assoc. Trần Minh Quang Examiner 1: Assoc. Nguyễn Văn Vũ Examiner 2: Assoc. Nguyễn Tuấn Đăng This master’s thesis is defended at HCM City University of Technology, VNU- HCM City on July 11, 2023 The board of the Master’s Thesis Defense Council includes: (Please write down the full name and academic rank of each member of the Master Thesis Defense Coun- cil) 1.

Lê Hồng Trang 2. Phan Trọng Nhân 3. Nguyễn Tuấn Đăng 5. Trần Minh Quang Approval of the Chairman of Master’s Thesis Committee and Dean of Faculty of Computer Science and Engineering after the thesis is corrected (If any).

CHAIRMAN OF THESIS COMMITTEE DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING i VIETNAM NATIONAL UNIVERSITY - HO CHI MINH CITY SOCIALIST REPUBLIC OF VIETNAM HO CHI MINH CITY UNIVERSITY OF TECHNOLOGY Independence – Freedom - Happiness THE TASK SHEET OF MASTER’S THESIS Full name: NGUYỄN THỊ TY Student code: 2171072 Date of birth: 22/11/1996 Place of birth: Binh Dinh Province Major: Computer Science Major code: 8480101 I. THESIS TITLE: Research and develop solutions to traffic data collection based on voice tech- niques (Nghiên cứu và phát triển các giải pháp thu thập dữ liệu giao thông dựa trên các kỹ thuật giọng nói). TASKS AND CONTENTS: • Task 1: Traffic Data Collection and Processing. The first task involves collecting comprehensive traffic data.

Extensive re- search will be conducted to identify reliable data sources, followed by the implementation of appropriate data collection techniques. Subsequently, ex- periments will be carried out to determine the most effective data processing methods. The aim is to enhance data quality and optimize processing effi- ciency for further analysis. • Task 2: Research and Experimentation for Automatic Speech Recognition Model Development.

In this phase, the focus will be on researching and experimenting with vari- ous architectures to develop high-performance automatic speech recognition models. Different techniques will be explored to achieve accurate speech-to- text conversion. The goal is to identify the best-performing model that meets the project’s requirements. ii • Task 3: Automatic Speech Recognition Model Evaluation and Future Work.

Once the automatic speech recognition models are developed, a comprehen- sive evaluation process will be undertaken. The achieved results will be ana- lyzed using appropriate metrics and techniques to assess their performance. Strengths and weaknesses of each model will be identified. Based on this analysis, recommendations for future work will be provided, outlining po- tential enhancements or modifications to the automatic speech recognition models.

THESIS START DAY: 06/02/2023. THESIS COMPLETION DAY: 09/06/2023. TRẦN MINH QUANG. Ho Chi Minh City, June 9, 2023 SUPERVISOR CHAIR OF PROGRAM COMMITTEE (Full name and signature) (Full name and signature) DEAN OF FACULTY OF COMPUTER SCIENCE AND ENGINEERING (Full name and signature) iii ACKNOWLEDGMENTS I would like to extend my sincere gratitude to the individuals who have provided invaluable support and assistance throughout my research journey.

I would like to express my formal appreciation to Assoc. Trần Minh Quang for his exceptional guidance, expertise, and unwavering support. His mentorship has been instrumen- tal in helping me navigate the necessary steps to complete this thesis. Whenever I encountered difficulties or felt lost, Assoc.

Quang provided invaluable advice that steered me back in the correct direction. His suggestion to process the data to enhance its quality was a significant contribution to my research. Furthermore, his assistance in establishing contact with esteemed researchers working on topics sim- ilar to mine and facilitating connections with individuals who could provide server support for training large models, such as automatic speech recognition models, has been immensely valuable. I would like to express my profound gratitude to the esteemed researchers, Mr.

Nguyễn Gia Huy and Mr. Nguyễn Tiến Thành, for their generous contributions in sharing their profound insights and knowledge. Their willingness to address my in- quiries regarding the Urban Traffic Estimation System, collected data, and existing issues has significantly enriched my comprehension of the subject matter. Further- more, I am sincerely thankful to my sisters, Ms.

Nguyễn Thị Nghĩa and Ms. Nguyễn Thị Hiển, as well as Lương Duy Hưng and Vũ Anh Nhi, for their invaluable support in meticulously creating precise transcripts for the audio files. Furthermore, I would like to express my deep appreciation to Mr. Tăng Quốc Thái for his diligent efforts in meticulously collecting and securely storing the traffic reports from VOH 95.

Additionally, I am profoundly grateful to Mr. Mai Tấn Hà, who graciously provided me with access to a server for the training of automatic speech recognition models. His generosity and support have been instrumental in en- abling the successful execution of the model training process. I would also like to extend my formal gratitude to Dr.

Lê Thành Sách and Mr. Nguyễn Hoàng Minh from the Data Science Laboratory at Ho Chi Minh City University of Technology (HC- iv MUT) for their kind approval in granting me the opportunity to utilize an independent server for automatic speech recognition model training. Their trust and support from the Data Science Laboratory have been pivotal in facilitating the smooth progress of my research. In addition, I am sincerely thankful for the invaluable support rendered by my friends, Mr.

Nguyễn Tấn Sang and Mr. Huỳnh Ngọc Thiện, in working with the server that has limited permissions. Their expertise and assistance have been in- dispensable in effectively navigating the constraints imposed by the server limitations. Lastly, I would like to express my heartfelt gratitude to my boss, co-workers, friends, and family for their unwavering emotional support and understanding during the challenging times that I encountered throughout this research endeavor.

Their encouragement and belief in my abilities have been instrumental in my success. Once again, I am deeply grateful to all of the individuals mentioned above for their significant contributions and support, without which this thesis would not have been possible. v ABSTRACT This thesis addresses two fundamental challenges within the domain of the cur- rent intelligent traffic system, specifically the Urban Traffic Estimation (UTraffic) System. The first challenge pertains to the insufficiency of data that meets the req- uisite standards for training the automatic speech recognition (ASR) model that will be deployed in the UTraffic system.

The current dataset predominantly consists of synthesized data, resulting in a bias towards recognizing synthesized traffic speech reports while struggling to accurately transcribe real-life traffic speech reports im- ported by UTraffic users. The second challenge involves the accuracy of the ASR model deployed in the current UTraffic system, particularly in transcribing real-life traffic speech reports into text. To address these challenges, this research proposes several approaches. Firstly, an alternative traffic data source is identified to reduce the reliance on synthesized data and mitigate the bias.

Secondly, a pipeline incorporating audio processing tech- niques such as sampling rate conversion and speech enhancement is designed to ef- fectively process the dataset, with the ultimate objective of improving ASR model performance. Thirdly, advanced and suitable ASR architectures are experimented with using the processed dataset to identify the most optimal model for deployment within the UTraffic system. Significant achievements have been obtained through this research. Firstly, a new dataset of superior quality compared to the previous one has been developed.

Con- tinuous data collection from the alternative traffic data source can further enhance this dataset, making it a valuable resource for future research endeavors aiming to im- prove the ASR model deployed in the UTraffic system. Additionally, notable progress has been made in improving the accuracy of the ASR model compared to the results achieved by the current architecture of the UTraffic system’s ASR model. vi TÓM TẮT LUẬN VĂN Luận văn này giải quyết hai thách thức cơ bản trong lĩnh vực hệ thống giao thông thông minh hiện tại, cụ thể là Hệ Thống Dự Báo Tình Trạng Giao Thông Đô Thị (UTraffic). Thách thức đầu tiên liên quan đến sự thiếu hụt dữ liệu đáp ứng tiêu chuẩn cần thiết cho việc huấn luyện mô hình nhận dạng giọng nói tự động (ASR), sẽ được triển khai trong hệ thống UTraffic.

Bộ dữ liệu hiện tại chủ yếu bao gồm dữ liệu tổng hợp, dẫn đến sự thiên vị cho việc nhận dạng các báo cáo giao thông tạo từ giọng nói tổng hợp, trong khi gặp khó khăn trong việc chuyển các báo cáo giao thông ở dạng giọng nói được cung cấp bởi người dùng UTraffic sang văn bản chính xác. Thách thức thứ hai liên quan đến độ chính xác của mô hình ASR triển khai trong hệ thống UTraffic hiện tại. Để giải quyết những thách thức này, nghiên cứu này đề xuất một số phương pháp. Thứ nhất, xác định nguồn dữ liệu giao thông thay thế để giảm thiểu sự phụ thuộc vào dữ liệu tổng hợp.

Thứ hai, thiết kế luồng xử lý thích hợp, trong đó kết hợp các kỹ thuật xử lý âm thanh như chuyển đổi tỉ lệ lấy mẫu và tăng cường giọng nói để xử lý hiệu quả bộ dữ liệu đang có, với mục tiêu cuối cùng là cải thiện hiệu suất mô hình ASR. Thứ ba, thử nghiệm bộ dữ liệu đã được xử lý trên các kiến trúc ASR tiên tiến để xác định được mô hình tối ưu nhất cho việc triển khai trong hệ thống UTraffic. Nghiên cứu này đã đạt được thành tựu đáng kể. Thứ nhất, chúng ta hình thành được một bộ dữ liệu mới có chất lượng vượt trội hơn so với bộ dữ liệu ban đầu.

Việc tiếp tục thu thập dữ liệu từ nguồn thay thế có thể nâng cao hơn nữa chất lượng của bộ dữ liệu hiện có, biến nó thành nguồn tài nguyên quý giá cho những nỗ lực nghiên cứu cải thiện hiệu suất mô hình ASR triển khai trong hệ thống UTraffic trong tương lai. Ngoài ra, so với các kết quả đạt được bởi mô hình ASR hiện tại trong hệ thống UTraffic, chúng ta đã đạt được những tiến bộ đáng kể, đặc biệt trong việc cải thiện độ nhận dạng giọng nói chính xác. vii DECLARATION I, Nguyễn Thị Ty, solemnly declare that this thesis titled "Research and develop solutions to traffic data collection based on voice techniques" is the result of my own work, conducted under the supervision of Assoc. Trần Minh Quang.

I af- firm that all the information presented in this thesis is based on my own knowledge, research, and understanding, acquired through extensive study and investigation. I further declare that any external assistance, whether in the form of data, ideas, or references, has been duly acknowledged and properly cited in accordance with the established academic conventions. I have provided appropriate references and citations for all the sources and materials used in this thesis, giving credit to the original authors and their contributions. I acknowledge that this thesis is intended to fulfill the demands of society and to contribute to the existing body of knowledge in the field.

It represents the culmination of my efforts, dedication, and commitment to advancing knowledge and understand- ing in this area. I hereby affirm that this thesis is an authentic and original piece of work, and I take full responsibility for its content. I understand the consequences of any act of plagiarism or academic dishonesty, and I assure that this thesis has been prepared with utmost integrity and honesty.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Bài luận văn thạc sĩ mang tựa đề Nghiên cứu và phát triển giải pháp thu thập dữ liệu giao thông dựa trên kỹ thuật giọng nói của tác giả Nguyễn Thị Ty, dưới sự hướng dẫn của PGS. Trần Minh Quang, thuộc Trường Đại học Quốc gia TP.HCM, tập trung vào việc ứng dụng công nghệ giọng nói để thu thập và phân tích dữ liệu giao thông. Nghiên cứu này không chỉ mang lại giải pháp hiệu quả cho việc thu thập thông tin giao thông mà còn nâng cao khả năng xử lý dữ liệu, từ đó cải thiện quản lý giao thông và giảm thiểu ùn tắc. Những lợi ích mà bài viết này mang lại cho độc giả bao gồm cái nhìn sâu sắc về công nghệ giọng nói trong lĩnh vực giao thông và những ứng dụng tiềm năng của nó.

Để mở rộng thêm kiến thức của bạn về các chủ đề liên quan, bạn có thể tham khảo bài viết Giải pháp thanh toán nhanh món ăn ở căn tin trường học thông qua thuật toán nhận dạng hình ảnh, nơi mà công nghệ thông tin cũng được ứng dụng để cải thiện trải nghiệm người dùng. Thêm vào đó, bài viết Luận văn thạc sĩ về quản lý sự cố hạ tầng mạng bằng hệ thống thông tin số hóa sẽ cung cấp cho bạn cái nhìn về cách công nghệ thông tin có thể hỗ trợ trong việc quản lý hạ tầng mạng, tương tự như việc thu thập dữ liệu giao thông. Cuối cùng, bài viết Các Tấn Công Tích Cực Lên Hệ Thống Thông Tin Di Động 5G sẽ giúp bạn hiểu thêm về các thách thức trong lĩnh vực công nghệ thông tin, điều này rất quan trọng trong bối cảnh thu thập dữ liệu và bảo mật thông tin.

#Phân tích dữ liệu

#công nghệ thông tin

#trí tuệ nhân tạo

#hệ thống giao thông thông minh

#giải pháp thu thập dữ liệu

#kỹ thuật giọng nói

Chủ đề

Công nghệ giao thông

Trí tuệ nhân tạo và ứng dụng

Kỹ thuật giọng nói trong thu thập dữ liệu

Phát triển hệ thống giao thông thông minh