Phương Pháp Học Bán Giám Sát Cho Bài Toán Trích Chọn Thông Tin Tên Điện Thoại Di Động

Khám phá nội dung chi tiết của Luanvan luutuanthanh ch17ht 1784801040011 l7, cung cấp thông tin hữu ích cho nghiên cứu và học tập.

Trường đại học

Đại học Thủ Dầu Một

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

I. MỤC LỤC

DANH MỤC VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC HÌNH VẼ, ĐỒ THỊ

1. CHƯƠNG I: GIỚI THIỆU CHUNG

1.1. Lí do thực hiện đề tài

1.2. Mục tiêu nghiên cứu

1.3. Đối tượng, phạm vi nghiên cứu

1.4. Phương pháp nghiên cứu

1.5. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài

1.5.1. Ý nghĩa khoa học

1.5.2. Ý nghĩa thực tiễn

1.6. Bố cục luận văn

2. CHƯƠNG II: CƠ SỞ LÝ THUYẾT

2.1. Xử lý ngôn ngữ tự nhiên

2.2. Xác định loại từ trong câu (Part-of-Speech tagging - POS tagging)

2.3. Xác định cụm từ (Chunking)

2.4. Phân tích cú pháp (Parsing)

2.5. Các phương pháp biểu diễn từ dưới dạng vector

2.5.1. Biểu diễn túi từ - Bag of words

2.5.2. Biểu diễn One-hot-vector

2.5.3. Túi từ liên tục - CBOW

2.6. Học sâu - Deep Learning

2.6.1. Mạng nơ ron nhân tạo (ANN)

2.6.2. Mạng nơ-ron hồi quy RNN (Recurrent Neural Network)

2.6.3. Bộ nhớ dài-ngắn LSTM (Long-short term memory)

2.6.4. Mạng nơ ron ngắn dài song song LSTM (Bidirectional Long-short term memory)

2.7. Phương pháp học bán giám sát

2.8. Ví dụ về học giám sát

2.9. Xác định thực thể tên điện thoại di động

2.10. Tổng quan về bài toán Trích chọn thực thể tên điện thoại di động

2.11. Hướng tiếp cận nghiên cứu

2.12. Các nghiên cứu gần đây

2.13. Đề xuất hướng nghiên cứu

3. CHƯƠNG III: MÔ HÌNH ĐỀ XUẤT

3.1. Tổng quan mô hình đề xuất

3.2. Các đặc trưng của mô hình đề xuất

3.3. Từ nhúng – Word embeddings

3.4. Các đặc trưng cú pháp

3.5. Trích chọn tên thực thể điện thoại di động

3.6. Mô hình học sâu trong bài toán trích chọn tên điện thoại di động

3.7. Trích chọn tên điện thoại di động

3.8. Cách đánh giá

4. CHƯƠNG IV: THỰC NGHIỆM

4.1. Môi trường thực nghiệm

4.2. Dữ liệu thực nghiệm

4.3. Thu thập dữ liệu

4.4. Xử lý dữ liệu

4.5. Kết quả Thực nghiệm

4.5.1. Trích xuất đặc trưng

4.5.2. Thực nghiệm giữa phương pháp LSTM và BiLSTM với đặc trưng từ

4.5.3. Thực nghiệm BiLSTM với đặc trưng từ và số vòng huấn luyện khác nhau

4.5.4. Thực nghiệm phương pháp sử dụng các lớp BiLSTM với đặc trưng từ

4.5.5. Thực nghiệm phương pháp BiLSTM với đặc trưng từ và tỉ lệ Dropout khác nhau

4.6. Xây dựng ứng dụng Web trực quan hóa kết quả

4.6.1. Thiết kế Xây dựng Web

5. CHƯƠNG V: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết quả đạt được

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Phương Pháp Học Bán Giám Sát Trong Trích Chọn Thông Tin

Phương pháp học bán giám sát là một kỹ thuật quan trọng trong lĩnh vực học máy, đặc biệt trong việc trích chọn thông tin tên điện thoại di động. Kỹ thuật này kết hợp giữa học có giám sát và không giám sát, giúp cải thiện độ chính xác của mô hình mà không cần một lượng lớn dữ liệu đã gán nhãn. Việc áp dụng phương pháp này trong trích chọn thông tin giúp tối ưu hóa quy trình và nâng cao hiệu quả nhận diện tên điện thoại di động.

1.1. Khái niệm về học bán giám sát

Học bán giám sát là phương pháp học máy sử dụng cả dữ liệu đã gán nhãn và chưa gán nhãn. Điều này giúp giảm thiểu chi phí gán nhãn mà vẫn đạt được hiệu suất cao trong việc phân loại và trích xuất thông tin.

1.2. Lợi ích của phương pháp trong trích chọn thông tin

Phương pháp này cho phép khai thác thông tin từ các nguồn dữ liệu phong phú mà không cần phải gán nhãn toàn bộ, từ đó tiết kiệm thời gian và nguồn lực trong quá trình phát triển hệ thống.

II. Vấn đề và Thách thức Trong Trích Chọn Thông Tin Tên Điện Thoại Di Động

Trích chọn thông tin tên điện thoại di động gặp nhiều thách thức do sự đa dạng và phong phú của ngôn ngữ tự nhiên. Các vấn đề như độ chính xác trong việc nhận diện tên, sự nhầm lẫn giữa các tên tương tự, và việc xử lý các ngữ cảnh khác nhau là những thách thức lớn. Ngoài ra, việc thu thập dữ liệu chất lượng cao cũng là một yếu tố quan trọng.

2.1. Độ chính xác trong nhận diện tên

Độ chính xác là yếu tố quyết định trong việc trích chọn tên điện thoại. Các mô hình cần phải được huấn luyện để phân biệt rõ ràng giữa các tên tương tự và các thực thể khác.

2.2. Khó khăn trong việc thu thập dữ liệu

Việc thu thập dữ liệu chất lượng cao từ nhiều nguồn khác nhau là một thách thức lớn. Dữ liệu không đồng nhất có thể dẫn đến việc mô hình học không chính xác.

III. Phương Pháp Học Bán Giám Sát Được Áp Dụng Trong Trích Chọn Thông Tin

Phương pháp học bán giám sát được áp dụng để cải thiện hiệu suất của các mô hình trích chọn thông tin. Bằng cách kết hợp dữ liệu đã gán nhãn và chưa gán nhãn, mô hình có thể học được các đặc trưng quan trọng mà không cần quá nhiều dữ liệu đã gán nhãn. Các thuật toán như BiLSTM và các phương pháp học sâu khác được sử dụng để tối ưu hóa quá trình này.

3.1. Ứng dụng BiLSTM trong trích chọn thông tin

BiLSTM là một trong những mô hình học sâu hiệu quả nhất cho bài toán trích chọn thông tin. Mô hình này giúp cải thiện độ chính xác nhờ vào khả năng xử lý thông tin theo cả hai chiều.

3.2. Kết hợp dữ liệu chưa gán nhãn

Việc sử dụng dữ liệu chưa gán nhãn trong quá trình huấn luyện giúp mô hình học được nhiều đặc trưng hơn, từ đó nâng cao khả năng nhận diện tên điện thoại di động.

IV. Ứng Dụng Thực Tiễn Của Phương Pháp Học Bán Giám Sát

Phương pháp học bán giám sát đã được áp dụng thành công trong nhiều ứng dụng thực tiễn, đặc biệt trong lĩnh vực thương mại điện tử và quảng cáo. Hệ thống trích chọn tên điện thoại di động giúp người dùng dễ dàng tìm kiếm và so sánh các sản phẩm, từ đó đưa ra quyết định mua sắm chính xác hơn.

4.1. Hệ thống trích chọn tên điện thoại di động

Hệ thống này cho phép người dùng nhập văn bản và nhận diện tên điện thoại một cách nhanh chóng và chính xác, giúp tiết kiệm thời gian tìm kiếm thông tin.

4.2. Tác động đến quyết định mua sắm

Việc cung cấp thông tin chính xác về tên điện thoại giúp người tiêu dùng đưa ra quyết định mua sắm thông minh hơn, từ đó nâng cao trải nghiệm người dùng.

V. Kết Luận và Tương Lai Của Phương Pháp Học Bán Giám Sát

Phương pháp học bán giám sát trong trích chọn thông tin tên điện thoại di động đã chứng minh được hiệu quả và tiềm năng phát triển. Trong tương lai, việc cải tiến các thuật toán và mở rộng ứng dụng của phương pháp này sẽ mang lại nhiều giá trị hơn cho người dùng và các doanh nghiệp.

5.1. Tiềm năng phát triển

Với sự phát triển không ngừng của công nghệ, phương pháp học bán giám sát sẽ tiếp tục được cải tiến và ứng dụng rộng rãi hơn trong nhiều lĩnh vực khác nhau.

5.2. Hướng nghiên cứu tiếp theo

Nghiên cứu tiếp theo có thể tập trung vào việc tối ưu hóa các mô hình học sâu và phát triển các ứng dụng mới dựa trên phương pháp học bán giám sát.

09/07/2025

Bạn đang xem trước tài liệu:

Luanvan luutuanthanh ch17ht 1784801040011 l7

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0, với sự phát triển mạnh mẽ của trí tuệ nhân tạo (AI), dữ liệu lớn (Big Data) và Internet vạn vật (IoT), nhu cầu xử lý và trích xuất thông tin từ các nguồn dữ liệu phi cấu trúc ngày càng tăng cao. Đặc biệt, trong lĩnh vực công nghệ thông tin, các ứng dụng xử lý ngôn ngữ tự nhiên (NLP) như tóm tắt văn bản, dịch máy, trích xuất thông tin và trả lời câu hỏi tự động đã trở thành những công cụ thiết yếu. Một trong những bài toán quan trọng là trích chọn thực thể tên, trong đó có tên điện thoại di động, nhằm hỗ trợ người dùng tiếp cận thông tin chính xác và nhanh chóng.

Tại Việt Nam, thị trường điện thoại di động phát triển nhanh với số lượng sản phẩm mới ra mắt ngày càng nhiều, dẫn đến nhu cầu cập nhật thông tin chính xác về các sản phẩm này trở nên cấp thiết. Tuy nhiên, thông tin trên mạng thường bị nhiễu loạn do quảng cáo và thiếu phân loại rõ ràng, gây khó khăn cho người tiêu dùng trong việc lựa chọn. Do đó, việc xây dựng một hệ thống trích chọn tên điện thoại di động từ văn bản tiếng Việt có ý nghĩa thực tiễn lớn.

Mục tiêu nghiên cứu là phát triển phương pháp học bán giám sát kết hợp mạng nơ ron sâu BiLSTM và từ nhúng (word embeddings) để trích chọn chính xác tên điện thoại di động trong văn bản tiếng Việt. Nghiên cứu sử dụng bộ dữ liệu thu thập từ hàng trăm bài báo và trang thương mại điện tử, gồm ba tập huấn luyện, phê chuẩn và kiểm tra, với các cột dữ liệu từ, POS, CHUNK và TAG. Kết quả thực nghiệm cho thấy phương pháp đề xuất đạt độ chính xác 74,04%, đồng thời xây dựng ứng dụng web trực quan hỗ trợ người dùng trích xuất thông tin.

Phạm vi nghiên cứu tập trung vào văn bản tiếng Việt liên quan đến tên điện thoại di động, với dữ liệu thu thập chủ yếu từ các trang thương mại điện tử trong khoảng thời gian gần đây. Ý nghĩa nghiên cứu không chỉ nằm ở việc nâng cao hiệu quả trích xuất thông tin mà còn góp phần phát triển các ứng dụng NLP phục vụ người dùng và doanh nghiệp trong lĩnh vực công nghệ.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Nghiên cứu dựa trên các lý thuyết và mô hình sau:

Xử lý ngôn ngữ tự nhiên (NLP): Bao gồm các kỹ thuật tách từ (tokenization), gán nhãn từ loại (POS tagging), phân cụm từ (chunking) và phân tích cú pháp (parsing). Đây là các bước tiền xử lý quan trọng để chuẩn bị dữ liệu cho các mô hình học máy.
Biểu diễn từ dưới dạng vector (Word Embeddings): Sử dụng các kỹ thuật như Continuous Bag of Words (CBOW) và Skip-gram trong Word2Vec để biểu diễn từ thành các vector số thực có khả năng phản ánh ngữ nghĩa và mối quan hệ giữa các từ.
Mạng nơ ron nhân tạo (ANN) và học sâu (Deep Learning): Mạng nơ ron hồi quy (RNN), đặc biệt là mạng bộ nhớ ngắn dài (LSTM) và mạng nơ ron ngắn dài song song (BiLSTM), được sử dụng để xử lý dữ liệu tuần tự như văn bản. BiLSTM cho phép mô hình học cả thông tin ngữ cảnh trước và sau từ cần dự đoán, nâng cao hiệu quả nhận dạng thực thể.
Phương pháp học bán giám sát: Kết hợp dữ liệu có gán nhãn và chưa gán nhãn để cải thiện hiệu quả học máy, giảm thiểu chi phí gán nhãn dữ liệu lớn.

Các khái niệm chính bao gồm: Tokenization, POS tagging, Chunking, Word Embeddings, BiLSTM, và học bán giám sát.

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ dữ liệu được thu thập từ các trang báo và website thương mại điện tử như thegioididong, bao gồm hàng trăm bài viết liên quan đến điện thoại di động. Dữ liệu được chia thành ba tập: huấn luyện, phê chuẩn và kiểm tra, mỗi tập gồm các cột từ, POS, CHUNK và TAG.
Phương pháp phân tích: Sử dụng mô hình học sâu BiLSTM kết hợp với từ nhúng được huấn luyện sẵn (pretrained word embeddings) để nhận dạng tên thực thể điện thoại di động. Các đặc trưng cú pháp tự động cũng được tích hợp làm đầu vào cho mô hình.
Timeline nghiên cứu: Quá trình nghiên cứu bao gồm thu thập và xử lý dữ liệu, xây dựng mô hình, huấn luyện và đánh giá mô hình, phát triển ứng dụng web trực quan. Thời gian thực hiện kéo dài trong năm 2021.
Cỡ mẫu và chọn mẫu: Bộ dữ liệu gồm hàng nghìn câu tiếng Việt liên quan đến điện thoại di động, được chọn lọc từ các nguồn tin cậy nhằm đảm bảo tính đại diện và đa dạng của dữ liệu.
Lý do lựa chọn phương pháp: BiLSTM được chọn vì khả năng xử lý tốt dữ liệu tuần tự và ngữ cảnh hai chiều, trong khi học bán giám sát giúp tận dụng dữ liệu chưa gán nhãn hiệu quả, giảm chi phí và tăng độ chính xác.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả mô hình BiLSTM kết hợp từ nhúng: Mô hình đạt độ chính xác cao nhất là 74,04% trong việc trích chọn tên điện thoại di động, vượt trội so với các phương pháp truyền thống như SVM hay cây quyết định.
Ảnh hưởng của đặc trưng cú pháp: Việc kết hợp các đặc trưng cú pháp tự động với từ nhúng làm đầu vào cho BiLSTM giúp cải thiện độ chính xác khoảng 5-7% so với chỉ sử dụng từ nhúng.
Tác động của số vòng huấn luyện và tỷ lệ Dropout: Thực nghiệm cho thấy số vòng huấn luyện tối ưu là khoảng 20-30 epochs, với tỷ lệ Dropout 0.3 giúp tránh overfitting và nâng cao hiệu quả mô hình.
Ứng dụng web trực quan: Ứng dụng web xây dựng cho phép người dùng nhập văn bản tiếng Việt và nhận diện tên điện thoại di động một cách trực quan, hỗ trợ phân tích kết quả qua biểu đồ và bảng số liệu.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả cao đến từ việc sử dụng BiLSTM, cho phép mô hình học được ngữ cảnh hai chiều trong câu, rất quan trọng trong ngôn ngữ tiếng Việt có cấu trúc phức tạp. Việc tích hợp đặc trưng cú pháp giúp mô hình hiểu sâu hơn về cấu trúc câu, từ đó nâng cao khả năng nhận dạng thực thể.

So sánh với các nghiên cứu trước đây chủ yếu tập trung vào các ngôn ngữ như tiếng Anh, tiếng Trung, nghiên cứu này đóng góp quan trọng trong việc phát triển NLP cho tiếng Việt, một ngôn ngữ có đặc thù riêng biệt về cú pháp và ngữ nghĩa.

Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác giữa các mô hình, bảng thống kê tham số huấn luyện và biểu đồ phân tích hiệu quả ứng dụng web, giúp minh họa rõ ràng các kết quả đạt được.

Đề xuất và khuyến nghị

Phát triển thêm bộ dữ liệu đa dạng: Mở rộng bộ dữ liệu thu thập từ nhiều nguồn khác nhau, bao gồm các trang mạng xã hội và diễn đàn để tăng tính đại diện và cải thiện độ chính xác mô hình.
Tối ưu hóa mô hình học sâu: Áp dụng các kỹ thuật điều chỉnh siêu tham số nâng cao như tìm kiếm lưới (grid search) hoặc tối ưu hóa Bayesian để nâng cao hiệu suất mô hình BiLSTM.
Mở rộng ứng dụng trích chọn thực thể: Phát triển thêm các loại thực thể khác như tên nhà sản xuất, địa điểm, và các thông số kỹ thuật điện thoại để phục vụ đa dạng nhu cầu người dùng.
Triển khai hệ thống trên nền tảng đám mây: Đưa ứng dụng web lên nền tảng đám mây để tăng khả năng truy cập, mở rộng quy mô và cải thiện trải nghiệm người dùng.
Tăng cường đào tạo và phổ biến: Tổ chức các khóa đào tạo, hội thảo về ứng dụng NLP trong lĩnh vực công nghệ thông tin để nâng cao nhận thức và kỹ năng cho các nhà nghiên cứu và doanh nghiệp.

Các giải pháp trên nên được thực hiện trong vòng 1-2 năm tới, với sự phối hợp giữa các trường đại học, viện nghiên cứu và doanh nghiệp công nghệ.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành công nghệ thông tin: Có thể sử dụng luận văn làm tài liệu tham khảo để phát triển các nghiên cứu về xử lý ngôn ngữ tự nhiên và học sâu cho tiếng Việt.
Doanh nghiệp công nghệ và thương mại điện tử: Áp dụng mô hình trích chọn thực thể để cải thiện hệ thống tìm kiếm, phân loại sản phẩm và phân tích dữ liệu khách hàng.
Nhà phát triển phần mềm và ứng dụng web: Tham khảo phương pháp và ứng dụng web được xây dựng để phát triển các công cụ tương tác người dùng hiệu quả hơn.
Cơ quan quản lý và nghiên cứu thị trường: Sử dụng kết quả nghiên cứu để khai thác thông tin thị trường điện thoại di động, hỗ trợ ra quyết định và phân tích xu hướng tiêu dùng.

Mỗi nhóm đối tượng sẽ nhận được lợi ích cụ thể như nâng cao hiệu quả nghiên cứu, cải thiện sản phẩm, tối ưu hóa quy trình kinh doanh và hỗ trợ phân tích dữ liệu chính xác.

Câu hỏi thường gặp

Phương pháp học bán giám sát là gì?
Phương pháp học bán giám sát kết hợp dữ liệu có gán nhãn và chưa gán nhãn để cải thiện hiệu quả học máy, giảm chi phí gán nhãn. Ví dụ, mô hình BiLSTM trong nghiên cứu sử dụng cả dữ liệu huấn luyện và dữ liệu chưa gán nhãn để nâng cao độ chính xác.
Tại sao chọn BiLSTM cho bài toán trích chọn thực thể?
BiLSTM xử lý dữ liệu tuần tự theo cả hai chiều, giúp mô hình hiểu ngữ cảnh trước và sau từ cần dự đoán, rất phù hợp với ngôn ngữ tiếng Việt có cấu trúc phức tạp.
Bộ dữ liệu nghiên cứu được thu thập như thế nào?
Dữ liệu được crawl từ hàng trăm bài báo và trang thương mại điện tử, bao gồm các cột từ, POS, CHUNK và TAG, đảm bảo tính đa dạng và đại diện cho ngôn ngữ tiếng Việt trong lĩnh vực điện thoại di động.
Ứng dụng web trích chọn thực thể có những tính năng gì?
Ứng dụng cho phép người dùng nhập văn bản tiếng Việt và nhận diện tên điện thoại di động, đồng thời trực quan hóa kết quả qua biểu đồ và bảng số liệu, hỗ trợ phân tích và so sánh.
Mô hình có thể áp dụng cho các thực thể khác ngoài tên điện thoại không?
Có thể, với việc mở rộng bộ dữ liệu và điều chỉnh mô hình, phương pháp học sâu BiLSTM kết hợp từ nhúng có thể áp dụng cho các loại thực thể khác như tên người, địa điểm, tổ chức.

Kết luận

Luận văn đã phát triển thành công phương pháp học bán giám sát kết hợp BiLSTM và từ nhúng để trích chọn tên điện thoại di động trong văn bản tiếng Việt với độ chính xác đạt 74,04%.
Nghiên cứu đã xây dựng bộ dữ liệu đa dạng và ứng dụng web trực quan hỗ trợ người dùng trong việc nhận diện và phân tích thông tin.
Kết quả thực nghiệm chứng minh hiệu quả vượt trội so với các phương pháp truyền thống, đồng thời mở ra hướng phát triển cho các bài toán NLP tiếng Việt.
Đề xuất các giải pháp mở rộng dữ liệu, tối ưu mô hình và triển khai ứng dụng trên nền tảng đám mây nhằm nâng cao hiệu quả và khả năng ứng dụng thực tiễn.
Khuyến khích các nhà nghiên cứu, doanh nghiệp và cơ quan quản lý tham khảo và áp dụng kết quả nghiên cứu để phát triển các ứng dụng công nghệ thông tin và khai thác dữ liệu hiệu quả hơn.

Hành động tiếp theo là mở rộng bộ dữ liệu, hoàn thiện mô hình và triển khai ứng dụng rộng rãi trong thực tế nhằm đáp ứng nhu cầu ngày càng tăng về xử lý thông tin trong kỷ nguyên số.

Trích đoạn nội dung tài liệu

Chương 1 – Giới thiệu chung Trình bày lý do chọn đề tài, mục tiêu, đối tượng - phạm vi và phương pháp nghiên cứu, ý nghĩa của đề tài.  Chương 2 – Cơ sở lý thuyết Giới thiệu tổng quan về xử lí ngôn ngữ tự nhiên, các phương pháp, công cụ để tách từ, gán nhãn từ loại, gán nhãn cụm từ, phân tích cú pháp; Giới thiệu về các cách biểu diễn từ thành vector, mạng nơ ron nhân tạo, kỹ thuật lan truyền ngược; Phương pháp học sâu để sử dụng cho bài toán, Trình bày tổng quan hệ thống trích chọn tên điện thoại di động, hướng tiếp cận và các nghiên cứu liên quan; Đề xuất hướng nghiên cứu.  Chương 3 – Mô hình đề xuất Trình bày tổng quan mô hình đề xuất, các đặc trưng trong mô hình; Chi tiết hệ thống trích chọn thực thể tên điện thoại di động.  Chương 4 – Thực nghiệm Giới thiệu bộ dữ liệu, quá trình xử lí dữ liệu, phương pháp đánh giá, phần thực nghiệm và đánh giá thực nghiệm theo các khía cạnh khác nhau để chọn mô hình tối ưu cho hệ thống trích chọn thực thể tên điện thoại di động.

 Chương 5 – Kết luận và hướng phát triển 4 CHƯƠNG II CƠ SỞ LÝ THUYẾT Trong chương này, chúng tôi sẽ giới thiệu tổng quan về cách xử lý ngôn ngữ tự nhiên như tách từ (Tokenizer), cách xác định loại từ, cụm từ và phân tích cú pháp trong câu. Đồng thời giới thiệu các phương pháp biểu diễn và xác định được phương pháp học sâu được sử dụng trong luận văn để xác định thực thể tên điện thoại di động và đề xuất hướng nghiên cứu sau này. Xử lý ngôn ngữ tự nhiên Trong thời đại hiện nay, cuộc cách mạng công nghiệp 4.0, việc xử lý các ngôn ngữ tự nhiên đang được nghiên cứu và phát triển mạnh mẽ. Xử lý ngôn ngữ tự nhiên có tên tiếng Anh là: Natural Language Processing.

Đây là các kĩ thuật, phương pháp nhằm hỗ trợ cho các hệ thống máy tính hiểu, xử lý, nhận dạng ngôn ngữ tự nhiên như: tiếng Việt, tiếng Anh. Có rất nhiều nghiên cứu về NLP nhưng có thể phân thành các nhánh nghiên cứu như: Phân tích cảm xúc (Sentiment), Phân loại tài liệu (Classification), Dịch máy (Translation), Tóm tắt văn bản (Topic Modelling), Trích xuất thông tin (Information Extraction), … Các Trợ lý thông minh như Siri của Apple, Alexa của Amazon và Ok Google của Google bắt đầu xác định các mẫu trong giọng nói, nhận dạng giọng nói, suy ra ý nghĩa và đưa ra phản hồi. Mô hình xử lý ngôn ngữ tự nhiên1 1 https://ichi.pro/vi/xu-ly-ngon-ngu-tu-nhien-bang-python-nltk-101258229749293 5 Trích xuất thông tin bài toán lấy ra những thành phần thông tin cụ thể của một văn bản, những thành phần này chính là hạt nhân tạo nên nội dung ngữ nghĩa của văn bản đó. Có nhiều mức độ trích chọn thông tin từ văn bản như xác định các thực thể (Element Extraction), xác định quan hệ giữa các thực thể (Relation Extraction), xác định và theo dõi các sự kiện và các kịch bản (Event and Scenario Extraction and Tracking), xác định đồng tham chiếu (Co-reference Resolution).

Các kĩ thuật được sử dụng trong trích chọn thông tin gồm có: phân đoạn, phân lớp, kết hợp và phân cụm.16 Từ đây sẽ có nhiều ứng dụng cho nhiều domain như Text and Web mining (rút trích tên người nổi tiếng, sản phẩm đang hot, so sánh giá sản phẩm, nghiên cứu đối thủ cạnh tranh, phân tích tâm lý khách hàng), Biomedical, Business intelligent, Financial professional (đánh giá thị trường từ các nguồn khác nhau: giá xăng dầu tăng giảm, thông tin chiến tranh - chính trị giữa các nước, điều luật mới trong thị trường kinh doanh), Terrism event (sử dụng vũ khí gì, đối tượng tấn công là ai). Sau các bước tiền xử lý thiên về từ vựng và cú pháp như tách câu, tách từ, phân tích cú pháp, gán nhãn từ loại. Từ IE ta sẽ đơn giản hóa thành các bài toán con gồm: Rút trích tên thực thể (Named entity recognition – NER: people, organization, location), phân giải đồng tham chiếu (Coreference resolution) và Rút trích quan hệ giữa hai thực thể (Relation extraction). Bài toán nhận dạng ra các thực thể có tên trong văn bản là một nhiệm vụ cốt lõi trong trích xuất thông tin.

Trích xuất (trích chọn) các thực thể trong văn bản2 2. Tách từ (ViTokenizer) Để có thể trích chọn được các thực thể tên điện thoại di động trong các văn bản dữ liệu ban đầu cần phải qua bước tiền xử lý để tách câu, phân đoạn từ (tách từ), chuẩn bị dữ liệu đầu vào cho bước tiếp theo. Từ là một đơn vị nhỏ nhất có nghĩa độc lập, có thể giữ một chức năng ngữ pháp nhất định và có thể quy về một từ loại nhất định, có khả năng tách biệt khỏi những từ bên cạnh để có thể phân biệt được với những bộ phận tạo thành từ. Tính hoàn chỉnh trong nội bộ của từ là cần thiết cho nó, với tư cách một từ riêng biệt, phân biệt với cụm từ.

Tính hoàn chỉnh và tính tách biệt về ý nghĩa là bắt buộc với mỗi từ. Từ được cấu tạo nhờ các từ tố (hình vị), một từ có thể có một, hai hoặc nhiều âm tiết tạo nên, nên có rất nhiều cách phân chia các âm tiết thành các từ, gây ra nhập nhằng. Việc phân giải nhập nhằng này gọi là bài toán tách từ. Nói cách khác, từ được tạo ra nhờ một hoặc một số hình vị kết hợp với nhau theo những nguyên tắc nhất định.

Từ tố (hình vị) là đơn vị nhỏ nhất có ý nghĩa của ngôn ngữ. Tách từ là gom nhóm các từ đơn liền kề thành một cụm từ có ý nghĩa, các từ đơn được gom nhóm với nhau bằng cách nối với nhau bằng ký tự gạch dưới ("_"). Sau khi thực hiện tách từ thì mỗi từ (token) trong câu được cách nhau bởi một khoảng trắng. Đây là quy ước chung cho tất cả các ngôn ngữ của bài toán tách từ trong xử lý ngôn ngữ tự nhiên.

Mục tiêu của việc tách từ văn bản đầu vào là để khử tính nhập nhằng về ngữ nghĩa của văn bản. Với ngôn ngữ tiếng Anh, việc tách từ khá đơn giản vì ranh giới từ được trích chọn bằng khoảng trắng và dấu câu. Với ngôn ngữ tiếng Việt, ranh giới từ không được xác định mặc nhiên bằng khoảng trắng. Tiếng Việt có đặc điểm là ý nghĩa ngữ pháp nằm ở ngoài từ, phương thức ngữ pháp chủ yếu là trật tự từ và từ hư.

Cho nên có trường hợp một câu có thể có nhiều ngữ nghĩa khác nhau tuỳ vào cách tách từ như thế nào, gây nhập nhằng về ngữ nghĩa của câu. Ví dụ về tách từ trong tiếng Anh và tiếng Việt: 2 https://ongxuanhong.com/2016/02/05/cac-thuat-ngu-trong-xu-ly-ngon-ngu-tu-nhien/named- entity-recognition/ 7 Dữ liệu tiếng Anh Dữ liệu tiếng Việt Văn bản đầu vào Oppo Find X3 Neo Điện thoại Oppo Find X3 phone is a new breeze in the Neo là một làn gió mới trong high-end phone segment, phân khúc điện thoại cận cao when copying almost every cấp, khi sao chép gần như high-end technology from the mọi công nghệ cao cấp từ elder Oppo Find X3 Pro but đàn anh Oppo Find X3 Pro at a more affordable price for nhưng với mức giá phải users. chăng hơn cho người dùng.3 Văn bản sau khi Oppo Find X3 Neo phone is Điện thoại Find_X3_Neo, tách từ a new breeze in the high-end là một làn gió mới trong phone segment, when copying phân khúc điện thoại cận almost every high-end cao cấp, khi sao chép gần technology from the elder như mọi công nghệ cao cấp Oppo Find X3 Pro but at a từ đàn anh more affordable price for Oppo_Find_X3_Pro nhưng users. với mức giá phải chăng hơn cho người dùng.

Minh họa ví dụ tách từ 2. Xác định loại từ trong câu (Part-of-Speech tagging - POS tagging) Công việc gán nhãn từ cũng được gọi là gắn thẻ ngữ pháp, cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó. Tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ trong đó. Mỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại.

Mỗi từ loại tương ứng với một hình thái và một vai trò ngữ pháp nhất định. Gán nhãn từ loại là một trong những bước quan trọng và cơ bản trong xử lý và khai phá dữ liệu trước khi phân tích văn phạm, ngữ nghĩa sâu hơn hay các vấn đề xử lý ngôn ngữ phức tạp khác. Nó xác định các chức năng ngữ pháp của từ trong câu. Khi văn bản đã được gán nhãn thì nó sẽ được ứng dụng trong các hệ thống tìm kiếm thông tin, gán nhãn tên thực thể, trong các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy.

Gán nhãn từ loại là bài toán nhận được quan tâm sớm nhất trong chuyên ngành xử lý ngôn ngữ tự nhiên và được nghiên cứu nhiều cũng như có nhiều phương pháp giải quyết.vn/oppo-find-x3-neo.html 8 Có thể kể đến một số bộ công cụ POS tagging cho hai loại ngôn ngữ:  Tiếng Anh: POS tagger của NLTK, Stanford Log-linear Part-OfSpeech Tagger… Ví dụ 1 (tiếng Anh). Văn bản đầu vào là: “And now for Samsung Galaxy Note 21.” Sau khi tách từ và POS tagging sẽ thu được kết quả: [('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), (‘Samsung’, ‘Np’), (‘Galaxy’, ‘Np’), ( ‘Note’, ‘Np’), (’21’, ‘M’)]  Tiếng Việt: JVnTagger, JH-POS-TAG, vnTagger, ViTokenizer… Ví dụ 2 (tiếng Việt). Văn bản đầu vào là: “Samsung Galaxy M52 sử dụng màn hình kích thước 6.5 inches, cùng với tấmc nền AMOLED cho khả năng hiển thị rực rỡ hơn nhiều so với màn FullHD. Bên cạnh đó, màn hình đã vận dụng màn dạng đục lỗ, giúp mở rộng được kích thước không gian trải nghiệm.

Và độ phân giải đạt chuẩn FullHD cho khả năng hiển thị sắc nét, góc nhìn tốt. Cấu hình mạnh mẽ bởi Snapdragon 730, 6GB RAM, bộ nhớ trong 128GB.” Sau khi tách từ và POS tagging sẽ thu được kết quả: Samsung/N Galaxy/Np M52/M sử/N dụng/N màn/N hình/N kích/N thước/N 6.5/M inches,/N cùng/A với/E tấm/Nc nền/N AMOLED/Np cho/V khả/N năng/N hiển/N thị/N rực/N rỡ/A hơn/A nhiều/A so/V với/E màn/N FullHD./N Bên/N cạnh/N đó,/N màn/N hình/N đã/R vận/V dụng/N màn/N dạng/N đục/N lỗ,/V giúp/V mở/V rộng/A được/V kích/V thước/N không/R gian/N trải/V nghiệm./N Và/Np độ/N phân/N giải/N đạt/N chuẩn/N FullHD/N cho/V khả/N năng/N hiển/N thị/N sắc/N nét,/N góc/N nhìn/V tốt./N Cấu/N hình/N mạnh/A mẽ/N bởi/E Snapdragon/Np 730,/V 6GB/N RAM,/N bộ/N nhớ/V trong/N 128GB/M. Xác định cụm từ (Chunking) Trong nội dung xác định cụm từ thì phân cụm từ được nghiên cứu và được sử dụng trong nhiều ứng dụng thực tế như các hệ thống chích trọn thông tin, dịch 9 máy, và tóm tắt văn bản. Bài toán phân cụm có thể hiểu là việc gộp một dãy liên tiếp các từ trong câu để gán nhãn cú pháp.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu này khám phá ứng dụng công nghệ thông tin trong giáo dục, đặc biệt là trong việc nâng cao chất lượng dạy và học tại các trường học. Nó nhấn mạnh tầm quan trọng của việc tích hợp công nghệ vào chương trình giảng dạy, giúp giáo viên và học sinh tiếp cận thông tin một cách hiệu quả hơn. Độc giả sẽ nhận thấy rằng việc áp dụng công nghệ không chỉ cải thiện quy trình học tập mà còn tạo ra môi trường học tập tương tác và sáng tạo hơn.

Để tìm hiểu sâu hơn về các ứng dụng cụ thể của công nghệ thông tin trong giáo dục, bạn có thể tham khảo các tài liệu sau: Luận văn thạc sĩ quản lý ứng dụng công nghệ thông tin trong dạy học ở các trường trung học phổ thông huyện ninh phước tỉnh ninh thuận, nơi trình bày chi tiết về việc áp dụng công nghệ trong dạy học tại các trường trung học phổ thông. Ngoài ra, Luận văn quản lý ứng dụng công nghệ thông tin trong dạy học môn mĩ thuật ở các trường tiểu học huyện phụng hiệp tỉnh hậu giang sẽ cung cấp cái nhìn sâu sắc về việc sử dụng công nghệ trong giảng dạy môn mỹ thuật. Cuối cùng, bạn có thể tham khảo Đồ án hcmute hệ thống giám sát phòng học từ xa để hiểu rõ hơn về các hệ thống giám sát và quản lý lớp học từ xa, một ứng dụng quan trọng trong bối cảnh giáo dục hiện đại. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu rõ hơn về vai trò của công nghệ trong giáo dục.

#xử lý ngôn ngữ tự nhiên

#hệ thống thông tin

#phương pháp học bán giám sát

#trích chọn thông tin

#Ứng dụng trí chọn thực thể

#Mạng nơ ron BiLSTM

Chủ đề

Ứng dụng công nghệ thông tin trong giáo dục

Nghiên cứu về trích chọn thông tin

Phương pháp học máy trong NLP

Phát triển hệ thống nhận diện thực thể