Phương Pháp Học Bán Giám Sát Cho Bài Toán Trích Chọn Thông Tin Tên Điện Thoại Di Động

Chuyên khảo kỹ thuật phân tích Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên, đánh giá các khía cạnh quan trọng, đề xuất hướng

Trường đại học

Đại học Thủ Dầu Một

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2021

Phí lưu trữ

35 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT LUẬN VĂN

1. CHƯƠNG I: GIỚI THIỆU CHUNG

1.1. Lí do thực hiện đề tài

1.2. Mục tiêu nghiên cứu

1.3. Đối tượng, phạm vi nghiên cứu

1.4. Phương pháp nghiên cứu

1.5. Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài

1.6. Bố cục luận văn

2. CHƯƠNG II: CƠ SỞ LÝ THUYẾT

2.1. Xử lý ngôn ngữ tự nhiên

2.2. Xác định loại từ trong câu (Part-of-Speech tagging - POS tagging)

2.3. Xác định cụm từ (Chunking)

2.4. Phân tích cú pháp (Parsing)

2.5. Các phương pháp biểu diễn từ dưới dạng vector

2.5.1. Biểu diễn túi từ - Bag of words

2.5.2. Biểu diễn One-hot-vector

2.5.3. Túi từ liên tục - CBOW

2.6. Học sâu - Deep Learning

2.6.1. Mạng nơ ron nhân tạo (ANN)

2.6.2. Mạng nơ-ron hồi quy RNN (Recurrent Neural Network)

2.6.3. Bộ nhớ dài-ngắn LSTM (Long-short term memory)

2.6.4. Mạng nơ ron ngắn dài song song LSTM (Bidirectional Long-short term memory)

2.7. Phương pháp học bán giám sát

2.8. Ví dụ về học giám sát

2.9. Học không giám sát

2.10. Xác định thực thể tên điện thoại di động

2.11. Tổng quan về bài toán Trích chọn thực thể tên điện thoại di động

2.12. Hướng tiếp cận nghiên cứu

2.13. Các nghiên cứu gần đây

2.14. Đề xuất hướng nghiên cứu

3. CHƯƠNG III: MÔ HÌNH ĐỀ XUẤT

3.1. Tổng quan mô hình đề xuất

3.2. Các đặc trưng của mô hình đề xuất

3.3. Từ nhúng – Word embeddings

3.4. Các đặc trưng cú pháp

3.5. Trích chọn tên thực thể điện thoại di động

3.6. Mô hình học sâu trong bài toán trích chọn tên điện thoại di động

3.7. Cách đánh giá

4. CHƯƠNG IV: MÔI TRƯỜNG THỰC NGHIỆM

4.1. Dữ liệu thực nghiệm

4.2. Thu thập dữ liệu

4.3. Xử lý dữ liệu

4.4. Kết quả Thực nghiệm

4.4.1. Trích xuất đặc trưng

4.4.2. Thực nghiệm giữa phương pháp LSTM và BiLSTM với đặc trưng từ

4.4.3. Thực nghiệm BiLSTM với đặc trưng từ và số vòng huấn luyện khác nhau

4.4.4. Thực nghiệm phương pháp sử dụng các lớp BiLSTM với đặc trưng từ

4.4.5. Thực nghiệm phương pháp BiLSTM với đặc trưng từ và tỉ lệ Dropout khác nhau

4.5. Xây dựng ứng dụng Web trực quan hóa kết quả

4.5.1. Thiết kế Xây dựng Web

5. KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. Kết quả đạt được

5.2. Hướng phát triển

TÀI LIỆU THAM KHẢO

DANH MỤC VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC HÌNH VẼ, ĐỒ THỊ

Tóm tắt

I. Tổng Quan Học Bán Giám Sát Trích Chọn Thông Tin Điện Thoại

Trong kỷ nguyên 4.0, học bán giám sát trích chọn thông tin ngày càng quan trọng. Nó giúp các hệ thống máy tính hiểu và xử lý ngôn ngữ tự nhiên, như tiếng Việt, một cách hiệu quả hơn. Trích chọn thông tin (Information Extraction - IE) là quá trình lấy ra các thành phần thông tin cụ thể từ văn bản, tạo nên nội dung ngữ nghĩa. Các ứng dụng phổ biến bao gồm phân tích cảm xúc, dịch máy, tóm tắt văn bản và tìm kiếm thông tin. Nhiều bài toán nhỏ được hình thành từ IE như: Trích chọn thực thể tên (NER), phân giải đồng tham chiếu, rút trích quan hệ giữa hai thực thể. Luận văn này tập trung vào trích chọn thực thể tên điện thoại di động. Các kỹ thuật như phân đoạn, phân lớp, kết hợp và phân cụm thường được sử dụng. Việc xây dựng giải thuật trích chọn thực thể tên là rất quan trọng.

1.1. Tầm quan trọng của Trích Chọn Thông Tin Điện Thoại Di Động

Trích chọn thông tin tên điện thoại di động là một bài toán cụ thể trong lĩnh vực xử lý ngôn ngữ tự nhiên. Nó giúp người dùng dễ dàng tìm kiếm thông tin chính xác về sản phẩm. Hiện nay, có nhiều hệ thống trích chọn tên, nhưng chủ yếu phục vụ tiếng Anh, Trung, Nhật. Tại Việt Nam, số lượng điện thoại mới ra đời ngày càng nhiều, tạo ra nhu cầu lớn về trích xuất thông tin sản phẩm điện thoại. Thông tin trên mạng rất nhiều, gây nhiễu loạn cho người dùng. Việc xác định tên điện thoại chính xác giúp người dùng đưa ra quyết định mua hàng tốt hơn. Bên cạnh đó ứng dụng này có thể giúp tìm kiếm thông số kỹ thuật, so sánh sản phẩm, hoặc khai phá quan điểm.

1.2. Ứng dụng Thực Tế của Học Bán Giám Sát trong NLP

Học bán giám sát được ứng dụng rộng rãi trong nhiều lĩnh vực của NLP. Nó đặc biệt hữu ích khi có một lượng lớn dữ liệu không được gán nhãn. Trong bài toán trích chọn thông tin tên điện thoại di động, học bán giám sát có thể giúp tự động gán nhãn cho một phần dữ liệu, giảm bớt công sức thủ công. Điều này đặc biệt quan trọng khi xử lý lượng lớn văn bản từ internet. Ứng dụng thực tế bao gồm xây dựng chatbot, hệ thống gợi ý sản phẩm, và công cụ phân tích thị trường.

II. Thách Thức Trích Chọn Tên Điện Thoại Vấn Đề và Giải Pháp

Việc trích chọn tên điện thoại di động gặp nhiều thách thức. Thông tin trên mạng không đồng nhất, chứa nhiều lỗi chính tả và cú pháp. Dữ liệu không nhãn là một vấn đề lớn. Các phương pháp học máy truyền thống đòi hỏi lượng lớn dữ liệu có nhãn, tốn kém thời gian và công sức. Học bán giám sát là một giải pháp tiềm năng. Nó kết hợp dữ liệu có nhãn và dữ liệu không nhãn để huấn luyện mô hình. Các nghiên cứu gần đây đã chứng minh hiệu quả của học bán giám sát trong các bài toán NLP. Luận văn này đề xuất một phương pháp học bán giám sát mới để trích chọn tên điện thoại di động hiệu quả hơn.

2.1. Khó Khăn trong Việc Thu Thập và Xử Lý Dữ Liệu

Việc thu thập dữ liệu từ nhiều nguồn khác nhau trên internet gặp nhiều khó khăn. Dữ liệu thường không có cấu trúc, chứa nhiều thông tin nhiễu. Việc làm sạch và chuẩn hóa dữ liệu đòi hỏi nhiều công sức. Ngoài ra, dữ liệu tiếng Việt có đặc thù riêng, như dấu thanh, từ ghép, và cách sử dụng từ địa phương. Các công cụ xử lý ngôn ngữ hiện tại chưa hoàn toàn đáp ứng được yêu cầu. Cần có các phương pháp tiền xử lý dữ liệu hiệu quả để cải thiện chất lượng trích chọn thông tin.

2.2. Vấn đề về Độ Chính Xác và Hiệu Suất Trích Chọn Thông Tin

Đảm bảo độ chính xác và hiệu suất cao là một thách thức quan trọng. Các mô hình học máy cần được huấn luyện kỹ lưỡng để tránh việc trích chọn sai hoặc bỏ sót thông tin. Độ chính xác của mô hình phụ thuộc vào chất lượng dữ liệu và phương pháp huấn luyện. Hiệu suất của mô hình ảnh hưởng đến thời gian xử lý. Cần có các phương pháp đánh giá và tối ưu mô hình để đạt được kết quả tốt nhất.

III. Phương Pháp BiLSTM Word Embedding Cho Trích Chọn Tên

Luận văn này đề xuất sử dụng mạng nơ-ron ngắn dài song song (BiLSTM) kết hợp với Word Embedding để trích chọn tên điện thoại di động. BiLSTM có khả năng xử lý thông tin theo cả hai chiều, giúp nắm bắt ngữ cảnh tốt hơn. Word Embedding biểu diễn từ ngữ dưới dạng vector số, giúp máy tính hiểu được ý nghĩa của từ. Sự kết hợp này mang lại hiệu quả cao trong các bài toán NLP. Các đặc trưng cú pháp cũng được sử dụng để cải thiện độ chính xác trích chọn thông tin. Theo tài liệu gốc, kết quả thực nghiệm cho thấy BiLSTM kết hợp đặc trưng cú pháp và Word Embedding đạt độ chính xác cao nhất là 74,04%.

3.1. Ưu điểm của Mạng BiLSTM trong Trích Chọn Thực Thể

Mạng BiLSTM có khả năng xử lý thông tin theo cả hai chiều (forward và backward). Điều này giúp mô hình nắm bắt ngữ cảnh tốt hơn, đặc biệt quan trọng trong bài toán trích chọn thực thể. BiLSTM có thể ghi nhớ các thông tin quan trọng ở cả đầu và cuối câu. Nó cũng ít bị ảnh hưởng bởi vấn đề vanishing gradient so với các mạng RNN truyền thống.

3.2. Vai trò của Word Embedding trong Biểu Diễn Ngữ Nghĩa

Word Embedding biểu diễn từ ngữ dưới dạng vector số, giúp máy tính hiểu được ý nghĩa của từ. Các từ có ý nghĩa tương đồng sẽ có vector gần nhau hơn. Word Embedding có thể được huấn luyện từ dữ liệu lớn (pre-trained Word Embedding) hoặc huấn luyện cùng với mô hình. Sử dụng pre-trained Word Embedding giúp cải thiện hiệu quả của mô hình khi dữ liệu huấn luyện hạn chế.

3.3. Tích hợp Đặc Trưng Cú Pháp cho Mô Hình Học Sâu

Tích hợp các đặc trưng cú pháp có thể cải thiện đáng kể hiệu suất của mô hình học sâu cho bài toán trích chọn thực thể. Các đặc trưng cú pháp bao gồm POS tagging (gán nhãn từ loại), chunking (phân đoạn cụm từ), và parsing (phân tích cú pháp). Các đặc trưng này cung cấp thông tin về cấu trúc câu, giúp mô hình hiểu rõ hơn vai trò của từng từ trong câu.

IV. Thực Nghiệm và Đánh Giá Hiệu Quả Trích Chọn Tên Điện Thoại

Luận văn tiến hành thực nghiệm trên bộ dữ liệu thu thập từ các trang web, báo và trang quảng cáo điện thoại. Dữ liệu được tiền xử lý, tách từ, gán nhãn và chia thành các tập huấn luyện, kiểm tra và phê chuẩn. Các mô hình BiLSTM với các cấu hình khác nhau được huấn luyện và đánh giá. Độ chính xác, hiệu suất và các chỉ số khác được sử dụng để so sánh các mô hình. Kết quả cho thấy mô hình BiLSTM kết hợp Word Embedding và đặc trưng cú pháp đạt kết quả tốt nhất. Luận văn cũng xây dựng một ứng dụng web để trực quan hóa kết quả.

4.1. Quy Trình Thu Thập và Xử Lý Dữ Liệu Thực Nghiệm

Quy trình thu thập dữ liệu bao gồm tìm kiếm và tải các trang web, báo và trang quảng cáo điện thoại. Dữ liệu được làm sạch, loại bỏ các ký tự đặc biệt và mã HTML. Sau đó, dữ liệu được tách từ bằng các công cụ tách từ tiếng Việt. Các từ được gán nhãn POS tagging và chunking. Cuối cùng, dữ liệu được chia thành các tập huấn luyện, kiểm tra và phê chuẩn.

4.2. Các Phương Pháp Đánh Giá Hiệu Suất Mô Hình Trích Chọn

Các phương pháp đánh giá bao gồm tính toán độ chính xác (accuracy), độ thu hồi (recall), độ đo F1 (F1-score). Độ chính xác đo lường tỷ lệ các thực thể được trích chọn đúng. Độ thu hồi đo lường tỷ lệ các thực thể thực tế được trích chọn. Độ đo F1 là trung bình điều hòa của độ chính xác và độ thu hồi. Ngoài ra, có thể sử dụng các phương pháp đánh giá khác, như đánh giá bằng tay bởi chuyên gia.

4.3. So sánh Kết Quả Giữa Các Mô Hình BiLSTM Khác Nhau

Các mô hình BiLSTM khác nhau được so sánh dựa trên các chỉ số độ chính xác, độ thu hồi và độ đo F1. So sánh các mô hình với các số lượng lớp BiLSTM khác nhau. So sánh các mô hình với các tỷ lệ dropout khác nhau. So sánh các mô hình với các epoch huấn luyện khác nhau. Kết quả so sánh giúp chọn ra mô hình BiLSTM có cấu hình tối ưu.

V. Xây Dựng Ứng Dụng Web Trực Quan Hóa Trích Chọn Tên

Luận văn xây dựng ứng dụng web để trực quan hóa kết quả trích chọn tên điện thoại di động. Ứng dụng cho phép người dùng nhập văn bản và xem các thực thể được trích chọn. Ứng dụng sử dụng mô hình BiLSTM đã được huấn luyện. Giao diện thân thiện, dễ sử dụng. Ứng dụng có thể được sử dụng để demo và thử nghiệm mô hình. Giao diện của ứng dụng web bao gồm giao diện chính, giao diện phân tích dữ liệu và giao diện phân tích kết quả.

5.1. Thiết Kế Giao Diện Người Dùng Thân Thiện và Dễ Sử Dụng

Giao diện người dùng được thiết kế đơn giản, trực quan và dễ sử dụng. Người dùng có thể dễ dàng nhập văn bản, xem kết quả trích chọn và điều chỉnh các tham số. Màu sắc và bố cục được thiết kế hài hòa, tạo cảm giác thoải mái cho người dùng. Ứng dụng hỗ trợ responsive design, tương thích với nhiều loại thiết bị.

5.2. Chức Năng Phân Tích và Trực Quan Hóa Kết Quả Trích Chọn

Ứng dụng cung cấp các chức năng phân tích và trực quan hóa kết quả trích chọn. Người dùng có thể xem thống kê về số lượng các thực thể được trích chọn, phân loại theo loại thực thể. Ứng dụng hiển thị biểu đồ so sánh kết quả giữa các mô hình khác nhau. Người dùng có thể xuất kết quả ra file CSV hoặc JSON.

VI. Kết Luận và Hướng Phát Triển Học Bán Giám Sát

Luận văn đã đề xuất một phương pháp học bán giám sát hiệu quả để trích chọn tên điện thoại di động. Mô hình BiLSTM kết hợp Word Embedding và đặc trưng cú pháp đạt kết quả tốt. Ứng dụng web trực quan hóa kết quả. Hướng phát triển tiếp theo bao gồm sử dụng các mô hình học sâu tiên tiến hơn, tích hợp thêm các nguồn dữ liệu, và mở rộng phạm vi ứng dụng. Cần tiếp tục nghiên cứu và phát triển các phương pháp học bán giám sát để giải quyết các bài toán NLP khác.

6.1. Tóm Tắt Kết Quả Đạt Được và Đóng Góp của Luận Văn

Luận văn đã đạt được các kết quả sau: Đề xuất một phương pháp học bán giám sát hiệu quả. Xây dựng mô hình BiLSTM kết hợp Word Embedding và đặc trưng cú pháp. Xây dựng ứng dụng web trực quan hóa kết quả. Luận văn đóng góp vào lĩnh vực xử lý ngôn ngữ tự nhiên và trích chọn thông tin.

6.2. Các Hướng Nghiên Cứu và Phát Triển Tiềm Năng Trong Tương Lai

Các hướng nghiên cứu và phát triển tiềm năng bao gồm: Sử dụng các mô hình học sâu tiên tiến hơn (Transformer, BERT). Tích hợp thêm các nguồn dữ liệu (mạng xã hội, diễn đàn). Mở rộng phạm vi ứng dụng (phân tích ý kiến khách hàng, so sánh sản phẩm). Nghiên cứu các phương pháp học bán giám sát mới.

28/05/2025

Bạn đang xem trước tài liệu:

Phương pháp học bán giám sát cho bài toán trích chọn thông tin và ứng dụng trích chọn thực thể tên điện thoại di động

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng công nghiệp 4.0, với sự phát triển mạnh mẽ của Big Data, trí tuệ nhân tạo (AI) và Internet vạn vật (IoT), nhu cầu xử lý và trích xuất thông tin từ dữ liệu phi cấu trúc ngày càng trở nên cấp thiết. Đặc biệt, trong lĩnh vực công nghệ thông tin, các ứng dụng xử lý ngôn ngữ tự nhiên (NLP) như tóm tắt văn bản, dịch máy, trích xuất thông tin và trả lời câu hỏi tự động đã phát triển vượt bậc. Một trong những bài toán quan trọng là trích chọn thực thể tên, trong đó có tên điện thoại di động, nhằm hỗ trợ người dùng tiếp cận thông tin chính xác giữa một “biển” dữ liệu quảng cáo và thông tin nhiễu loạn trên mạng.

Mục tiêu nghiên cứu của luận văn là phát triển một phương pháp học bán giám sát kết hợp mạng nơ ron sâu BiLSTM và từ nhúng (word embeddings) để trích chọn chính xác tên điện thoại di động trong văn bản tiếng Việt. Nghiên cứu tập trung vào xây dựng hệ thống nhận diện tên riêng tiếng Việt (ViNER) với độ chính xác đạt 74,04% trên bộ dữ liệu thu thập từ hàng trăm bài báo và trang thương mại điện tử trong khoảng thời gian gần đây. Phạm vi nghiên cứu bao gồm dữ liệu tiếng Việt từ các trang báo và website thương mại điện tử như thegioididong, với ứng dụng thực tiễn là xây dựng một ứng dụng web trực quan giúp người dùng nhập văn bản và nhận diện tên điện thoại di động một cách nhanh chóng và chính xác.

Việc nghiên cứu này không chỉ góp phần nâng cao hiệu quả trích xuất thông tin trong lĩnh vực NLP mà còn hỗ trợ người tiêu dùng trong việc lựa chọn sản phẩm công nghệ phù hợp, đồng thời tạo nền tảng cho các ứng dụng khai phá dữ liệu và phân tích quan điểm trong tương lai.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình nghiên cứu sau:

Xử lý ngôn ngữ tự nhiên (NLP): Bao gồm các kỹ thuật tách từ (tokenization), gán nhãn từ loại (POS tagging), phân cụm từ (chunking) và phân tích cú pháp (parsing). Đây là các bước tiền xử lý quan trọng để chuẩn bị dữ liệu cho các mô hình học máy.
Biểu diễn từ dưới dạng vector (Word Embeddings): Sử dụng các kỹ thuật như One-hot vector, Bag of Words, CBOW và Skip-gram trong Word2Vec để biểu diễn từ ngữ dưới dạng vector số thực, giúp mô hình học sâu hiểu được ngữ nghĩa và mối quan hệ giữa các từ.
Mạng nơ ron nhân tạo (ANN) và học sâu (Deep Learning): Trong đó, mạng nơ ron hồi quy (RNN) và đặc biệt là mạng bộ nhớ dài-ngắn (LSTM) và mạng nơ ron ngắn dài song song (BiLSTM) được sử dụng để xử lý dữ liệu tuần tự như văn bản. BiLSTM cho phép mô hình học cả thông tin ngữ cảnh trước và sau từ cần dự đoán, nâng cao hiệu quả nhận dạng thực thể.
Phương pháp học bán giám sát: Kết hợp dữ liệu có gán nhãn và chưa gán nhãn để cải thiện hiệu quả học tập, giảm thiểu chi phí gán nhãn dữ liệu lớn.

Các khái niệm chính bao gồm: POS tagging, Chunking, Word Embeddings, BiLSTM, và học bán giám sát.

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ dữ liệu được thu thập từ hàng trăm bài báo và trang thương mại điện tử trong nước, bao gồm các văn bản tiếng Việt liên quan đến điện thoại di động. Bộ dữ liệu được chia thành ba phần: huấn luyện, phê chuẩn và kiểm tra, mỗi phần gồm 4 cột thông tin: từ hoặc từ ghép, POS, CHUNK và TAG.
Phương pháp phân tích: Sử dụng mô hình học sâu BiLSTM kết hợp với từ nhúng được huấn luyện sẵn (pretrained word embeddings) để trích chọn thực thể tên điện thoại di động. Các đặc trưng cú pháp tự động được kết hợp làm đầu vào cho mô hình. Quá trình huấn luyện được thực hiện với nhiều tham số khác nhau như số vòng huấn luyện (epoch), tỷ lệ dropout để tối ưu hóa hiệu suất.
Timeline nghiên cứu: Quá trình thu thập và xử lý dữ liệu diễn ra trong khoảng thời gian gần đây, tiếp theo là giai đoạn huấn luyện và đánh giá mô hình trên bộ dữ liệu đã chuẩn bị. Cuối cùng là xây dựng ứng dụng web trực quan để thử nghiệm và trình bày kết quả.

Phương pháp chọn mẫu dựa trên dữ liệu thực tế từ các trang thương mại điện tử phổ biến nhằm đảm bảo tính đại diện và ứng dụng thực tiễn cao. Phương pháp phân tích tập trung vào đánh giá độ chính xác (Accuracy) của mô hình trên các tập dữ liệu kiểm tra.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất mô hình BiLSTM kết hợp từ nhúng: Mô hình đạt độ chính xác cao nhất là 74,04% trong việc trích chọn tên điện thoại di động trên bộ dữ liệu tiếng Việt. So với các phương pháp học máy truyền thống như SVM hay cây quyết định, kết quả này thể hiện sự cải thiện rõ rệt.
Ảnh hưởng của đặc trưng cú pháp: Việc kết hợp các đặc trưng cú pháp tự động với từ nhúng làm đầu vào cho BiLSTM giúp tăng độ chính xác so với chỉ sử dụng từ nhúng đơn thuần, cho thấy tầm quan trọng của việc khai thác thông tin ngữ pháp trong bài toán trích chọn thực thể.
Tác động của các tham số huấn luyện: Thực nghiệm với các số vòng huấn luyện khác nhau và tỷ lệ dropout cho thấy việc điều chỉnh các tham số này ảnh hưởng đáng kể đến hiệu suất mô hình, với các tham số tối ưu giúp giảm hiện tượng overfitting và nâng cao khả năng tổng quát hóa.
Ứng dụng web trực quan: Ứng dụng web được xây dựng cho phép người dùng nhập văn bản tiếng Việt và nhận diện tên điện thoại di động một cách trực quan, hỗ trợ phân tích dữ liệu và so sánh kết quả qua các biểu đồ, giúp người dùng dễ dàng tiếp cận và sử dụng.

Thảo luận kết quả

Nguyên nhân chính dẫn đến hiệu quả của mô hình là sự kết hợp giữa từ nhúng pretrained và đặc trưng cú pháp, giúp mô hình hiểu sâu sắc hơn về ngữ cảnh và cấu trúc câu trong tiếng Việt. So với các nghiên cứu trước đây chủ yếu tập trung vào các ngôn ngữ như tiếng Anh, tiếng Trung, việc áp dụng thành công mô hình BiLSTM cho tiếng Việt là bước tiến quan trọng, bởi tiếng Việt có cấu trúc ngữ pháp và cách tách từ đặc thù.

Dữ liệu được trình bày qua các bảng so sánh độ chính xác giữa các mô hình và các tham số huấn luyện, cũng như biểu đồ thể hiện sự cải thiện khi kết hợp đặc trưng cú pháp. Kết quả này có ý nghĩa lớn trong việc phát triển các hệ thống trích xuất thông tin tiếng Việt, góp phần nâng cao chất lượng các ứng dụng thương mại điện tử và hỗ trợ người tiêu dùng.

Đề xuất và khuyến nghị

Phát triển thêm bộ dữ liệu đa dạng: Mở rộng bộ dữ liệu huấn luyện với nhiều nguồn khác nhau và các loại thực thể khác ngoài tên điện thoại di động để nâng cao khả năng tổng quát của mô hình.
Tối ưu hóa mô hình học sâu: Thử nghiệm các kiến trúc mạng nơ ron sâu hơn hoặc kết hợp với các kỹ thuật attention để cải thiện độ chính xác trên các tập dữ liệu phức tạp hơn.
Triển khai ứng dụng thực tế: Đẩy mạnh phát triển ứng dụng web và tích hợp vào các nền tảng thương mại điện tử để hỗ trợ người dùng trong việc tìm kiếm và so sánh sản phẩm điện thoại di động.
Đào tạo và chuyển giao công nghệ: Tổ chức các khóa đào tạo, hội thảo cho các nhà phát triển và doanh nghiệp về ứng dụng học sâu trong trích xuất thông tin, nhằm thúc đẩy ứng dụng rộng rãi trong ngành.

Các giải pháp trên cần được thực hiện trong vòng 1-2 năm tới, với sự phối hợp giữa các trường đại học, doanh nghiệp công nghệ và các tổ chức nghiên cứu.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành công nghệ thông tin: Có thể sử dụng luận văn làm tài liệu tham khảo về ứng dụng học sâu trong xử lý ngôn ngữ tự nhiên tiếng Việt, đặc biệt là bài toán trích chọn thực thể.
Doanh nghiệp thương mại điện tử: Hỗ trợ phát triển các hệ thống tìm kiếm, phân loại sản phẩm chính xác hơn, nâng cao trải nghiệm người dùng và hiệu quả kinh doanh.
Chuyên gia phát triển ứng dụng AI và NLP: Áp dụng mô hình và phương pháp nghiên cứu để xây dựng các sản phẩm trí tuệ nhân tạo phục vụ cho thị trường Việt Nam.
Cơ quan quản lý và tổ chức đào tạo: Sử dụng kết quả nghiên cứu để định hướng phát triển công nghệ, đào tạo nguồn nhân lực chất lượng cao trong lĩnh vực AI và NLP.

Câu hỏi thường gặp

Phương pháp học bán giám sát là gì?
Là kỹ thuật kết hợp dữ liệu có gán nhãn và chưa gán nhãn để huấn luyện mô hình, giúp giảm chi phí gán nhãn và nâng cao hiệu quả học tập. Ví dụ, mô hình BiLSTM trong luận văn sử dụng phương pháp này để cải thiện độ chính xác.
Tại sao chọn BiLSTM cho bài toán trích chọn tên điện thoại?
BiLSTM có khả năng học thông tin ngữ cảnh từ cả hai phía trước và sau của từ cần dự đoán, phù hợp với đặc thù ngôn ngữ tiếng Việt và giúp nhận diện thực thể chính xác hơn.
Bộ dữ liệu nghiên cứu được thu thập như thế nào?
Dữ liệu được thu thập từ hàng trăm bài báo và trang thương mại điện tử trong nước, bao gồm các văn bản tiếng Việt liên quan đến điện thoại di động, được phân chia thành các tập huấn luyện, phê chuẩn và kiểm tra.
Ứng dụng thực tiễn của nghiên cứu này là gì?
Giúp người dùng dễ dàng tìm kiếm và nhận diện tên điện thoại di động trong văn bản, hỗ trợ so sánh sản phẩm và ra quyết định mua hàng chính xác hơn thông qua ứng dụng web trực quan.
Mô hình có thể áp dụng cho các thực thể khác không?
Có thể, với việc mở rộng bộ dữ liệu và điều chỉnh mô hình, phương pháp học sâu BiLSTM kết hợp từ nhúng có thể áp dụng cho nhiều loại thực thể tên khác trong xử lý ngôn ngữ tự nhiên.

Kết luận

Đã phát triển thành công phương pháp học bán giám sát kết hợp BiLSTM và từ nhúng để trích chọn tên điện thoại di động trong văn bản tiếng Việt với độ chính xác 74,04%.
Kết quả nghiên cứu góp phần nâng cao hiệu quả trích xuất thông tin trong lĩnh vực NLP tiếng Việt, đặc biệt cho các ứng dụng thương mại điện tử.
Xây dựng ứng dụng web trực quan giúp người dùng dễ dàng nhận diện và phân tích tên điện thoại di động từ văn bản nhập vào.
Đề xuất mở rộng bộ dữ liệu và tối ưu mô hình để nâng cao hiệu suất và ứng dụng rộng rãi hơn trong tương lai.
Khuyến khích triển khai ứng dụng thực tế và đào tạo chuyển giao công nghệ nhằm thúc đẩy phát triển ngành công nghệ thông tin tại Việt Nam.

Hành trình tiếp theo là mở rộng nghiên cứu sang các loại thực thể khác, cải tiến mô hình học sâu và phát triển các ứng dụng AI phục vụ cộng đồng, doanh nghiệp và nghiên cứu khoa học.

Trích đoạn nội dung tài liệu

Chương 1 – Giới thiệu chung Trình bày lý do chọn đề tài, mục tiêu, đối tượng - phạm vi và phương pháp nghiên cứu, ý nghĩa của đề tài.  Chương 2 – Cơ sở lý thuyết Giới thiệu tổng quan về xử lí ngôn ngữ tự nhiên, các phương pháp, công cụ để tách từ, gán nhãn từ loại, gán nhãn cụm từ, phân tích cú pháp; Giới thiệu về các cách biểu diễn từ thành vector, mạng nơ ron nhân tạo, kỹ thuật lan truyền ngược; Phương pháp học sâu để sử dụng cho bài toán, Trình bày tổng quan hệ thống trích chọn tên điện thoại di động, hướng tiếp cận và các nghiên cứu liên quan; Đề xuất hướng nghiên cứu.  Chương 3 – Mô hình đề xuất Trình bày tổng quan mô hình đề xuất, các đặc trưng trong mô hình; Chi tiết hệ thống trích chọn thực thể tên điện thoại di động.  Chương 4 – Thực nghiệm Giới thiệu bộ dữ liệu, quá trình xử lí dữ liệu, phương pháp đánh giá, phần thực nghiệm và đánh giá thực nghiệm theo các khía cạnh khác nhau để chọn mô hình tối ưu cho hệ thống trích chọn thực thể tên điện thoại di động.

 Chương 5 – Kết luận và hướng phát triển 4 CHƯƠNG II CƠ SỞ LÝ THUYẾT Trong chương này, chúng tôi sẽ giới thiệu tổng quan về cách xử lý ngôn ngữ tự nhiên như tách từ (Tokenizer), cách xác định loại từ, cụm từ và phân tích cú pháp trong câu. Đồng thời giới thiệu các phương pháp biểu diễn và xác định được phương pháp học sâu được sử dụng trong luận văn để xác định thực thể tên điện thoại di động và đề xuất hướng nghiên cứu sau này. Xử lý ngôn ngữ tự nhiên Trong thời đại hiện nay, cuộc cách mạng công nghiệp 4.0, việc xử lý các ngôn ngữ tự nhiên đang được nghiên cứu và phát triển mạnh mẽ. Xử lý ngôn ngữ tự nhiên có tên tiếng Anh là: Natural Language Processing.

Đây là các kĩ thuật, phương pháp nhằm hỗ trợ cho các hệ thống máy tính hiểu, xử lý, nhận dạng ngôn ngữ tự nhiên như: tiếng Việt, tiếng Anh. Có rất nhiều nghiên cứu về NLP nhưng có thể phân thành các nhánh nghiên cứu như: Phân tích cảm xúc (Sentiment), phân loại tài liệu (Classification), dịch máy (Translation), tóm tắt văn bản (Topic Modelling), trích xuất thông tin (Information Extraction), … Các trợ lý thông minh như Siri của Apple, alexa của Amazon và ok google của Google bắt đầu xác định các mẫu trong giọng nói, nhận dạng giọng nói, suy ra ý nghĩa và đưa ra phản hồi. Mô hình xử lý ngôn ngữ tự nhiên1 1 https://ichi.pro/vi/xu-ly-ngon-ngu-tu-nhien-bang-python-nltk-101258229749293 5 Trích xuất thông tin bài toán lấy ra những thành phần thông tin cụ thể của một văn bản, những thành phần này chính là hạt nhân tạo nên nội dung ngữ nghĩa của văn bản đó. Có nhiều mức độ trích chọn thông tin từ văn bản như xác định các thực thể (Element Extraction), xác định quan hệ giữa các thực thể (Relation Extraction), xác định và theo dõi các sự kiện và các kịch bản (Event and Scenario Extraction and Tracking), xác định đồng tham chiếu (Co-reference Resolution).

Các kĩ thuật được sử dụng trong trích chọn thông tin gồm có: phân đoạn, phân lớp, kết hợp và phân cụm.16 Từ đây sẽ có nhiều ứng dụng cho nhiều domain như Text and Web mining (rút trích tên người nổi tiếng, sản phẩm đang hot, so sánh giá sản phẩm, nghiên cứu đối thủ cạnh tranh, phân tích tâm lý khách hàng), Biomedical, Business intelligent, Financial professional (đánh giá thị trường từ các nguồn khác nhau: giá xăng dầu tăng giảm, thông tin chiến tranh - chính trị giữa các nước, điều luật mới trong thị trường kinh doanh), Terrism event (sử dụng vũ khí gì, đối tượng tấn công là ai). Sau các bước tiền xử lý thiên về từ vựng và cú pháp như tách câu, tách từ, phân tích cú pháp, gán nhãn từ loại. Từ IE ta sẽ đơn giản hóa thành các bài toán con gồm: Rút trích tên thực thể (Named entity recognition – NER: people, organization, location), phân giải đồng tham chiếu (Coreference resolution) và rút trích quan hệ giữa hai thực thể (Relation extraction). Bài toán nhận dạng ra các thực thể có tên trong văn bản là một nhiệm vụ cốt lõi trong trích xuất thông tin.

Trích xuất (trích chọn) các thực thể trong văn bản2 2. Tách từ (ViTokenizer) Để có thể trích chọn được các thực thể tên điện thoại di động trong các văn bản dữ liệu ban đầu cần phải qua bước tiền xử lý để tách câu, phân đoạn từ (tách từ), chuẩn bị dữ liệu đầu vào cho bước tiếp theo. Từ là một đơn vị nhỏ nhất có nghĩa độc lập, có thể giữ một chức năng ngữ pháp nhất định và có thể quy về một từ loại nhất định, có khả năng tách biệt khỏi những từ bên cạnh để có thể phân biệt được với những bộ phận tạo thành từ. Tính hoàn chỉnh trong nội bộ của từ là cần thiết cho nó, với tư cách một từ riêng biệt, phân biệt với cụm từ.

Tính hoàn chỉnh và tính tách biệt về ý nghĩa là bắt buộc với mỗi từ. Từ được cấu tạo nhờ các từ tố (hình vị), một từ có thể có một, hai hoặc nhiều âm tiết tạo nên, nên có rất nhiều cách phân chia các âm tiết thành các từ, gây ra nhập nhằng. Việc phân giải nhập nhằng này gọi là bài toán tách từ. Nói cách khác, từ được tạo ra nhờ một hoặc một số hình vị kết hợp với nhau theo những nguyên tắc nhất định.

Từ tố (hình vị) là đơn vị nhỏ nhất có ý nghĩa của ngôn ngữ. Tách từ là gom nhóm các từ đơn liền kề thành một cụm từ có ý nghĩa, các từ đơn được gom nhóm với nhau bằng cách nối với nhau bằng ký tự gạch dưới ("_"). Sau khi thực hiện tách từ thì mỗi từ (token) trong câu được cách nhau bởi một khoảng trắng. Đây là quy ước chung cho tất cả các ngôn ngữ của bài toán tách từ trong xử lý ngôn ngữ tự nhiên.

Mục tiêu của việc tách từ văn bản đầu vào là để khử tính nhập nhằng về ngữ nghĩa của văn bản. Với ngôn ngữ tiếng Anh, việc tách từ khá đơn giản vì ranh giới từ được trích chọn bằng khoảng trắng và dấu câu. Với ngôn ngữ tiếng việt, ranh giới từ không được xác định mặc nhiên bằng khoảng trắng. Tiếng việt có đặc điểm là ý nghĩa ngữ pháp nằm ở ngoài từ, phương thức ngữ pháp chủ yếu là trật tự từ và từ hư.

Cho nên có trường hợp một câu có thể có nhiều ngữ nghĩa khác nhau tuỳ vào cách tách từ như thế nào, gây nhập nhằng về ngữ nghĩa của câu. Ví dụ về tách từ trong tiếng anh và tiếng việt: 2 https://ongxuanhong.com/2016/02/05/cac-thuat-ngu-trong-xu-ly-ngon-ngu-tu-nhien/named- entity-recognition/ 7 Dữ liệu tiếng Anh Dữ liệu tiếng Việt Văn bản đầu vào Oppo Find X3 Neo Điện thoại Oppo Find X3 phone is a new breeze in the Neo là một làn gió mới trong high-end phone segment, phân khúc điện thoại cận cao when copying almost every cấp, khi sao chép gần như high-end technology from the mọi công nghệ cao cấp từ elder Oppo Find X3 Pro but đàn anh Oppo Find X3 Pro at a more affordable price for nhưng với mức giá phải users. chăng hơn cho người dùng.3 Văn bản sau khi Oppo Find X3 Neo phone is Điện thoại Find_X3_Neo, tách từ a new breeze in the high-end là một làn gió mới trong phone segment, when copying phân khúc điện thoại cận almost every high-end cao cấp, khi sao chép gần technology from the elder như mọi công nghệ cao cấp Oppo Find X3 Pro but at a từ đàn anh more affordable price for Oppo_Find_X3_Pro nhưng users. với mức giá phải chăng hơn cho người dùng.

Minh họa ví dụ tách từ 2. Xác định loại từ trong câu (Part-of-Speech tagging - POS tagging) Công việc gán nhãn từ cũng được gọi là gắn thẻ ngữ pháp, cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó. Tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ trong đó. Mỗi từ trong một ngôn ngữ nói chung có thể gắn với nhiều từ loại.

Mỗi từ loại tương ứng với một hình thái và một vai trò ngữ pháp nhất định. Gán nhãn từ loại là một trong những bước quan trọng và cơ bản trong xử lý và khai phá dữ liệu trước khi phân tích văn phạm, ngữ nghĩa sâu hơn hay các vấn đề xử lý ngôn ngữ phức tạp khác. Nó xác định các chức năng ngữ pháp của từ trong câu. Khi văn bản đã được gán nhãn thì nó sẽ được ứng dụng trong các hệ thống tìm kiếm thông tin, gán nhãn tên thực thể, trong các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy.

Gán nhãn từ loại là bài toán nhận được quan tâm sớm nhất trong chuyên ngành xử lý ngôn ngữ tự nhiên và được nghiên cứu nhiều cũng như có nhiều phương pháp giải quyết.vn/oppo-find-x3-neo.html 8 Có thể kể đến một số bộ công cụ POS tagging cho hai loại ngôn ngữ:  Tiếng Anh: POS tagger của NLTK, Stanford Log-linear Part-OfSpeech Tagger… Ví dụ 1 (tiếng Anh). Văn bản đầu vào là: “And now for Samsung Galaxy Note 21.” Sau khi tách từ và POS tagging sẽ thu được kết quả: [('And', 'CC'), ('now', 'RB'), ('for', 'IN'), ('something', 'NN'), (‘Samsung’, ‘Np’), (‘Galaxy’, ‘Np’), ( ‘Note’, ‘Np’), (’21’, ‘M’)]  Tiếng Việt: JVnTagger, JH-POS-TAG, vnTagger, ViTokenizer… Ví dụ 2 (tiếng Việt). Văn bản đầu vào là: “Samsung Galaxy M52 sử dụng màn hình kích thước 6.5 inches, cùng với tấmc nền AMOLED cho khả năng hiển thị rực rỡ hơn nhiều so với màn FullHD. Bên cạnh đó, màn hình đã vận dụng màn dạng đục lỗ, giúp mở rộng được kích thước không gian trải nghiệm và độ phân giải đạt chuẩn FullHD cho khả năng hiển thị sắc nét, góc nhìn tốt.

Cấu hình mạnh mẽ bởi Snapdragon 730, 6GB RAM, bộ nhớ trong 128GB.” Sau khi tách từ và POS tagging sẽ thu được kết quả: Samsung/N Galaxy/Np M52/M sử/N dụng/N màn/N hình/N kích/N thước/N 6.5/M inches,/N cùng/A với/E tấm/Nc nền/N AMOLED/Np cho/V khả/N năng/N hiển/N thị/N rực/N rỡ/A hơn/A nhiều/A so/V với/E màn/N FullHD./N Bên/N cạnh/N đó,/N màn/N hình/N đã/R vận/V dụng/N màn/N dạng/N đục/N lỗ,/V giúp/V mở/V rộng/A được/V kích/V thước/N không/R gian/N trải/V nghiệm/N và/Np độ/N phân/N giải/N đạt/N chuẩn/N FullHD/N cho/V khả/N năng/N hiển/N thị/N sắc/N nét,/N góc/N nhìn/V tốt./N Cấu/N hình/N mạnh/A mẽ/N bởi/E Snapdragon/Np 730,/V 6GB/N RAM,/N bộ/N nhớ/V trong/N 128GB/M. Xác định cụm từ (Chunking) Trong nội dung xác định cụm từ thì phân cụm từ được nghiên cứu và được sử dụng trong nhiều ứng dụng thực tế như các hệ thống chích trọn thông tin, dịch 9 máy, và tóm tắt văn bản. Bài toán phân cụm có thể hiểu là việc gộp một dãy liên tiếp các từ trong câu để gán nhãn cú pháp.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Tài liệu "Phương Pháp Học Bán Giám Sát Trong Trích Chọn Thông Tin Tên Điện Thoại Di Động" trình bày một phương pháp học máy hiệu quả trong việc trích xuất thông tin từ tên điện thoại di động. Bài viết nhấn mạnh tầm quan trọng của việc áp dụng các kỹ thuật học bán giám sát để cải thiện độ chính xác và hiệu suất trong việc nhận diện và phân loại thông tin. Độc giả sẽ tìm thấy những lợi ích rõ ràng từ việc áp dụng phương pháp này, bao gồm khả năng xử lý dữ liệu không có nhãn và tối ưu hóa quy trình trích xuất thông tin.

Để mở rộng kiến thức về các phương pháp học máy và ứng dụng của chúng, bạn có thể tham khảo thêm tài liệu Luận văn thạc sĩ khoa học máy tính khai thác các tập hiếm từ phát hiện đến mở rộng, nơi cung cấp cái nhìn sâu sắc về việc khai thác dữ liệu hiếm. Ngoài ra, tài liệu Nghiên cứu kỹ thuật nhận dạng khuôn mặt dựa trên phương pháp biến đổi eigenfaces cũng sẽ giúp bạn hiểu rõ hơn về các kỹ thuật nhận dạng hình ảnh, một lĩnh vực liên quan mật thiết đến trích xuất thông tin. Cuối cùng, bạn có thể tìm hiểu thêm về Phương thứ họ máy trự tuyến dựa trên mô hình bayes, tài liệu này sẽ cung cấp cái nhìn tổng quan về các mô hình học máy hiện đại. Những tài liệu này sẽ giúp bạn mở rộng kiến thức và hiểu sâu hơn về các ứng dụng của học máy trong thực tiễn.

#Phân tích dữ liệu