Kỹ Thuật Xử Lý Ngôn Ngữ Trong Số Hóa Văn Bản Tiếng Việt

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

1.2. Giới thiệu một số công nghệ trong số hóa tài liệu

1.2.1. Công nghệ nhận dạng tiếng Việt

1.2.2. Công nghệ soát lỗi chính tả tiếng Việt

1.2.3. Công nghệ tách bộ và lập chỉ mục

1.3. Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt

1.4. Tổng kết chương 1

2. CHƯƠNG 2: CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN

2.1. Một số kỹ thuật nhận dạng OCR

2.1.1. Kỹ thuật nhận dạng dựa trên mô hình máy vectơ hỗ trợ (SVM)

2.1.2. Kỹ thuật nhận dạng dựa trên mô hình Markov ẩn (HMM)

2.1.3. Kỹ thuật nhận dạng dựa trên mô hình mạng nơ ron (ANN)

2.1.4. Cách tiếp cận nhận dạng OCR của FSCANNER

2.2. Kỹ thuật soát lỗi chính tả tiếng Việt dựa trên mô hình n-gram

2.2.1. Giới thiệu bài toán soát lỗi chính tả tiếng Việt

2.2.2. Mô hình ngôn ngữ N-gram

2.2.3. Kỹ thuật soát lỗi dựa trên mô hình n-gram của hệ thống FSCANNER

2.3. Trích rút metadata

2.3.1. Giới thiệu về metadata và chuẩn Dublin Core

2.3.2. Bài toán trích rút metadata

2.3.3. Đề xuất metadata cho văn bản được số hóa

2.4. Tổng kết chương 2

3. CHƯƠNG 3: THỰC NGHIỆM, ĐÁNH GIÁ

3.1. Các bước thực hiện chương trình của hệ thống

3.2. Xây dựng bộ dữ liệu thực nghiệm cho ảnh quét

3.3. Tiến hành thực nghiệm

3.4. Cách thực hiện

3.5. Kết quả thực nghiệm

3.6. Đánh giá kết quả

3.7. Tổng kết chương 3

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Kỹ Thuật Xử Lý Ngôn Ngữ Trong Số Hóa Văn Bản Tiếng Việt

Kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) đóng vai trò quan trọng trong việc số hóa văn bản tiếng Việt. Việc áp dụng NLP giúp máy tính hiểu và xử lý ngôn ngữ con người, từ đó cải thiện khả năng tìm kiếm và quản lý thông tin. Số hóa văn bản không chỉ giúp tiết kiệm thời gian mà còn nâng cao độ chính xác trong việc lưu trữ và truy xuất thông tin.

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

Xử lý ngôn ngữ tự nhiên (NLP) là lĩnh vực nghiên cứu giúp máy tính hiểu và xử lý ngôn ngữ con người. NLP bao gồm nhiều ứng dụng như nhận dạng tiếng nói, dịch tự động và tóm tắt văn bản.

1.2. Tầm quan trọng của số hóa văn bản tiếng Việt

Số hóa văn bản tiếng Việt giúp giảm chi phí lưu trữ và tăng năng suất quản lý tài liệu. Việc chuyển đổi tài liệu từ bản cứng sang định dạng số hóa là cần thiết trong thời đại công nghệ thông tin.

II. Những Thách Thức Trong Xử Lý Ngôn Ngữ Tiếng Việt

Xử lý ngôn ngữ tiếng Việt gặp nhiều thách thức do tính phức tạp của ngôn ngữ. Các vấn đề như ngữ pháp, từ vựng và cách diễn đạt đa dạng gây khó khăn cho việc nhận diện và phân tích ngữ nghĩa.

2.1. Đặc điểm ngôn ngữ tiếng Việt

Tiếng Việt có nhiều từ đồng âm và từ đa nghĩa, điều này làm cho việc phân tích ngữ nghĩa trở nên khó khăn. Các kỹ thuật xử lý ngôn ngữ cần phải được điều chỉnh để phù hợp với đặc điểm này.

2.2. Khó khăn trong nhận dạng văn bản tiếng Việt

Việc nhận dạng văn bản tiếng Việt gặp khó khăn do sự đa dạng về kiểu chữ và cách viết. Các phần mềm nhận dạng cần cải tiến để nâng cao độ chính xác.

III. Phương Pháp Xử Lý Ngôn Ngữ Trong Số Hóa Văn Bản

Có nhiều phương pháp được áp dụng trong xử lý ngôn ngữ tiếng Việt, bao gồm nhận dạng ký tự quang học (OCR), soát lỗi chính tả và trích rút metadata. Những phương pháp này giúp cải thiện chất lượng và độ chính xác của văn bản số hóa.

3.1. Kỹ thuật nhận dạng ký tự quang học OCR

OCR là công nghệ giúp chuyển đổi hình ảnh văn bản thành văn bản số. Các phần mềm như ABBYY FineReader và VietOCR đã được phát triển để hỗ trợ nhận dạng tiếng Việt.

3.2. Kỹ thuật soát lỗi chính tả tiếng Việt

Soát lỗi chính tả là bước quan trọng trong xử lý văn bản. Các phần mềm như BÚT ĐỎ và CÚ MÈO giúp phát hiện và sửa lỗi chính tả trong văn bản tiếng Việt.

IV. Ứng Dụng Thực Tiễn Của Kỹ Thuật Xử Lý Ngôn Ngữ

Kỹ thuật xử lý ngôn ngữ đã được áp dụng rộng rãi trong nhiều lĩnh vực như giáo dục, y tế và quản lý thông tin. Việc số hóa văn bản giúp cải thiện khả năng truy xuất và quản lý tài liệu.

4.1. Ứng dụng trong giáo dục

Trong giáo dục, việc số hóa tài liệu học tập giúp sinh viên dễ dàng truy cập và tìm kiếm thông tin. Các phần mềm hỗ trợ học tập cũng được phát triển dựa trên công nghệ NLP.

4.2. Ứng dụng trong quản lý thông tin

Các tổ chức và doanh nghiệp sử dụng công nghệ xử lý ngôn ngữ để quản lý tài liệu và thông tin hiệu quả hơn. Việc số hóa giúp tiết kiệm thời gian và chi phí.

V. Kết Luận Về Tương Lai Của Kỹ Thuật Xử Lý Ngôn Ngữ

Tương lai của kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt hứa hẹn sẽ phát triển mạnh mẽ. Các nghiên cứu và cải tiến công nghệ sẽ giúp nâng cao độ chính xác và hiệu quả trong việc xử lý ngôn ngữ.

5.1. Xu hướng phát triển công nghệ

Công nghệ xử lý ngôn ngữ sẽ tiếp tục phát triển với sự hỗ trợ của trí tuệ nhân tạo và học máy. Điều này sẽ giúp cải thiện khả năng nhận diện và phân tích ngữ nghĩa.

5.2. Tầm quan trọng của nghiên cứu và phát triển

Nghiên cứu và phát triển trong lĩnh vực xử lý ngôn ngữ là cần thiết để đáp ứng nhu cầu ngày càng cao trong việc số hóa và quản lý thông tin.

22/07/2025

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh số hóa tài liệu ngày càng trở nên cấp thiết, đặc biệt với lượng lớn văn bản tiếng Việt bản cứng cần được lưu trữ và quản lý hiệu quả, việc phát triển các kỹ thuật xử lý ngôn ngữ tự nhiên (NLP) để số hóa văn bản tiếng Việt là một thách thức lớn. Theo ước tính, nhiều tổ chức và doanh nghiệp tại Việt Nam đang lưu trữ hàng triệu trang tài liệu giấy, đòi hỏi giải pháp số hóa nhanh chóng, chính xác và tiết kiệm chi phí. Vấn đề chính là các file ảnh sau khi quét không thể chỉnh sửa hay tìm kiếm nội dung, do đó cần chuyển đổi sang dạng văn bản có thể xử lý được.

Mục tiêu của nghiên cứu là xây dựng và hoàn thiện các kỹ thuật xử lý ngôn ngữ trong số hóa văn bản tiếng Việt, tập trung vào hệ thống FSCANNER do Viện Công nghệ thông tin - Đại học Quốc gia Hà Nội phát triển. Nghiên cứu nhằm nâng cao độ chính xác nhận dạng ký tự quang học (OCR), cải tiến kỹ thuật soát lỗi chính tả tiếng Việt dựa trên mô hình n-gram, và đề xuất các yếu tố metadata phù hợp cho văn bản số hóa. Phạm vi nghiên cứu tập trung vào các kỹ thuật nhận dạng OCR, soát lỗi chính tả và trích rút metadata trong giai đoạn 2012-2014 tại Việt Nam.

Ý nghĩa của nghiên cứu được thể hiện qua việc giảm chi phí nhập liệu thủ công, tăng tốc độ xử lý tài liệu, nâng cao độ chính xác nhận dạng và hỗ trợ tìm kiếm thông tin hiệu quả. Các chỉ số như tỷ lệ nhận dạng đúng từ đạt trên 90% ở các mức DPI và góc xoay phù hợp, cùng với việc áp dụng chuẩn metadata Dublin Core giúp quản lý tài liệu khoa học và hệ thống hơn.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Xử lý ngôn ngữ tự nhiên (NLP): Lĩnh vực nghiên cứu giúp máy tính hiểu và xử lý ngôn ngữ con người, bao gồm các bài toán như nhận dạng tiếng nói, nhận dạng chữ viết, dịch tự động, tóm tắt văn bản, tìm kiếm thông tin và trích chọn thông tin.
Nhận dạng ký tự quang học (OCR): Công nghệ chuyển đổi hình ảnh văn bản thành dữ liệu văn bản có thể chỉnh sửa. Các mô hình phân lớp chính được sử dụng gồm:
- Máy vectơ hỗ trợ (SVM): Phân lớp tuyến tính tối ưu hóa biên lề, phù hợp với dữ liệu có không gian thuộc tính lớn.
- Mô hình Markov ẩn (HMM): Mô hình xác suất hữu hạn trạng thái, xử lý chuỗi quan sát ẩn, hiệu quả trong nhận dạng chuỗi ký tự.
- Mạng nơ-ron nhân tạo (ANN): Mô phỏng hệ thần kinh sinh học, có khả năng học và tổng quát hóa cao, đặc biệt là mạng MLP nhiều lớp.
Mô hình ngôn ngữ n-gram: Dự đoán xác suất xuất hiện của từ dựa trên n từ liền trước, được áp dụng trong kỹ thuật soát lỗi chính tả tiếng Việt.
Metadata và chuẩn Dublin Core: Bộ 15 yếu tố cơ bản mô tả tài nguyên giúp quản lý và tìm kiếm tài liệu hiệu quả, được mở rộng thêm các trường đặc thù cho văn bản số hóa.

Phương pháp nghiên cứu

Nguồn dữ liệu: Bộ dữ liệu thực nghiệm gồm các ảnh quét văn bản tiếng Việt với các mức DPI và góc xoay khác nhau, cùng các văn bản quy phạm pháp luật số hóa.
Phương pháp phân tích:
- Thực hiện nhận dạng OCR trên ảnh quét sử dụng các mô hình SVM, HMM, ANN.
- Áp dụng mô hình n-gram để soát và sửa lỗi chính tả trong văn bản nhận dạng.
- Trích rút metadata tự động dựa trên đặc thù thể thức văn bản hành chính và chuẩn Dublin Core.
- Đánh giá hiệu quả nhận dạng qua tỷ lệ phần trăm từ nhận dạng đúng ở các điều kiện DPI và góc xoay.
Timeline nghiên cứu: Từ năm 2012 đến 2014, bao gồm giai đoạn thu thập dữ liệu, phát triển thuật toán, thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Tỷ lệ nhận dạng OCR: Ở mức DPI 300, tỷ lệ nhận dạng đúng từ đạt khoảng 92%, trong khi ở DPI thấp hơn (150 DPI) chỉ đạt khoảng 75%. Góc xoay lệch trái hoặc phải trên 5 độ làm giảm tỷ lệ nhận dạng đúng từ khoảng 10-15%.
Hiệu quả mô hình soát lỗi n-gram: Kỹ thuật soát lỗi dựa trên mô hình n-gram giúp phát hiện và sửa lỗi chính tả thực từ và phi từ, nâng cao độ chính xác nhận dạng lên thêm khoảng 5-7%.
Trích rút metadata: Hệ thống FSCANNER tự động trích rút được 25 yếu tố metadata, trong đó 15 yếu tố theo chuẩn Dublin Core và 10 yếu tố bổ sung đặc thù cho văn bản số hóa, đạt độ chính xác trên 90% trong việc nhận diện các trường thông tin như tiêu đề, tác giả, ngày ban hành.
So sánh các mô hình nhận dạng: SVM và HMM cho kết quả nhận dạng tương đương nhau với độ chính xác khoảng 90%, trong khi ANN có ưu thế về khả năng tổng quát hóa nhưng đòi hỏi chuẩn hóa dữ liệu đầu vào kỹ lưỡng.

Thảo luận kết quả

Nguyên nhân chính của sự khác biệt tỷ lệ nhận dạng OCR là do chất lượng ảnh quét, đặc biệt là độ phân giải DPI và góc xoay ảnh. Việc lựa chọn ngưỡng DPI 300 và góc xoay dưới 3 độ được đề xuất nhằm tối ưu hóa hiệu quả nhận dạng. Kỹ thuật soát lỗi n-gram tận dụng đặc điểm ngôn ngữ tiếng Việt, đặc biệt là cấu trúc âm tiết và từ, giúp phát hiện lỗi mà các phần mềm soát lỗi truyền thống khó xử lý.

So với các nghiên cứu trước đây, hệ thống FSCANNER có sự cải tiến rõ rệt trong việc tích hợp đồng bộ các bước nhận dạng, soát lỗi và trích rút metadata, giúp nâng cao hiệu quả quản lý tài liệu số hóa. Việc áp dụng chuẩn metadata Dublin Core cùng các trường bổ sung phù hợp với đặc thù văn bản hành chính Việt Nam giúp hệ thống có khả năng mở rộng và ứng dụng thực tiễn cao.

Dữ liệu kết quả có thể được trình bày qua biểu đồ tỷ lệ nhận dạng đúng từ theo các mức DPI và góc xoay, bảng so sánh độ chính xác của các mô hình nhận dạng và bảng thống kê độ chính xác trích rút metadata.

Đề xuất và khuyến nghị

Tối ưu hóa quy trình quét tài liệu: Áp dụng ngưỡng DPI tối thiểu 300 và giới hạn góc xoay ảnh dưới 3 độ để đảm bảo chất lượng ảnh đầu vào, nâng cao tỷ lệ nhận dạng OCR.
Phát triển mô hình soát lỗi nâng cao: Mở rộng mô hình n-gram kết hợp với các kỹ thuật học sâu để cải thiện khả năng phát hiện và sửa lỗi thực từ, đặc biệt trong các văn bản chuyên ngành.
Tự động hóa trích rút metadata: Triển khai hệ thống trích rút metadata dựa trên chuẩn Dublin Core và các yếu tố bổ sung, tích hợp với cơ sở dữ liệu quản lý tài liệu để hỗ trợ tìm kiếm và lưu trữ hiệu quả.
Đào tạo và nâng cao nhận thức người dùng: Tổ chức các khóa đào tạo cho nhân viên quản lý tài liệu về quy trình số hóa và sử dụng hệ thống FSCANNER nhằm đảm bảo vận hành hiệu quả.
Thời gian thực hiện: Các giải pháp trên nên được triển khai trong vòng 12-18 tháng, với sự phối hợp giữa các đơn vị công nghệ thông tin và các cơ quan lưu trữ.
Chủ thể thực hiện: Viện Công nghệ thông tin, các trường đại học, doanh nghiệp công nghệ và các cơ quan quản lý nhà nước về lưu trữ tài liệu.

Đối tượng nên tham khảo luận văn

Các nhà nghiên cứu và sinh viên ngành Công nghệ thông tin, đặc biệt chuyên ngành Kỹ thuật phần mềm: Nghiên cứu các kỹ thuật xử lý ngôn ngữ tự nhiên, nhận dạng ký tự quang học và trích rút metadata.
Các tổ chức, doanh nghiệp có nhu cầu số hóa tài liệu tiếng Việt: Áp dụng giải pháp FSCANNER để nâng cao hiệu quả quản lý và tìm kiếm tài liệu số hóa.
Cơ quan lưu trữ và thư viện: Tối ưu hóa quy trình số hóa và quản lý tài liệu lưu trữ theo chuẩn metadata, nâng cao khả năng truy xuất thông tin.
Nhà phát triển phần mềm và công nghệ: Tham khảo các mô hình và thuật toán nhận dạng OCR, soát lỗi chính tả và trích rút metadata để phát triển các sản phẩm công nghệ mới.

Câu hỏi thường gặp

Hệ thống FSCANNER có thể nhận dạng chính xác văn bản tiếng Việt đến mức nào?
Tỷ lệ nhận dạng đúng từ có thể đạt trên 90% ở điều kiện ảnh quét chuẩn DPI 300 và góc xoay dưới 3 độ, nhờ kết hợp các mô hình SVM, HMM và ANN.
Mô hình n-gram giúp gì trong việc soát lỗi chính tả tiếng Việt?
Mô hình n-gram dựa trên xác suất xuất hiện của các cụm từ giúp phát hiện lỗi phi từ và thực từ, cải thiện độ chính xác nhận dạng sau OCR.
Metadata trong số hóa văn bản có vai trò gì?
Metadata giúp mô tả, phân loại và quản lý tài liệu số hóa, hỗ trợ tìm kiếm nhanh và chính xác, đồng thời đảm bảo tính pháp lý và lưu trữ khoa học.
Làm thế nào để chọn ngưỡng DPI và góc xoay phù hợp khi quét tài liệu?
Nghiên cứu đề xuất DPI tối thiểu 300 và góc xoay không vượt quá 3 độ để đảm bảo chất lượng ảnh đầu vào, từ đó nâng cao hiệu quả nhận dạng OCR.
Hệ thống FSCANNER có thể áp dụng cho loại văn bản nào?
Hệ thống phù hợp với các văn bản tiếng Việt, đặc biệt là văn bản hành chính, quy phạm pháp luật, báo cáo và các tài liệu lưu trữ có cấu trúc chuẩn.

Kết luận

Đã xây dựng thành công hệ thống FSCANNER với các kỹ thuật nhận dạng OCR, soát lỗi chính tả và trích rút metadata phù hợp cho văn bản tiếng Việt.
Đề xuất ngưỡng DPI 300 và góc xoay dưới 3 độ giúp nâng cao tỷ lệ nhận dạng đúng từ lên trên 90%.
Áp dụng mô hình n-gram hiệu quả trong việc phát hiện và sửa lỗi chính tả tiếng Việt.
Xây dựng bộ metadata gồm 25 yếu tố, trong đó có 15 yếu tố chuẩn Dublin Core và 10 yếu tố bổ sung đặc thù cho văn bản số hóa.
Khuyến nghị triển khai các giải pháp trong vòng 12-18 tháng, phối hợp giữa các đơn vị công nghệ và cơ quan lưu trữ để nâng cao hiệu quả quản lý tài liệu số hóa.

Đẩy mạnh nghiên cứu mở rộng mô hình học sâu cho nhận dạng và soát lỗi, đồng thời phát triển giao diện người dùng thân thiện cho hệ thống FSCANNER nhằm ứng dụng rộng rãi trong thực tế.

Chủ đề

Xử lý ngôn ngữ tự nhiên tiếng Việt

Công nghệ Nhận dạng Ký tự Quang học (OCR)

Số hóa văn bản và tài liệu lưu trữ

Trích rút thông tin và metadata

Luận Văn Thạc Sĩ Về Kỹ Thuật Xử Lý Ngôn Ngữ Trong Số Hóa Văn Bản Tiếng Việt Của Hệ Thống FSCANNER

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN TIẾNG VIỆT

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

1.2. Giới thiệu một số công nghệ trong số hóa tài liệu

1.2.1. Công nghệ nhận dạng tiếng Việt

1.2.2. Công nghệ soát lỗi chính tả tiếng Việt

1.2.3. Công nghệ tách bộ và lập chỉ mục

1.3. Bài toán xử lý ngôn ngữ trong số hóa văn bản tiếng Việt

1.4. Tổng kết chương 1

2. CHƯƠNG 2: CÁC KỸ THUẬT XỬ LÝ NGÔN NGỮ TRONG SỐ HÓA VĂN BẢN

2.1. Một số kỹ thuật nhận dạng OCR

2.1.1. Kỹ thuật nhận dạng dựa trên mô hình máy vectơ hỗ trợ (SVM)

2.1.2. Kỹ thuật nhận dạng dựa trên mô hình Markov ẩn (HMM)

2.1.3. Kỹ thuật nhận dạng dựa trên mô hình mạng nơ ron (ANN)

2.1.4. Cách tiếp cận nhận dạng OCR của FSCANNER

2.2. Kỹ thuật soát lỗi chính tả tiếng Việt dựa trên mô hình n-gram

2.2.1. Giới thiệu bài toán soát lỗi chính tả tiếng Việt

2.2.2. Mô hình ngôn ngữ N-gram

2.2.3. Kỹ thuật soát lỗi dựa trên mô hình n-gram của hệ thống FSCANNER

2.3. Trích rút metadata

2.3.1. Giới thiệu về metadata và chuẩn Dublin Core

2.3.2. Bài toán trích rút metadata

2.3.3. Đề xuất metadata cho văn bản được số hóa

2.4. Tổng kết chương 2

3. CHƯƠNG 3: THỰC NGHIỆM, ĐÁNH GIÁ

3.1. Các bước thực hiện chương trình của hệ thống

3.2. Xây dựng bộ dữ liệu thực nghiệm cho ảnh quét

3.3. Tiến hành thực nghiệm

3.4. Cách thực hiện

3.5. Kết quả thực nghiệm

3.6. Đánh giá kết quả

3.7. Tổng kết chương 3

TÀI LIỆU THAM KHẢO

I. Tổng quan về Kỹ Thuật Xử Lý Ngôn Ngữ Trong Số Hóa Văn Bản Tiếng Việt

1.1. Giới thiệu về xử lý ngôn ngữ tự nhiên

1.2. Tầm quan trọng của số hóa văn bản tiếng Việt

II. Những Thách Thức Trong Xử Lý Ngôn Ngữ Tiếng Việt

2.1. Đặc điểm ngôn ngữ tiếng Việt

2.2. Khó khăn trong nhận dạng văn bản tiếng Việt

III. Phương Pháp Xử Lý Ngôn Ngữ Trong Số Hóa Văn Bản

3.1. Kỹ thuật nhận dạng ký tự quang học OCR

3.2. Kỹ thuật soát lỗi chính tả tiếng Việt

IV. Ứng Dụng Thực Tiễn Của Kỹ Thuật Xử Lý Ngôn Ngữ

4.1. Ứng dụng trong giáo dục

4.2. Ứng dụng trong quản lý thông tin

V. Kết Luận Về Tương Lai Của Kỹ Thuật Xử Lý Ngôn Ngữ

5.1. Xu hướng phát triển công nghệ

5.2. Tầm quan trọng của nghiên cứu và phát triển

TÀI LIỆU LIÊN QUAN

THÔNG TIN CHI TIẾT

Tác giả: Ninh Thị Thu Hà

Người hướng dẫn: TS. Lê Quang Minh

Trường học: Đại học Quốc gia Hà Nội

Chuyên ngành: Công nghệ thông tin

Đề tài: Các Kỹ Thuật Xử Lý Ngôn Ngữ Trong Số Hóa Văn Bản Tiếng Việt Của Hệ Thống FSCANNER

Loại tài liệu: luận văn thạc sĩ

Năm xuất bản: 2014

Địa điểm: Hà Nội

Tổng quan nghiên cứu

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Phương pháp nghiên cứu

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Thảo luận kết quả

Đề xuất và khuyến nghị

Đối tượng nên tham khảo luận văn

Câu hỏi thường gặp

Kết luận