i ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THỊ HẰNG CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG VIỆT VÀ ỨNG DỤNG LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên - Năm 2015 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn c i ĐẠI HOẠC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG VŨ THỊ HẰNG CÁC PHƢƠNG PHÁP PHÂN ĐOẠN TIẾNG VIỆT VÀ ỨNG DỤNG Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƢỜI HƢỚNG DẪN KHOA HỌC TS. BÙI VĂN THANH Thái Nguyên - Năm 2015 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn c ii MỤC LỤC Trang LỜI CẢM ƠN . v LỜI CAM ĐOAN . vi DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT . vii DANH MỤC BẢNG . viii DANH MỤC HÌNH . ix MỞ ĐẦU . KHÁI QUÁT VỀ TIẾNG VIỆT . Đặc điểm từ tiếng Việt . Các từ loại tiếng Việt . VẤN ĐỀ PHÂN ĐOẠN TIẾNG VIỆT . Từ vựng tiếng Việt . Tiếng – đơn vị cấu tạo lên từ . Cấu tạo từ . PHÂN ĐOẠN TỪ TIẾNG VIỆT BẰNG MÁY TÍNH . TỔNG KẾT CHƢƠNG . MỘT SỐ PHƢƠNG PHÁP PHÂN ĐOẠN VĂN BẢN TIẾNG VIỆT . MÔ HÌNH LRMM . Thuật toán Maximum Matching đơn giản . 19 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www. Thuật toán Maximum Matching phức tạp . PHƢƠNG PHÁP WFST (Weighted Finite-State Transducer) . MÔ HÌNH HỌC MÁY CRF . Định nghĩa CRF . Hàm tiềm năng của các mô hình CRF . Conditional Random Fields . TỔNG KẾT CHƢƠNG . BÀI TOÁN PHÂN ĐOẠN TIẾNG VIỆT . PHÁT BIỂU BÀI TOÁN . Cấu trúc chƣơng trình . Tiền xử lý số liệu . Khử nhập nhằng . CÁC LOẠI NHẬP NHẰNG KHI TÁCH TỪ . Nhập nhằng do so khớp cực đại FMM/BMM sinh ra . Nhập nhằng theo một số loại khác . CÁCH KHỬ NHẬP NHẰNG .1 Cải tiến phƣơng pháp so khớp cực đại.2 Khử nhập nhằng theo một số loại khác. TỔNG KẾT CHƢƠNG . THỬ NGHIỆM VÀ ĐÁNH GIÁ . 52 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www. KHO NGỮ LIỆU THỬ NGHIỆM VÀ CÁCH ĐÁNH GIÁ . QUY TRÌNH THỬ NGHIỆM . KẾT QUẢ THỬ NGHIỆM . GIAO DIỆN CHƢƠNG TRÌNH ỨNG DỤNG . 56 KẾT LUẬN VÀ KIẾN NGHỊ. 60 DANH MỤC TÀI LIỆU THAM KHẢO . 62 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn c v LỜI CẢM ƠN Em xin chân thành cảm ơn Ban Giám hiệu, Phòng Đào tạo Sau Đại học, Khoa Công nghệ Thông tin Trƣờng Đại học công nghệ thông tin và truyền thông Thái Nguyên đã tận tình giúp đỡ, tạo mọi điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu và thực hiện luận văn. Đặc biệt, em xin gửi lời tri ân sâu sắc đến TS Bùi Văn Thanh – ngƣời đã dành nhiều thời gian, công sức và tận tình hƣớng dẫn khoa học cho em trong suốt quá trình hình thành và hoàn chỉnh luận văn. Xin chân thành cảm ơn Quý Thầy, Cô đã giảng dạy, truyền đạt cho em những tri thức quý báu, thiết thực trong suốt khóa học. Cuối cùng xin bày tỏ lòng biết ơn đối với gia đình, ngƣời thân, bạn bè, đồng nghiệp đã giúp đỡ, động viên, đóng góp ý kiến quý báu cho em trong việc hoàn thành luận văn này. Thái Nguyên, ngày tháng năm 2015 Tác giả Vũ Thị Hằng Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn c vi LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dƣới sự hƣớng dẫn trực tiếp của TS. Mọi trích dẫn sử dụng trong báo cáo này đều đƣợc ghi rõ nguồn tài liệu tham khảo theo đúng qui định. Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm. Thái Nguyên, ngày tháng năm 2015 Tác giả Vũ Thị Hằng Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn c vii DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Tiếng Anh Từ viết tắt Tên đầy đủ Diễn giải Phƣơng pháp so khớp cực đại Back Maximum Matching BMM lùi Trƣờng ngẫu nhiên có điều CRFs Conditional Random Fields kiện Forward Maximum Phƣơng pháp so khớp cực đại FMM Matching tiến Left Right Maximum LRMM Matching Phƣơng pháp so khớp cực đại Weighted Finite State Phƣơng pháp chuyển dịch WEST Transducer trạng thái hữu hạn Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn c viii DANH MỤC BẢNG Trang Bảng 1. Hệ thống các từ loại tiếng Việt theo sách giáo khoa Ngữ văn THCS . Cấu trúc của tiếng trong tiếng Việt . Trọng số theo từ. Bảng số liệu các mục . Kết quả thử nghiệm . Kết quả phân đoạn . 56 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn c ix DANH MỤC HÌNH Trang Hình 2. Đồ thị vô hƣớng không có chu trình 24 Hình 2. Đồ thị vô hƣớng mô tả cho CRF 25 Hình 2. Mô tả các hàm tiềm năng 26 Hình 3. Mô hình bài toán phân đoạn tiếng Việt 30 Hình 3. Cấu trúc chƣơng trình phân đoạn tiếng Việt 31 Hình 4. Chọn chế độ lấy dữ liệu mẫu 52 Hình 4. Chƣơng trình phân đoạn văn bản 54 Hình 4. Giao diện chính của chƣơng trình 57 Hình 4. Chức năng phân đoạn văn bản 58 Hình 4. Kết quả sau khi phân đoạn văn bản 59 Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.vn c 1 MỞ ĐẦU 1. Lý do chọn đề tài Trong những năm gần đây, cùng với sự bùng nổ thông tin toàn cầu, thì lƣợng thông tin trên văn bản và web tiếng Việt cũng tăng lên nhanh chóng. Các dữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở thành kiểu dữ liệu chính con ngƣời có và lƣu trữ dƣới dạng điện tử. Vấn đề xử lý văn bản thành thông tin, tri thức hữu ích con ngƣời hiện đang trở nên cấp thiết và đang là một thách thức. Xử lý văn bản dựa trên các kỹ thuật của xử lý ngôn ngữ tự nhiên, một lĩnh vực đã có lịch sử nghiên hơn cứu nửa thế kỷ trên thế giới, với mục tiêu hiểu và sử dụng tri thức về ngôn ngữ ở các mức độ khác nhau và cách thức xử lí ngôn ngữđãđƣợc trải nghiệm và thừa nhận. Trong khi đó nghiên cứu về xử lý tiếng Việt còn đang còn ở những bƣớc đi đầu. Có thể nói xử lý tựđộng ngôn ngữ nói chung và xử lý văn bản nói riêng trên máy tính gặp phải vấn đề khó là làm sao cho máy đƣợc hiểu ngôn ngữ con ngƣời, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản. Mấu chốt ởđây là bản chất phức tạp của ngôn ngữ của con ngƣời, đặc biệt là sựđa nghĩa và nhập nhằng nghĩa của ngôn ngữ. TrongnỗlựcxâydựngmộtcơsởtrithứctiếngViệtthìviệchiểucácvănbản tiếng Việt, tómtắt văn bản tiếng Việt, hay phân loại văn bảntiếngViệt…lànhững công việc không thểthiếu. Các kếtquảđiểnhìnhvềlà các công cụcơ bản dùng để xử lý văn bản tiếng Việt nhƣ kiểm tra lỗi chính tả, phân tách từ, xác địnhloạitừ,phântíchcúpháp.Côngviệccơbản đầutiêncótínhtiênquyếtlàphân đoạn văn bản tiếngViệt thành các từ (tầng hình thái). c 2 Hiểu một cách đơngiản,bàitoánphân đoạn văn bản tiếngViệtlàchotrƣớcmộtvănbản tiếngViệt, cầnxác định trong văn bản đóranhgiớigiữa các từ trongcâu.Nhƣng khác vớimộtsốtiếngnƣớcngoàinhƣtiếngAnh,thìtrongtiếngViệtranhgiớigiữacáctừ trong đa số trƣờng hợpkhôngphải là dấucáchtrống.Văn bản tiếng Việt, tuy dùng bảng chữ cái Latinh, nhƣng có những đặc điểm riêng về ký hiệu, ngữ pháp và ngữ nghĩa, khác với các ngôn ngữ Ấn-Âu.Đây chính là khó khăn trong việc ứng dụng các kỹ thuật phát triển để xử lý ngôn ngữ tự nhiên. Mặt khác, dù là ngôn ngữ đơn âm tiết, nhƣng khác với các ngôn ngữ đơn âm tiết khác nhƣ Trung Quốc, Thái, tiếng Việt còn phức tạp bởi cách xác định biên giới của từ, sự đa nghĩa và nhập nhằng nghĩa. Vì vậy, cách thực hiện tách từ của các ngôn ngữ này cũng không thể ứng dụng cho tiếng Việt. Tuy nhiên, một văn bản thật sự có thể có đến hàng nghìn câu và ta không phải có một mà hàng triệu văn bản. Web là một nguồn dữ liệu văn bản khổng lồ, và cùng với các thƣ viện điện tử - khi trong một tƣơng lai gần các sách báo xƣa nay và các nguồn âm thanh đƣợc chuyển hết vào máy tính (chẳng hạn bằng các chƣơng trình nhận dạng chữ, thu nhập âm thanh, hoặc gõ thẳng vào máy) – sẽ sớm chứa hầu nhƣ toàn bộ kiến thức của nhân loại. Vấn đề là làm sao “xử lý” (chuyển đổi) đƣợc khối dữ liệu văn bản và tiếng nói khổng lồ này qua dạng khác để mỗi ngƣời có đƣợc thông tin và tri thức cần thiết từ chúng? ÝthứcđƣợcnhữnglợiíchcủaviệcxâydựngcơsởtrithứctiếngViệt,tầm quan trọng của việc xử lý văn bản tiếng Việt nóichung vàbàitoánphân đoạntiếngViệtnóiriêng bằng máy tính,em đãchọnhƣớngnghiêncứutrongkhóa luận của mình là phƣơng phápphân đoạn tiếngViệt. c 3 Để đạt đƣợc các mục tiêu đã đặt ra, hƣớng nghiên cứu của luận văn đƣợc tổ chức thành 4 chƣơng, gồm: - Chương I: Tổng quan về tiếng Việt. Phần này đƣa ra một số đặc điểm của từ tiếng Việt, hệ thống các từ loại tiếng Việt, từ đó đặt ra vấn đề giải quyết bài toán phân đoạn văn bản tiếng Việt, đó cũng là mục tiêu chính của đề tài này. - Chương II: Một số phương pháp phân đoạn văn bản tiếng Việt. Trong phần này đƣa ra tổng quan về một số mô hình phân đoạn văn bản có thể áp dụng cho văn bản tiếng Việt, và phân tích sâu hơn hai phƣơng pháp phân đoạn văn bản là “so khớp cực đại” - LRMM và phƣơng pháp “chuyển dịch trạng thái hữu hạn có trọng số” - WFST. - Chương III: Bài toán phân đoạn tiếng Việt.Trong phần này nên lên khái quát bài toán phân đoạn tiếng việt dựa trên việc cải tiến của phƣơng pháp so khớp cực đại tiến và so khớp cực đại lùi, phân tích một số loại nhập nhằng và đƣa ra phƣơng pháp khử nhập nhằng bằng trọng số. - Chương IV: Thử nghiệm và đánh giá.Trình bày các bƣớc lập kho ngữ liệu mẫu, lập từ điển. Qua đó thử nghiệm các phƣơng án tách từ và kết luận. Đối tƣợng nghiên cứu Đối tƣợng nghiên cứu của đề tài là nghiên cứu về các phƣơng pháp tách từ tiếng Việt, tìm hiểu một số loại nhập nhằng xảy ra khi phân đoạn văn bản tiếng Việt, đƣa ra trọng số để khử nhập nhằng trong các trƣờng hợp trên. Xây dựng từ điển phục vụ cho việc tách từ, xây dựng bộ ngữ liệu các câu mẫu và chƣơng trình thử nghiệm, đánh giá phƣơng pháp tách từ đã nêu và đƣa ra kết luận, hƣớng phát triển. Phạm vi nghiên cứu c 4 Phạmvi nghiên cứu của đề tài là tìm hiểu, tổng quan về các hƣớng tiếp cận có thể ứng dụng trong việc xây dựng mô hình phân đoạn văn bản tiếng Việt.
Tổng quan nghiên cứu
Trong bối cảnh bùng nổ thông tin toàn cầu, lượng dữ liệu văn bản tiếng Việt trên các nền tảng số ngày càng gia tăng nhanh chóng, tạo ra nhu cầu cấp thiết về xử lý và khai thác thông tin từ các văn bản này. Theo ước tính, việc phân đoạn từ trong tiếng Việt là bước đầu tiên và quan trọng trong xử lý ngôn ngữ tự nhiên (NLP) nhằm chuyển đổi văn bản thô thành các đơn vị từ có nghĩa, phục vụ cho các ứng dụng như kiểm tra chính tả, phân loại văn bản, tóm tắt, dịch máy và trích xuất thông tin. Tuy nhiên, đặc thù của tiếng Việt với cấu trúc đơn âm tiết, không có dấu cách rõ ràng giữa các từ, cùng với hiện tượng đa nghĩa và nhập nhằng từ loại, khiến cho bài toán phân đoạn từ trở nên phức tạp và khác biệt so với các ngôn ngữ Ấn-Âu.
Mục tiêu nghiên cứu của luận văn là phát triển và cải tiến các phương pháp phân đoạn tiếng Việt dựa trên mô hình so khớp cực đại (LRMM) và mô hình chuyển dịch trạng thái hữu hạn có trọng số (WFST), đồng thời đề xuất giải pháp khử nhập nhằng bằng trọng số nhằm nâng cao độ chính xác phân đoạn. Phạm vi nghiên cứu tập trung vào văn bản tiếng Việt thu thập từ các nguồn đa dạng, xử lý trong khoảng thời gian gần đây, với trọng tâm là xây dựng kho ngữ liệu thử nghiệm và đánh giá hiệu quả các phương pháp phân đoạn.
Nghiên cứu có ý nghĩa quan trọng trong việc xây dựng cơ sở tri thức tiếng Việt, góp phần phát triển các ứng dụng xử lý ngôn ngữ tự nhiên phù hợp với đặc thù ngôn ngữ, đồng thời hỗ trợ các lĩnh vực như truyền thông, giáo dục và công nghệ thông tin. Các chỉ số đánh giá như độ chính xác phân đoạn đạt khoảng 96% cho phương pháp cải tiến LRMM cho thấy tiềm năng ứng dụng thực tiễn của nghiên cứu.
Cơ sở lý thuyết và phương pháp nghiên cứu
Khung lý thuyết áp dụng
Luận văn dựa trên các lý thuyết và mô hình sau:
-
Lý thuyết về đặc điểm ngôn ngữ tiếng Việt: Tiếng Việt là ngôn ngữ đơn âm tiết, sử dụng bảng chữ cái Latinh mở rộng với dấu thanh, có cấu trúc từ phức tạp gồm từ đơn, từ ghép và từ láy. Việc xác định ranh giới từ không dựa vào khoảng trắng như tiếng Anh mà phụ thuộc vào ngữ cảnh và cấu trúc âm tiết.
-
Mô hình so khớp cực đại (LRMM): Thuật toán duyệt chuỗi âm tiết từ trái sang phải (FMM) hoặc từ phải sang trái (BMM), chọn từ có độ dài tối đa có trong từ điển. Cải tiến thuật toán bằng cách xét các bộ ba từ để khử nhập nhằng, nâng cao độ chính xác phân đoạn lên khoảng 96%.
-
Mô hình chuyển dịch trạng thái hữu hạn có trọng số (WFST): Áp dụng trọng số dựa trên xác suất xuất hiện của từ trong kho ngữ liệu để lựa chọn cách phân đoạn tối ưu. Mô hình này xây dựng từ điển trọng số và duyệt qua các khả năng phân đoạn, chọn phương án có trọng số nhỏ nhất.
-
Mô hình học máy Conditional Random Fields (CRF): Mô hình đồ thị vô hướng, dựa trên xác suất điều kiện, cho phép sử dụng nhiều thuộc tính quan sát trên toàn bộ chuỗi dữ liệu, giải quyết vấn đề "label bias" trong gán nhãn chuỗi. CRF được sử dụng để gán nhãn từ loại và hỗ trợ khử nhập nhằng trong phân đoạn.
Các khái niệm chính bao gồm: âm tiết, từ đơn, từ ghép, từ láy, nhập nhằng ranh giới từ, nhập nhằng đa nghĩa, nhập nhằng từ loại, trọng số trong WFST, hàm tiềm năng trong CRF.
Phương pháp nghiên cứu
-
Nguồn dữ liệu: Kho ngữ liệu thử nghiệm được xây dựng từ các văn bản tiếng Việt đa dạng định dạng (PDF, DOC, HTML, TXT) thu thập từ các nguồn trực tuyến và thư viện điện tử. Dữ liệu được chuyển đổi về dạng text thuần túy, chuẩn hóa font Unicode và làm sạch các thành phần không phải văn bản như hình ảnh, tag HTML, quảng cáo.
-
Phương pháp phân tích: Nghiên cứu áp dụng phương pháp so khớp cực đại tiến và lùi, kết hợp với thuật toán WFST để phân đoạn từ. Các loại nhập nhằng được phân loại và xử lý bằng cách sử dụng trọng số, xác suất bigram và độ thông tin tương hỗ (Mutual Information) nhằm chọn lựa phương án phân đoạn tối ưu. Mô hình CRF được sử dụng để gán nhãn từ loại và hỗ trợ khử nhập nhằng.
-
Timeline nghiên cứu: Quá trình nghiên cứu được thực hiện trong năm 2015, bao gồm các bước: tổng quan lý thuyết, xây dựng kho ngữ liệu, cài đặt và cải tiến thuật toán phân đoạn, thử nghiệm và đánh giá kết quả, đề xuất giải pháp khử nhập nhằng.
-
Cỡ mẫu và chọn mẫu: Kho ngữ liệu thử nghiệm gồm hàng nghìn câu tiếng Việt được lựa chọn ngẫu nhiên từ các nguồn khác nhau nhằm đảm bảo tính đại diện và đa dạng về cấu trúc câu, từ loại và hiện tượng nhập nhằng.
-
Phương pháp thực nghiệm: Thực hiện thử nghiệm phân đoạn trên kho ngữ liệu, đánh giá độ chính xác phân đoạn, so sánh kết quả giữa các phương pháp LRMM, WFST và CRF, đồng thời phân tích các trường hợp nhập nhằng và hiệu quả của giải pháp khử nhập nhằng bằng trọng số.
Kết quả nghiên cứu và thảo luận
Những phát hiện chính
-
Độ chính xác phân đoạn của phương pháp LRMM cải tiến đạt khoảng 96% trên kho ngữ liệu thử nghiệm, cao hơn so với thuật toán so khớp cực đại đơn giản. Việc xét các bộ ba từ giúp giảm thiểu sai sót do nhập nhằng ranh giới từ.
-
Phương pháp WFST cho phép lựa chọn phân đoạn tối ưu dựa trên trọng số xác suất xuất hiện từ, tuy nhiên gặp khó khăn với các văn bản dài do sự bùng nổ số lượng khả năng phân đoạn (2^n - 1 cách với câu n âm tiết). Việc kết hợp WFST với các kỹ thuật khử nhập nhằng nâng cao độ chính xác phân đoạn.
-
Khử nhập nhằng bằng trọng số và xác suất bigram giúp xử lý hiệu quả các trường hợp nhập nhằng có độ lệch âm tiết bằng nhau, ví dụ như phân biệt giữa "học sinh học" thành | học sinh | học | hoặc | học | sinh học | dựa trên ngữ cảnh từ bên trái và bên phải.
-
Phân loại nhập nhằng thành ba loại chính: nhập nhằng do so khớp cực đại sinh ra, nhập nhằng thành ngữ/quán ngữ có số âm tiết lớn, và nhập nhằng giữa từ đơn và từ ghép hai âm tiết. Mỗi loại được xử lý bằng các giải pháp khác nhau như cải tiến thuật toán, phân rã thành ngữ, hoặc tách từ theo vị trí trong câu.
Thảo luận kết quả
Nguyên nhân chính của các nhập nhằng trong phân đoạn tiếng Việt xuất phát từ đặc điểm ngôn ngữ đơn âm tiết, không có dấu cách rõ ràng giữa từ, và sự đa nghĩa, đồng âm, đồng tự trong từ vựng. Việc áp dụng mô hình LRMM cải tiến giúp giảm thiểu nhập nhằng do so khớp cực đại tiến/lùi, đồng thời sử dụng trọng số và xác suất bigram giúp lựa chọn phương án phân đoạn phù hợp với ngữ cảnh.
So sánh với các nghiên cứu trước đây, kết quả độ chính xác khoảng 96% là mức cao, thể hiện hiệu quả của việc kết hợp các phương pháp truyền thống với kỹ thuật học máy và thống kê. Việc sử dụng mô hình CRF cho phép khai thác nhiều thuộc tính quan sát, giải quyết vấn đề "label bias" và nâng cao độ chính xác gán nhãn từ loại, từ đó hỗ trợ khử nhập nhằng hiệu quả hơn.
Dữ liệu có thể được trình bày qua các biểu đồ so sánh độ chính xác phân đoạn giữa các phương pháp LRMM, WFST và CRF, cũng như bảng thống kê các loại nhập nhằng và tỷ lệ xuất hiện trong kho ngữ liệu thử nghiệm. Điều này giúp minh họa rõ ràng hiệu quả và hạn chế của từng phương pháp.
Đề xuất và khuyến nghị
-
Phát triển hệ thống phân đoạn tiếng Việt tích hợp đa mô hình: Kết hợp LRMM cải tiến, WFST và CRF để tận dụng ưu điểm từng mô hình, nâng cao độ chính xác phân đoạn và khả năng xử lý nhập nhằng. Thời gian thực hiện: 12 tháng. Chủ thể: các nhóm nghiên cứu và doanh nghiệp công nghệ ngôn ngữ.
-
Xây dựng và mở rộng kho ngữ liệu tiếng Việt đa dạng, có chú thích đầy đủ: Bao gồm các trường hợp nhập nhằng, thành ngữ, quán ngữ để phục vụ huấn luyện và đánh giá mô hình. Thời gian: liên tục, ưu tiên trong 6-12 tháng đầu. Chủ thể: các viện nghiên cứu, trường đại học.
-
Áp dụng kỹ thuật học sâu (Deep Learning) kết hợp với CRF để cải thiện khả năng nhận diện ngữ cảnh và xử lý nhập nhằng phức tạp. Thời gian: 18 tháng. Chủ thể: nhóm nghiên cứu chuyên sâu về NLP.
-
Phát triển giao diện người dùng thân thiện cho phép người dùng can thiệp xử lý nhập nhằng thủ công khi cần thiết, đồng thời cập nhật dữ liệu phản hồi để cải tiến mô hình tự động. Thời gian: 6 tháng. Chủ thể: các công ty phát triển phần mềm xử lý ngôn ngữ.
Đối tượng nên tham khảo luận văn
-
Nhà nghiên cứu và sinh viên ngành Khoa học Máy tính, Ngôn ngữ học máy tính: Nghiên cứu các phương pháp phân đoạn tiếng Việt, học thuật toán xử lý ngôn ngữ tự nhiên, phát triển mô hình học máy.
-
Các công ty công nghệ phát triển ứng dụng xử lý ngôn ngữ tự nhiên: Áp dụng kết quả nghiên cứu để xây dựng các sản phẩm như kiểm tra chính tả, dịch máy, trích xuất thông tin, chatbot tiếng Việt.
-
Giảng viên và sinh viên ngành Ngôn ngữ học, Ngôn ngữ học ứng dụng: Hiểu rõ đặc điểm ngôn ngữ tiếng Việt, các vấn đề nhập nhằng trong ngôn ngữ, ứng dụng công nghệ trong nghiên cứu ngôn ngữ.
-
Các tổ chức truyền thông, giáo dục và thư viện số: Ứng dụng công nghệ phân đoạn từ để xử lý, phân loại và khai thác kho dữ liệu văn bản tiếng Việt lớn, phục vụ công tác biên tập, lưu trữ và tra cứu.
Câu hỏi thường gặp
-
Phân đoạn tiếng Việt khác gì so với tiếng Anh?
Tiếng Việt là ngôn ngữ đơn âm tiết, không có dấu cách rõ ràng giữa các từ, trong khi tiếng Anh dùng khoảng trắng để phân tách từ. Do đó, phân đoạn tiếng Việt phức tạp hơn, cần xử lý nhập nhằng ranh giới từ và đa nghĩa. -
Tại sao phải kết hợp nhiều phương pháp phân đoạn?
Mỗi phương pháp có ưu nhược điểm riêng: LRMM đơn giản nhưng dễ sai nhập nhằng; WFST chính xác nhưng tốn tài nguyên; CRF xử lý ngữ cảnh tốt nhưng cần dữ liệu huấn luyện lớn. Kết hợp giúp tận dụng điểm mạnh, giảm sai sót. -
Nhập nhằng trong phân đoạn tiếng Việt là gì?
Là hiện tượng một chuỗi âm tiết có thể được phân đoạn thành các từ khác nhau tùy ngữ cảnh, gây khó khăn cho máy tính trong việc xác định ranh giới từ chính xác. -
Làm thế nào để khử nhập nhằng hiệu quả?
Sử dụng trọng số dựa trên xác suất xuất hiện từ, xác suất bigram, độ thông tin tương hỗ và mô hình học máy như CRF để lựa chọn phương án phân đoạn phù hợp với ngữ cảnh. -
Ứng dụng thực tiễn của nghiên cứu này là gì?
Nâng cao chất lượng các ứng dụng xử lý tiếng Việt như kiểm tra chính tả, dịch máy, tóm tắt văn bản, chatbot, giúp người dùng truy cập và khai thác thông tin hiệu quả hơn.
Kết luận
- Luận văn đã phân tích đặc điểm ngôn ngữ tiếng Việt và các vấn đề nhập nhằng trong phân đoạn từ, làm cơ sở cho việc phát triển phương pháp phân đoạn phù hợp.
- Cải tiến thuật toán so khớp cực đại (LRMM) và áp dụng mô hình WFST cùng CRF giúp nâng cao độ chính xác phân đoạn lên khoảng 96%.
- Phân loại và xử lý nhập nhằng bằng trọng số và xác suất bigram là giải pháp hiệu quả cho các trường hợp nhập nhằng phức tạp.
- Kết quả nghiên cứu góp phần xây dựng cơ sở tri thức tiếng Việt, hỗ trợ phát triển các ứng dụng xử lý ngôn ngữ tự nhiên.
- Đề xuất phát triển hệ thống tích hợp đa mô hình, mở rộng kho ngữ liệu và ứng dụng kỹ thuật học sâu là hướng nghiên cứu tiếp theo trong vòng 1-2 năm tới.
Quý độc giả và các nhà nghiên cứu được khuyến khích áp dụng và phát triển tiếp các phương pháp này nhằm nâng cao hiệu quả xử lý tiếng Việt trong các ứng dụng thực tiễn.