Luận văn thạc sĩ vnu uet xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng việt bằng phương pháp học thống kê luận văn ths công nghệ thông tin 1 01 10

Luận văn thạc sĩ nghiên cứu vnu uet xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng việt bằng phương pháp học thống kê, đánh giá hiện trạng, phân tích vấn đề, đề xuất

Trường đại học

Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

Luận văn thạc sĩ

2007

Phí lưu trữ

35 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN

1.1. Lược sử về trích chọn thông tin

1.2. IE với ngôn ngữ tự nhiên

1.3. Một số hệ IE trong thời kỳ đầu

1.4. Xây dựng các hệ trích chọn thông tin

1.4.1. Phương pháp xây dựng hệ trích chọn thông tin

2. CHƯƠNG 2: CÁC KIẾN THỨC NỀN TẢNG VỀ HỌC THỐNG KÊ

2.1. Mô hình Markov ẩn (HMMs)

2.1.1. Tổng quan về HMMs

2.1.2. Thuật toán gán nhãn triagram HMMs

2.1.3. Một số hạn chế của HMMs

2.2. Conditional Random Field trong bài toán trích chọn thông tin

2.2.1. Từ HMMs đến CRFs

2.2.2. Định nghĩa CRF

2.2.3. Thuật toán gán nhãn cho dữ liệu dạng chuỗi

2.3. Thuật toán GIS

2.4. Thuật toán IIS

2.5. Các phương pháp tối ưu số

2.5.1. Kĩ thuật tối ưu số bậc một

2.5.2. Kĩ thuật tối ưu số bậc hai

2.6. CRF có thể giải quyết được các vấn đề label bias

2.7. Perceptron trong bài toán trích chọn thông tin

2.7.1. Thuật toán perceptron

2.7.2. Vectơ đặc trưng cục bộ và toàn cục

2.7.3. Thuật toán perceptron cho bài toán gán nhãn dữ liệu dạng chuỗi

2.7.4. Biến thể của thuật toán perceptron trong bài toán gán nhãn dữ liệu dạng chuỗi

2.7.5. Chứng minh tính hội tụ của thuật toán perceptron

3. CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT

3.1. Môi trường thực nghiệm

3.2. Dữ liệu thực nghiệm

3.3. Hệ thống trích chọn tên riêng cho tiếng Việt

3.4. Các tham số huấn luyện và đánh giá thực nghiệm

3.5. Lựa chọn các thuộc tính

3.5.1. File huấn luyện

3.6. Kết quả thực nghiệm

3.6.1. Kết quả của 10 lần thử nghiệm

3.6.2. Lần thực nghiệm cho kết quả tốt nhất

3.6.3. Trung bình 10 lần thực nghiệm

Tài liệu tham khảo

Tóm tắt

I. Tổng quan về hệ thống trích chọn tên riêng trong tiếng Việt

Hệ thống trích chọn tên riêng cho văn bản tiếng Việt là một lĩnh vực nghiên cứu quan trọng trong xử lý ngôn ngữ tự nhiên. Việc trích chọn tên riêng không chỉ giúp cải thiện khả năng tìm kiếm thông tin mà còn hỗ trợ trong nhiều ứng dụng như dịch tự động và phân tích ngữ nghĩa. Hệ thống này sử dụng các phương pháp học thống kê để xác định và phân loại các tên riêng trong văn bản, từ đó tạo ra các dữ liệu có giá trị cho người dùng.

1.1. Tính cần thiết của việc trích chọn tên riêng

Việc trích chọn tên riêng là cần thiết trong bối cảnh dữ liệu văn bản ngày càng gia tăng. Các tên riêng thường chứa thông tin quan trọng, giúp người dùng dễ dàng tìm kiếm và phân tích dữ liệu. Hệ thống trích chọn tên riêng giúp tự động hóa quá trình này, tiết kiệm thời gian và công sức cho người dùng.

1.2. Các ứng dụng của hệ thống trích chọn tên riêng

Hệ thống trích chọn tên riêng có nhiều ứng dụng thực tiễn, từ việc cải thiện chất lượng dịch tự động đến việc hỗ trợ trong các hệ thống tìm kiếm thông tin. Ngoài ra, nó còn được sử dụng trong các lĩnh vực như y học, tài chính và quản lý dữ liệu.

II. Thách thức trong việc xây dựng hệ thống trích chọn tên riêng

Mặc dù có nhiều lợi ích, việc xây dựng hệ thống trích chọn tên riêng cũng gặp phải nhiều thách thức. Các vấn đề như độ chính xác, khả năng mở rộng và tính linh hoạt của hệ thống là những yếu tố cần được xem xét kỹ lưỡng.

2.1. Độ chính xác trong việc nhận diện tên riêng

Độ chính xác là một trong những thách thức lớn nhất trong việc trích chọn tên riêng. Các tên riêng có thể có nhiều dạng viết khác nhau và có thể bị nhầm lẫn với các từ khác trong văn bản. Do đó, cần có các phương pháp hiệu quả để cải thiện độ chính xác của hệ thống.

2.2. Khả năng mở rộng của hệ thống

Khả năng mở rộng của hệ thống trích chọn tên riêng là một yếu tố quan trọng. Hệ thống cần có khả năng xử lý một lượng lớn dữ liệu và thích ứng với các ngữ cảnh khác nhau. Việc này đòi hỏi các thuật toán và mô hình học máy phải được tối ưu hóa.

III. Phương pháp học thống kê trong trích chọn tên riêng

Phương pháp học thống kê đã được chứng minh là hiệu quả trong việc xây dựng hệ thống trích chọn tên riêng. Các mô hình như Conditional Random Fields (CRF) và Perceptron được sử dụng để cải thiện khả năng nhận diện tên riêng trong văn bản.

3.1. Mô hình Conditional Random Fields CRF

CRF là một mô hình học máy mạnh mẽ, cho phép xử lý dữ liệu có tính chất chuỗi. Mô hình này giúp cải thiện độ chính xác trong việc nhận diện tên riêng bằng cách xem xét ngữ cảnh xung quanh của các từ trong văn bản.

3.2. Thuật toán Perceptron trong trích chọn tên riêng

Thuật toán Perceptron là một phương pháp học máy đơn giản nhưng hiệu quả. Nó giúp xây dựng các mô hình nhận diện tên riêng dựa trên các đặc trưng của văn bản, từ đó cải thiện khả năng phân loại và nhận diện.

IV. Kết quả thực nghiệm và ứng dụng của hệ thống

Kết quả thực nghiệm cho thấy hệ thống trích chọn tên riêng hoạt động hiệu quả trong nhiều ngữ cảnh khác nhau. Các thử nghiệm đã chỉ ra rằng hệ thống có thể đạt được độ chính xác cao trong việc nhận diện tên riêng trong văn bản tiếng Việt.

4.1. Kết quả thực nghiệm trên dữ liệu tiếng Việt

Các thử nghiệm trên dữ liệu văn bản tiếng Việt cho thấy hệ thống trích chọn tên riêng đạt được độ chính xác cao. Điều này chứng tỏ rằng các phương pháp học thống kê có thể áp dụng hiệu quả trong ngữ cảnh tiếng Việt.

4.2. Ứng dụng thực tiễn của hệ thống

Hệ thống trích chọn tên riêng có thể được ứng dụng trong nhiều lĩnh vực như dịch tự động, phân tích dữ liệu và tìm kiếm thông tin. Việc áp dụng hệ thống này giúp nâng cao hiệu quả công việc và tiết kiệm thời gian cho người dùng.

V. Kết luận và triển vọng tương lai của hệ thống

Hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê đã cho thấy nhiều tiềm năng. Trong tương lai, cần tiếp tục nghiên cứu và phát triển để cải thiện độ chính xác và khả năng mở rộng của hệ thống.

5.1. Hướng phát triển trong nghiên cứu

Nghiên cứu trong lĩnh vực trích chọn tên riêng cần tiếp tục mở rộng để khám phá các phương pháp mới và cải thiện các mô hình hiện tại. Việc này sẽ giúp nâng cao hiệu quả của hệ thống trong việc xử lý dữ liệu lớn.

5.2. Tương lai của hệ thống trích chọn tên riêng

Tương lai của hệ thống trích chọn tên riêng hứa hẹn sẽ có nhiều cải tiến với sự phát triển của công nghệ AI và học máy. Các hệ thống sẽ ngày càng trở nên thông minh hơn, giúp người dùng dễ dàng hơn trong việc tìm kiếm và phân tích thông tin.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng việt bằng phương pháp học thống kê luận văn ths công nghệ thông tin 1 01 10

Tải đầy đủ

Trích đoạn nội dung tài liệu

Chương I TỔNG QUAN Phần này sẽ trình bày tổng quan về bài toán trích chọn thông tin, bao gồm sự cần thiết của trích chọn thông tin, kiến trúc xây dựng và các bước cơ bản của một hệ trích chọn thông tin, cuối cùng là một vài bài toán ứng dụng phổ biến trong trích chọn thông tin.1 Lược sử về trích chọn thông tin I.1 Tính cần thiết của trích chọn thông tin Hiện nay dữ liệu văn bản ở dạng điện tử có nhiều hơn bao giờ hết, nhưng rất nhiều trong số đó chưa được sử dụng. Không ai có thể đọc, hiểu và tổng hợp hàng terabyte văn bản hàng ngày. Các nhà nghiên cứu mong muốn đưa ra các cách khám phá, quản lý thông tin này. Các phương pháp phổ biến nhất là phương pháp thu thông tin (IR) và phương pháp lọc thông tin [4].

Một phương pháp mới phát triển có liên quan đó là phương pháp trích chọn thông tin (IE), đây chính là phương pháp được đề cập đến trong luận văn. Có thể xem hệ IE như hệ kết hợp mang lại thông tin hữu ích từ những trường lớn của thông tin thô. Với một lượng lớn thông tin hữu ích tiềm tàng, hệ IE có thể chuyển thông tin thô, tiến hành lọc và làm giảm nhỏ văn bản gốc. Ví dụ như các nhà phân tích tài chính đầu tư sản xuất các thiết bị bán dẫn thì họ cần phải biết một số điều sau:  Loại hoá chất nào lựa chọn để làm các lớp cách điện  Độ dày của các lớp này  Nhiệt độ mà tại đó các lớp này được hình thành.

 Ai sử dụng quy trình này Những thông tin này thông thường có sẵn trên các báo hoặc các tạp chí và hệ IE có thể thu thập những bài báo có các đoạn liên quan. IE bắt đầu với những đoạn văn bản, sau đó chuyển chúng về dạng thông tin sẵn sàng cho việc phân loại LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 9 và phân tích. Nó tách các phân đoạn văn bản liên quan, sau đó gắn những thông tin này thành một dạng chặt chẽ. Ví dụ, một bài báo bàn về khí hoá học, nhiệt độ, các công đoạn và các đặc tả vật liệu nhưng chỉ một hoặc hai thành phần có thể làm người phân tích quan tâm.

Mục tiêu của việc nghiên cứu là xây dựng hệ thống tìm kiếm và liên kết các thông tin liên quan trong khi đó bỏ qua các dữ liệu ngoài hay không liên quan. IE có nhiều ứng dụng tiềm năng. Ví dụ như những thông tin không cấu trúc có thể được chuyển đổi đưa vào các hệ cơ sở dữ liệu truyền thống và người sử dụng có thể lấy bằng các truy vấn chuẩn. Giả sử ta muốn ghi lại lợi nhuận của các công ty lâm nghiệp ở Mỹ để so sánh chúng với các công ty của châu Âu.

Các thông tin liên quan bao gồm: tên công ty, công ty thuộc nước nào, có thuộc lĩnh vực lâm nghiệp hay không, tổng lợi nhuận và lợi nhuận hiện thời của công ty. Một hệ IE lưu lại tất cả các thông tin liên quan đến lĩnh vực này, cập nhật cơ sở dữ liệu từ tất cả các nguồn có sẵn. Vì thế nó có thể phát hiện được các xu hướng ngay khi có thông báo mới. Về mặt lý thuyết, các hệ IE có thể xử lý các sự kiện mới, bao gồm các cuộc họp của những nhân vật quan trọng, thông tin về các công ty mới, các thông báo về sản phẩm mới.

Tuy nhiên, các hệ thống IE hiện nay chỉ có thế xử lý trên một số dạng văn bản nhất định với độ chính xác nào đó.2 IE với ngôn ngữ tự nhiên Trên quan điểm của xử lý ngôn ngữ tự nhiên (NLP), IE hấp dẫn bởi nhiều lý do, trong đó có:  Công việc trích chọn được định nghĩa tốt  IE sử dụng văn bản ngôn ngữ thực  IE giải quyết các vấn đề khó và thú vị của NLP  Hiệu năng của IE có thể so sánh với hiệu năng của con người trên cùng một công việc Trên thực tế, các hệ IE được đánh giá và so sánh với các lợi ích tiêu chuẩn của con người là cơ hội tốt cho các nhà nghiên cứu NLP. Chính phủ hỗ trợ tài chính LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 cho việc tổ chức semina MUCs hàng năm và cho ARPA‟s Tipster Text Program. Ở đó các nhóm nghiên cứu và các tổ chức của chính phủ tìm cách nâng cao các công nghệ IR và IE với hy vọng là sẽ có những ứng dụng thực tiễn trong thời gian ngắn. Cùng với những quan tâm tích cực về IE, một câu hỏi lớn đối với tất cả các thành viên của cộng đồng NLP đó là liệu IE đủ hấp dẫn đối với các nguồn lực và các tài năng để hướng tới việc phát triển phần mềm ứng dụng thực tiễn từ con số không đến những nghiên cứu NLP dài hạn.

Nhằm chỉ ra vấn đề này, đã có một cuộc khảo sát với những người tham dự MUC-4 năm 1992. Những trích dẫn được lựa chọn từ cuộc khảo sát đó đã được công khai lần đầu tiên. Với cùng suy nghĩ, việc duy trì những hệ IE là yếu tố quan trọng trong việc khuyến khích những nhà nghiên cứu NLP để đi từ những hệ thống quy mô nhỏ và dữ liệu nhân tạo cho đến hệ thống lớn xử lý trên ngôn ngữ tự nhiên của con người. Một vấn đề vẫn tồn tại trong các trường phái nghiên cứu khác nhau đó là sự khác biệt giữa trích chọn văn bản và trích chọn tri thức.

Trích chọn tri thức cũng phải đối mặt với rất nhiều vấn đề như các hệ IE. Nhưng các hệ trích chọn tri thức cố gắng làm giảm cơ sở luật hoặc mô hình miền trên cơ sở của kỹ thuật văn bản. Những việc này còn bao gồm cả một thành phần học máy được đưa vào thành phần NLP. Cơ sở tri thức cần trích chọn thường được thiết kế theo hướng hệ chuyên gia hoặc hệ suy diễn tình huống.

Hiểu một cách thông thường thì hướng này có tham vọng hơn so hệ IE đã nêu trong phần này.3 Một số hệ IE trong thời kỳ đầu Các hệ IE đã sớm được phát triển từ khoảng những năm 1970. Sau đây là một vài ứng dụng trong thời kỳ đầu của các hệ IE:  Một trong những hệ IE đầu tiên được Gerald deJong xây dựng. Hệ này xử lý trên những văn bản không giới hạn chủ đề. Với dữ liệu nguồn là các bức điện tín, chương trình của deJong gọi là FRUMP, xử lý các điện tín này bằng cách sử dụng các kịch bản đơn giản được thiết kế nhằm xử lý nội dung của bản tin.

Với mỗi bản tin, FRUMP tìm một kịch bản liên quan dựa trên các từ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 khoá và phân tích khái niệm câu. FRUMP là một hệ hướng ngữ nghĩa sử dụng các kỳ vọng miền cụ thể cho các mô tả sự kiện dựa trên tri thức kịch bản.  Một dự án có từ trước năm 1970 trích chọn những thông tin có ích từ văn bản. Dự án có tên là Linguistic String Project, giám đốc dự án là Naomi Sager tại đại học New York được American Medical Association tài trợ.

Công việc là tìm cách chuyển các thông tin bệnh nhân (ở dạng tiếng Anh) về một định dạng phù hợp và sử dụng như đầu vào của hệ quản trị cơ sở dữ liệu truyền thống có tên Conference on Data Systems Languages (CODASYL).  Năm 1980, DaSilva và Dwiggins trích chọn các thông tin bay của vệ tinh từ các báo cáo sinh ra bởi hệ thống giám sát toàn cầu. Nhưng hệ này có hạn chế với các câu riêng lẻ và thiếu một phương thức về việc trích các miêu tả sự kiện hoàn chỉnh.  Zarri bắt đầu làm việc với các hệ IE từ đầu những năm 1980.

Văn bản được sử dụng mô tả các hoạt động minh hoạ khác nhau về lịch sử Pháp. Hệ này tìm kiếm và trích chọn các thông tin về các mối quan hệ và các cuộc gặp gỡ giữa các nhân vật lịch sử. Những điểm khác nhau chính của những hệ thống phát triển trong những năm 1980 và 1990 là độ lớn về mặt thời gian và công sức để thu thập các tài liệu liên quan. Từ đó tạo ra những tập các mẫu biểu (hay các khoá) để lập nên các tập thử nghiệm bao gồm các văn bản và các đáp số đúng đi kèm.

Ví dụ, việc phát triển một văn bản và khóa đi kèm của nó bằng phân tích con người cho miền vi điện tử Tipster rất tốn kém và phức tạp. Những tài nguyên bao gồm văn bản và các khóa đi kèm đã tạo ra hệ IE đặc biệt đáng để chú ý so với các hệ hướng tác vụ xử lý ngôn ngữ tự nhiên. Các mẫu biểu này có thể được sử dụng để đánh giá hiệu năng của các hệ thống IE, song song cùng với việc quan trọng là phát triển những hệ thống này. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.2 Xây dựng các hệ trích chọn thông tin I.1 Phương pháp xây dựng hệ trích chọn thông tin Có hai phương pháp cơ bản để thiết kế các hệ IE là: Phương pháp máy tri thức (Knowledge Enginering)và Phương pháp học tự động.

Phương pháp máy tri thức được đặc trưng bởi sự phát triển của văn phạm được sử dụng bởi một thành tố của hệ IE nhờ một "kĩ sư tri thức", tức là một người biết rõ về hệ IE. Với hình thức thể hiện các luật cho hệ thống đó, và sau đó, hoặc tự mình, hoặc có tham khảo tới một chuyên gia trong lĩnh vực ứng dụng để viết các luật cho thành phần hệ IE đánh dấu hay trích chọn thông tin khan hiếm. Thường thì kĩ sư tri thức sẽ truy cập tới tập mẫu có kích thước trung bình về các văn bản miền liên quan (một tập mẫu có kích thước trung bình bao gồm tất cả những gì mà một người thông thường có thể kiểm chứng được), và trực giác của anh ta/cô ta. Kĩ năng của kĩ sư tri thức đóng vai trò quan trọng, nó ảnh hưởng trực tiếp đến hiệu năng của toàn bộ hệ thống.

Ngoài việc đòi hỏi kĩ năng và tri thức chi tiết về một hệ IE cụ thể, phương pháp máy tri thức thường cũng đòi hỏi phải mất nhiều công sức. Để xây dựng một hệ thống hiệu suất cao thường phải thực hiện quá trình lặp trong đó tập luật được biết trước. Hệ thống thực hiện việc chạy trên một tập mẫu học các văn bản, và kết quả đầu ra được kiểm tra để thấy được các luật được phát sinh dưới mức hoặc quá mức ở đâu. Kĩ sư tri thức khi đó sẽ thực hiện các thay đổi/chỉnh sửa luật thích hợp, và lặp lại quá trình này.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Xử lý ngôn ngữ tự nhiên tiếng Việt

mô hình học máy thống kê

trích chọn thông tin văn bản

nhận dạng thực thể có tên

Luận văn thạc sĩ vnu uet xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng việt bằng phương pháp học thống kê luận văn ths công nghệ thông tin 1 01 10

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN

1.1. Lược sử về trích chọn thông tin

1.2. IE với ngôn ngữ tự nhiên

1.3. Một số hệ IE trong thời kỳ đầu

1.4. Xây dựng các hệ trích chọn thông tin

1.4.1. Phương pháp xây dựng hệ trích chọn thông tin

2. CHƯƠNG 2: CÁC KIẾN THỨC NỀN TẢNG VỀ HỌC THỐNG KÊ

2.1. Mô hình Markov ẩn (HMMs)

2.1.1. Tổng quan về HMMs

2.1.2. Thuật toán gán nhãn triagram HMMs

2.1.3. Một số hạn chế của HMMs

2.2. Conditional Random Field trong bài toán trích chọn thông tin

2.2.1. Từ HMMs đến CRFs

2.2.2. Định nghĩa CRF

2.2.3. Thuật toán gán nhãn cho dữ liệu dạng chuỗi

2.3. Thuật toán GIS

2.4. Thuật toán IIS

2.5. Các phương pháp tối ưu số

2.5.1. Kĩ thuật tối ưu số bậc một

2.5.2. Kĩ thuật tối ưu số bậc hai

2.6. CRF có thể giải quyết được các vấn đề label bias

2.7. Perceptron trong bài toán trích chọn thông tin

2.7.1. Thuật toán perceptron

2.7.2. Vectơ đặc trưng cục bộ và toàn cục

2.7.3. Thuật toán perceptron cho bài toán gán nhãn dữ liệu dạng chuỗi

2.7.4. Biến thể của thuật toán perceptron trong bài toán gán nhãn dữ liệu dạng chuỗi

2.7.5. Chứng minh tính hội tụ của thuật toán perceptron

3. CHƯƠNG 3: XÂY DỰNG HỆ THỐNG TRÍCH CHỌN TÊN RIÊNG CHO VĂN BẢN TIẾNG VIỆT

3.1. Môi trường thực nghiệm

3.2. Dữ liệu thực nghiệm

3.3. Hệ thống trích chọn tên riêng cho tiếng Việt

3.4. Các tham số huấn luyện và đánh giá thực nghiệm

3.5. Lựa chọn các thuộc tính

3.5.1. File huấn luyện

3.6. Kết quả thực nghiệm

3.6.1. Kết quả của 10 lần thử nghiệm

3.6.2. Lần thực nghiệm cho kết quả tốt nhất

3.6.3. Trung bình 10 lần thực nghiệm

Tài liệu tham khảo

I. Tổng quan về hệ thống trích chọn tên riêng trong tiếng Việt

1.1. Tính cần thiết của việc trích chọn tên riêng

1.2. Các ứng dụng của hệ thống trích chọn tên riêng

II. Thách thức trong việc xây dựng hệ thống trích chọn tên riêng

2.1. Độ chính xác trong việc nhận diện tên riêng

2.2. Khả năng mở rộng của hệ thống

III. Phương pháp học thống kê trong trích chọn tên riêng

3.1. Mô hình Conditional Random Fields CRF

3.2. Thuật toán Perceptron trong trích chọn tên riêng

IV. Kết quả thực nghiệm và ứng dụng của hệ thống

4.1. Kết quả thực nghiệm trên dữ liệu tiếng Việt

4.2. Ứng dụng thực tiễn của hệ thống

V. Kết luận và triển vọng tương lai của hệ thống

5.1. Hướng phát triển trong nghiên cứu

5.2. Tương lai của hệ thống trích chọn tên riêng

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Tác giả: Nguyễn Thị Quyên

Người hướng dẫn: TS. Nguyễn Lê Minh

Trường học: Trường Đại Học Công Nghệ - Đại Học Quốc Gia Hà Nội

Chuyên ngành: Công nghệ thông tin

Đề tài: Xây dựng hệ thống trích chọn tên riêng cho văn bản tiếng Việt bằng phương pháp học thống kê

Loại tài liệu: Luận văn thạc sĩ

Năm xuất bản: 2007

Địa điểm: Hà Nội

Có thể bạn quan tâm