Luận Văn Thạc Sĩ: Chuẩn Hóa và Xác Định Mối Quan Hệ Giữa Các Cụm Từ Tìm Kiếm Thông Tin

Luận văn thạc sĩ nghiên cứu vnu uet chuẩn hóa và xác định mối quan hệ giữa các cụm từ tìm và lấy thông tin liên quan đến cụm từ, khảo sát thực trạng, phân tích nguyên nhân, đề

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2009

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

1. CHƯƠNG 1: TỔNG QUAN

1.1. Đặt vấn đề

1.2. Tình hình nghiên cứu trong và ngoài nước

1.3. Mục đích, yêu cầu của luận văn

1.4. Ý nghĩa, lợi ích của luận văn

1.5. Nội dung nghiên cứu

1.6. Một số công cụ tìm kiếm

1.6.1. Google (http://www.com)

1.6.2. Ask (http://www.com/)

1.6.3. Exalead (http://www.com/search)

1.6.4. Google Scholar (http://scholar.com/)

1.6.5. Scirus

1.6.6. Xalo

1.6.7. Timnhanh

1.6.8. Vatgia

1.6.9. Baamboo

1.7. Kết luận chương

2. CHƯƠNG 2: CƠ SỞ LÝ THUYẾT

2.1. .NET Framework

2.2. Mô hình kiến trúc .Net FrameWork

2.3. Lớp WebRequest và WebResponse

3. CHƯƠNG 3: CÀI ĐẶT THUẬT TOÁN

4. CHƯƠNG 4: KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng Quan Về Chuẩn Hóa và Xác Định Mối Quan Hệ Giữa Các Cụm Từ Tìm Kiếm Thông Tin

Trong thời đại số hóa hiện nay, việc chuẩn hóa và xác định mối quan hệ giữa các cụm từ tìm kiếm thông tin trở nên cực kỳ quan trọng. Các cụm từ này không chỉ giúp người dùng tìm kiếm thông tin một cách hiệu quả mà còn hỗ trợ trong việc phân tích ngữ nghĩa và tổ chức dữ liệu. Việc hiểu rõ mối quan hệ giữa các cụm từ sẽ giúp tối ưu hóa quá trình tìm kiếm và nâng cao chất lượng thông tin.

1.1. Khái Niệm Về Chuẩn Hóa Dữ Liệu Trong Tìm Kiếm

Chuẩn hóa dữ liệu là quá trình biến đổi dữ liệu thành định dạng nhất quán. Điều này giúp cải thiện khả năng tìm kiếm và phân tích thông tin. Việc chuẩn hóa các cụm từ tìm kiếm giúp giảm thiểu sự nhầm lẫn và tăng cường độ chính xác trong kết quả tìm kiếm.

1.2. Tầm Quan Trọng Của Việc Xác Định Mối Quan Hệ Giữa Các Cụm Từ

Xác định mối quan hệ giữa các cụm từ tìm kiếm giúp người dùng hiểu rõ hơn về ngữ cảnh và ý nghĩa của thông tin. Điều này không chỉ hỗ trợ trong việc tìm kiếm mà còn giúp trong việc phân tích ngữ nghĩa và tổ chức thông tin một cách hiệu quả.

II. Vấn Đề và Thách Thức Trong Chuẩn Hóa Dữ Liệu Tìm Kiếm

Mặc dù việc chuẩn hóa dữ liệu tìm kiếm mang lại nhiều lợi ích, nhưng cũng tồn tại nhiều thách thức. Các vấn đề như dữ liệu phi cấu trúc, sự đa dạng của ngôn ngữ và cách diễn đạt khác nhau có thể gây khó khăn trong việc chuẩn hóa và xác định mối quan hệ giữa các cụm từ.

2.1. Khó Khăn Trong Việc Xử Lý Dữ Liệu Phi Cấu Trúc

Dữ liệu phi cấu trúc như văn bản, hình ảnh, và video thường không có định dạng rõ ràng, gây khó khăn trong việc chuẩn hóa và phân tích. Việc tìm kiếm thông tin từ các nguồn này đòi hỏi các phương pháp và công nghệ tiên tiến.

2.2. Đa Dạng Ngôn Ngữ và Cách Diễn Đạt

Sự đa dạng trong ngôn ngữ và cách diễn đạt của người dùng có thể dẫn đến việc khó khăn trong việc xác định mối quan hệ giữa các cụm từ. Các thuật toán tìm kiếm cần phải được tối ưu hóa để xử lý các biến thể ngôn ngữ khác nhau.

III. Phương Pháp Chuẩn Hóa Dữ Liệu Tìm Kiếm Hiệu Quả

Để giải quyết các vấn đề trong việc chuẩn hóa dữ liệu, nhiều phương pháp đã được phát triển. Các phương pháp này không chỉ giúp cải thiện độ chính xác của kết quả tìm kiếm mà còn tối ưu hóa quy trình phân tích dữ liệu.

3.1. Sử Dụng Mô Hình Hóa Dữ Liệu

Mô hình hóa dữ liệu giúp tổ chức và chuẩn hóa thông tin một cách có hệ thống. Việc áp dụng các mô hình này vào quá trình tìm kiếm giúp cải thiện khả năng truy xuất và phân tích dữ liệu.

3.2. Ứng Dụng Trí Tuệ Nhân Tạo Trong Tìm Kiếm

Trí tuệ nhân tạo có thể được sử dụng để phân tích và xác định mối quan hệ giữa các cụm từ tìm kiếm. Các thuật toán học máy giúp cải thiện độ chính xác và hiệu quả của quá trình tìm kiếm thông tin.

IV. Ứng Dụng Thực Tiễn Của Chuẩn Hóa Dữ Liệu Trong Tìm Kiếm

Việc chuẩn hóa và xác định mối quan hệ giữa các cụm từ tìm kiếm không chỉ có ý nghĩa lý thuyết mà còn có nhiều ứng dụng thực tiễn. Các ứng dụng này giúp cải thiện trải nghiệm người dùng và nâng cao hiệu quả tìm kiếm.

4.1. Tối Ưu Hóa Công Cụ Tìm Kiếm

Các công cụ tìm kiếm có thể được tối ưu hóa thông qua việc áp dụng các phương pháp chuẩn hóa dữ liệu. Điều này giúp cải thiện độ chính xác và tốc độ tìm kiếm thông tin.

4.2. Hỗ Trợ Ra Quyết Định Trong Kinh Doanh

Việc chuẩn hóa dữ liệu giúp các doanh nghiệp tổng hợp thông tin nhanh chóng và chính xác, từ đó hỗ trợ ra quyết định kịp thời và hiệu quả hơn.

V. Kết Luận và Hướng Phát Triển Tương Lai

Chuẩn hóa và xác định mối quan hệ giữa các cụm từ tìm kiếm thông tin là một lĩnh vực quan trọng trong nghiên cứu và ứng dụng công nghệ thông tin. Hướng phát triển tương lai cần tập trung vào việc cải thiện các phương pháp và công nghệ hiện có để đáp ứng nhu cầu ngày càng cao của người dùng.

5.1. Nhu Cầu Nghiên Cứu Thêm

Cần tiếp tục nghiên cứu và phát triển các phương pháp mới để cải thiện khả năng chuẩn hóa và xác định mối quan hệ giữa các cụm từ tìm kiếm.

5.2. Tích Hợp Công Nghệ Mới

Việc tích hợp các công nghệ mới như trí tuệ nhân tạo và học máy vào quá trình tìm kiếm sẽ giúp nâng cao hiệu quả và độ chính xác của các hệ thống tìm kiếm thông tin.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet chuẩn hóa và xác định mối quan hệ giữa các cụm từ tìm và lấy thông tin liên quan đến cụm từ

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh cuộc cách mạng khoa học – công nghệ phát triển mạnh mẽ, ngành Công nghệ Thông tin (CNTT) trở thành một trong những ngành mũi nhọn, đóng vai trò then chốt trong việc thúc đẩy nền kinh tế tri thức toàn cầu. Theo ước tính, lượng thông tin trên Internet ngày càng tăng với tốc độ chóng mặt, đặc biệt là các dữ liệu phi cấu trúc như văn bản, hình ảnh, âm thanh, video, tồn tại rải rác trên nhiều website khác nhau. Việc khai thác hiệu quả kho dữ liệu khổng lồ này là thách thức lớn đối với các tổ chức, doanh nghiệp và cá nhân nhằm phục vụ cho công tác quản lý, ra quyết định và nghiên cứu.

Luận văn tập trung vào bài toán chuẩn hóa và xác định mối quan hệ giữa các cụm từ, từ đó tìm và lấy thông tin liên quan đến các cụm từ trên Internet để xây dựng báo cáo phi cấu trúc động. Mục tiêu cụ thể là phát triển thuật toán tìm kiếm tự động, thuật toán xác định lớp “mode” của các cụm từ dựa trên tần số tích lũy, đồng thời xây dựng phần mềm hỗ trợ tổng hợp thông tin nhanh chóng, chính xác phục vụ cho việc ra quyết định đầu tư kinh doanh. Phạm vi nghiên cứu tập trung vào dữ liệu thu thập từ các website tiếng Việt trong khoảng thời gian gần đây, với trọng tâm là các chủ đề như thị trường chứng khoán, giá vàng, bất động sản.

Ý nghĩa của nghiên cứu thể hiện qua việc cung cấp giải pháp tìm kiếm và tổng hợp thông tin tự động, giúp người dùng tiết kiệm thời gian, nâng cao hiệu quả khai thác thông tin trên Internet, đồng thời hỗ trợ ra quyết định kịp thời và chính xác trong các lĩnh vực kinh tế - xã hội.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai nền tảng lý thuyết chính:

Thống kê tần số tích lũy và khái niệm “mode” trong thống kê: Mode được định nghĩa là giá trị xuất hiện nhiều nhất trong một tập dữ liệu. Ứng dụng trong nghiên cứu là xác định các cụm từ có tần suất xuất hiện cao nhất trong các bài viết liên quan đến chủ đề, từ đó thu hẹp không gian tìm kiếm và nâng cao độ chính xác của kết quả.
Biểu thức chính quy (Regular Expression - Regex): Là công cụ mạnh mẽ để so khớp và trích xuất các cụm từ trong văn bản phi cấu trúc. Luận văn sử dụng các lớp thư viện Regex trong .NET Framework để thực hiện việc tìm kiếm, phân tích và trích xuất thông tin từ các đoạn văn bản thu thập được.

Các khái niệm chuyên ngành quan trọng bao gồm: cụm từ tìm kiếm, lớp mode, báo cáo phi cấu trúc, cơ sở dữ liệu quan hệ, thuật toán tìm kiếm tự động, tần số tích lũy, biểu thức chính quy.

Phương pháp nghiên cứu

Nguồn dữ liệu chính là các bài viết, văn bản được thu thập từ các website tiếng Việt thông qua các công cụ tìm kiếm phổ biến như Google, Exalead, Google Scholar, và các công cụ tìm kiếm trong nước như Xalo, Baamboo. Dữ liệu được lưu trữ trong hệ quản trị cơ sở dữ liệu SQL Server 2005 với các bảng chính: ChuDe (chủ đề), CumTu (cụm từ), TimKiem (cụm từ thuộc lớp mode), TongHop (văn bản tổng hợp), NguoiDung (người dùng), ThamSo (tham số hệ thống).

Phương pháp phân tích bao gồm:

Thu thập và thống kê tần số xuất hiện của các cụm từ liên quan đến chủ đề.
Xác định lớp mode dựa trên tần số tích lũy, lấy các cụm từ nằm trong phần tư thứ hai và thứ ba của phân phối tần số.
Sử dụng biểu thức chính quy để trích xuất các đoạn văn bản chứa cụm từ từ các bài viết.
Loại bỏ các bài viết trùng lặp dựa trên tiêu đề, tác giả và ngày phát hành.
Tổng hợp dữ liệu thành báo cáo phi cấu trúc và lưu trữ trong cơ sở dữ liệu để phục vụ báo cáo có cấu trúc.

Quy trình nghiên cứu được thực hiện trong khoảng thời gian từ năm 2008 đến 2009 tại Đại học Quốc gia Hà Nội, Trường Đại học Công nghệ.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Tần số xuất hiện của cụm từ ảnh hưởng đến chất lượng tìm kiếm: Ví dụ, cụm từ “Chứng khoán” có khoảng 3 triệu bài viết liên quan, dẫn đến không gian tìm kiếm rộng và nội dung báo cáo tản mạn. Trong khi đó, cụm từ “Thị trường chứng khoán Việt Nam năm 2009” có khoảng 326 nghìn bài viết, giúp thu hẹp không gian tìm kiếm và nâng cao độ chính xác của báo cáo. Cụm từ không liên quan như “Chứng gà” có khoảng 9 nghìn bài viết nhưng không phù hợp với chủ đề.
Lớp mode giúp thu hẹp không gian tìm kiếm hiệu quả: Bằng cách tính tần số tích lũy và xác định phần tư thứ hai và thứ ba, các cụm từ như “Bảng giá chứng khoán”, “Thị trường chứng khoán HN”, “Mã chứng khoán tăng mạnh” được xác định là thuộc lớp mode, có độ khả tín cao trong việc tìm kiếm thông tin liên quan.
Loại bỏ bài viết trùng lặp nâng cao hiệu quả trích xuất: Qua thực nghiệm với các cụm từ như “Chứng khoán tăng mạnh”, “Chứng khoán tăng mạnh trở lại”, “Chứng khoán tăng mạnh phiên đầu tuần”, các bài viết trùng lặp được phát hiện và loại bỏ, đảm bảo dữ liệu tổng hợp không bị lặp lại, tăng tính chính xác và tiết kiệm tài nguyên xử lý.
Ứng dụng .NET Framework và biểu thức chính quy trong trích xuất thông tin: Việc sử dụng các lớp WebRequest, WebResponse, HttpWebRequest, HttpWebResponse cùng với Regex trong .NET Framework giúp thực hiện hiệu quả việc gửi yêu cầu, lấy dữ liệu và trích xuất các cụm từ từ các bài viết trên Internet.

Thảo luận kết quả

Kết quả nghiên cứu cho thấy việc lựa chọn cụm từ tìm kiếm có ảnh hưởng trực tiếp đến chất lượng và hiệu quả của quá trình tổng hợp thông tin. Việc áp dụng khái niệm lớp mode từ thống kê giúp giảm đáng kể không gian tìm kiếm, từ đó giảm thời gian xử lý và nâng cao độ chính xác của báo cáo. So với các nghiên cứu trước đây chỉ tập trung vào tìm kiếm theo từ khóa đơn giản, luận văn đã phát triển thuật toán tìm kiếm dựa trên tần số tích lũy và lớp mode, tạo ra bước tiến mới trong lĩnh vực trích xuất thông tin phi cấu trúc.

Việc loại bỏ bài viết trùng lặp dựa trên tiêu chí tiêu đề, tác giả và ngày phát hành cũng là điểm cải tiến quan trọng, giúp dữ liệu tổng hợp trở nên sạch và có giá trị hơn. Phương pháp sử dụng biểu thức chính quy trong trích xuất cụm từ từ văn bản phi cấu trúc được đánh giá là phù hợp và hiệu quả, tận dụng được sức mạnh của .NET Framework.

Dữ liệu có thể được trình bày qua các biểu đồ tần số tích lũy cụm từ, bảng thống kê số lượng bài viết theo từng cụm từ, và sơ đồ quan hệ giữa các bảng trong cơ sở dữ liệu, giúp minh họa rõ ràng mối quan hệ giữa chủ đề, cụm từ và bài viết.

Đề xuất và khuyến nghị

Phát triển thêm thuật toán nâng cao để xử lý dữ liệu phi cấu trúc đa dạng hơn: Mở rộng thuật toán hiện tại để xử lý các loại dữ liệu phi cấu trúc khác như hình ảnh, video, âm thanh nhằm tăng tính toàn diện của hệ thống. Thời gian thực hiện: 1-2 năm. Chủ thể: Các nhóm nghiên cứu CNTT và doanh nghiệp công nghệ.
Tích hợp trí tuệ nhân tạo và học máy để cải thiện khả năng phân loại và tổng hợp thông tin: Áp dụng các mô hình học sâu để tự động nhận diện và phân loại nội dung, nâng cao độ chính xác và tốc độ xử lý. Thời gian thực hiện: 1 năm. Chủ thể: Các trung tâm nghiên cứu AI và công ty phần mềm.
Xây dựng giao diện người dùng thân thiện và đa nền tảng: Phát triển phần mềm với giao diện trực quan, hỗ trợ đa thiết bị (web, mobile) để người dùng dễ dàng truy cập và sử dụng. Thời gian thực hiện: 6-12 tháng. Chủ thể: Đơn vị phát triển phần mềm.
Tăng cường bảo mật và quản lý quyền truy cập dữ liệu: Áp dụng các biện pháp bảo mật nâng cao, phân quyền người dùng chặt chẽ để bảo vệ dữ liệu và đảm bảo tính riêng tư. Thời gian thực hiện: 6 tháng. Chủ thể: Bộ phận an ninh mạng và quản trị hệ thống.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, Hệ thống Thông tin: Luận văn cung cấp kiến thức chuyên sâu về thuật toán tìm kiếm, trích xuất thông tin và xử lý dữ liệu phi cấu trúc, hỗ trợ nghiên cứu và học tập.
Doanh nghiệp phát triển phần mềm và công cụ tìm kiếm: Các công ty có thể ứng dụng giải pháp và thuật toán trong việc xây dựng các công cụ tìm kiếm nâng cao, cải thiện hiệu quả khai thác dữ liệu Internet.
Cơ quan quản lý nhà nước và tổ chức nghiên cứu thị trường: Hỗ trợ tổng hợp thông tin nhanh chóng, chính xác phục vụ công tác quản lý, phân tích thị trường và ra quyết định chiến lược.
Chuyên gia phân tích dữ liệu và nhà đầu tư: Giúp tổng hợp thông tin thời sự, phân tích xu hướng thị trường dựa trên dữ liệu thu thập tự động, nâng cao hiệu quả đầu tư và ra quyết định.

Câu hỏi thường gặp

Thuật toán tìm lớp mode hoạt động như thế nào?
Thuật toán dựa trên thống kê tần số xuất hiện của các cụm từ trong bài viết, tính tần số tích lũy và chọn các cụm từ nằm trong phần tư thứ hai và thứ ba của phân phối tần số. Điều này giúp thu hẹp không gian tìm kiếm và tập trung vào các cụm từ có độ khả tín cao nhất.
Làm thế nào để loại bỏ bài viết trùng lặp trong quá trình trích xuất?
Bài viết trùng lặp được xác định dựa trên ba tiêu chí: tiêu đề, tác giả và ngày phát hành. Nếu cả ba thông tin này trùng nhau, bài viết sẽ bị loại bỏ để tránh trích xuất nhiều lần cùng một nội dung.
Tại sao lại sử dụng biểu thức chính quy trong trích xuất thông tin?
Biểu thức chính quy cho phép so khớp chính xác các mẫu cụm từ trong văn bản phi cấu trúc, giúp trích xuất nhanh và hiệu quả các đoạn văn bản chứa thông tin cần thiết, phù hợp với đặc thù dữ liệu trên Internet.
Phần mềm được xây dựng dựa trên nền tảng công nghệ nào?
Phần mềm được phát triển trên nền tảng .NET Framework, sử dụng các lớp WebRequest, WebResponse, HttpWebRequest, HttpWebResponse để giao tiếp với Internet và thư viện Regex để xử lý biểu thức chính quy.
Giải pháp này có thể áp dụng cho các lĩnh vực khác ngoài thị trường chứng khoán không?
Có, giải pháp có thể mở rộng áp dụng cho nhiều lĩnh vực khác như bất động sản, giá vàng, an toàn giao thông, dự báo thời tiết, nhờ khả năng tổng hợp và trích xuất thông tin từ các cụm từ liên quan đến chủ đề nghiên cứu.

Kết luận

Luận văn đã xây dựng thành công thuật toán tìm kiếm tự động và xác định lớp mode dựa trên tần số tích lũy cụm từ, giúp thu hẹp không gian tìm kiếm và nâng cao hiệu quả tổng hợp thông tin phi cấu trúc.
Phần mềm ứng dụng trên nền tảng .NET Framework kết hợp biểu thức chính quy đã được triển khai và thử nghiệm, cho kết quả khả quan trong việc trích xuất và tổng hợp dữ liệu từ Internet.
Việc loại bỏ bài viết trùng lặp dựa trên tiêu đề, tác giả và ngày phát hành giúp đảm bảo tính chính xác và sạch của dữ liệu tổng hợp.
Nghiên cứu mở ra hướng phát triển ứng dụng trí tuệ nhân tạo và học máy để nâng cao khả năng xử lý dữ liệu phi cấu trúc trong tương lai.
Khuyến nghị các đơn vị nghiên cứu và doanh nghiệp CNTT tiếp tục phát triển, hoàn thiện giải pháp nhằm phục vụ đa dạng hơn các lĩnh vực kinh tế - xã hội.

Áp dụng thuật toán và phần mềm vào các dự án thực tế, mở rộng phạm vi dữ liệu và tích hợp công nghệ AI để nâng cao hiệu quả khai thác thông tin. Đề nghị các nhà nghiên cứu và doanh nghiệp liên hệ để hợp tác phát triển và ứng dụng giải pháp.

Trích đoạn nội dung tài liệu

Chương 1 – TỔNG QUAN: chương này nêu tổng quan về đề tài bao gồm vấn đề đặt ra để giải quyết là gì, những gì trên thế giới đã làm, mình định làm gì, lợi ích của đề tài là gì và nội dung nghiên cứu là gì.  Chương 2 – CƠ SỞ LÝ THUYẾT: chương này trình bày các kiến thức cơ sở phục vụ cho đề tài, phân tích thiết kế, xây dựng tổ chức CSDL và các thuật toán của đề tài.  Chương 3 – CÀI ĐẶT ỨNG DỤNG: chương này trình bày các công nghệ sử dụng để cài đặt ứng dụng, kiến trúc ứng dụng, thiết kế chi tiết phần mềm ứng dụng và kết quả thực nghiệm.  Chương 4 – KẾT LUẬN: chương này nêu kết luận và những ý nghĩa đạt được cũng như những vấn đề còn tồn tại của luận văn, từ đó đưa ra hướng phát triển của đề tài trong tương lai.6 Một số công cụ tìm kiếm Để phục vụ cho việc tìm kiếm thông tin trên internet, có rất nhiều hãng phần mềm phát triển các công cụ tìm kiếm rất mạnh.

Ở đây tác giả luận văn xin giới thiệu một số công cụ tìm kiếm mạnh ở trên thế giới và Việt Nam.1 Google (http://www.com) Google là một công cụ tìm kiếm mạnh thông dụng nhất hiện nay, với google bạn có thể truy xuất tìm kiếm thông tin trên kho dữ liệu khổng lồ internet chỉ bằng một vài thao tác đơn giản. Để tìm kiếm bạn chỉ cần nhập vào cụm từ tìm kiếm rồi nhấn nút tìm kiếm, google sẽ trả về cho bạn danh sách kết quả các website phù hợp với cụm từ tìm kiếm. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.2 Ask ( http://www.com/ ) Với công cu ̣ Ask , khi tim ̀ thông tin kết quả tìm kiếm sẽ hiển thị cả những câu hỏi gợi ý khác có liên quan đến câu hỏi truy vấn trong phầ n Q &A, giúp người sử dụng nghiên cứu sâu hơn vấn đề của họ. Phần tìm kiếm ảnh có chức năng phân loại ảnh màu và ảnh đen trắng.3 Exalead (http://www.com/search) Exalead là công cụ tìm kiếm được sử dụng rất rộng rãi ở Châu Âu.

Công cu ̣ tìm kiếm này có giao diện tìm kiếm dễ sử dụng cho phép người dùng tìm thông một cách dễ dàng. Kết quả tìm kiếm phù hợp được Exalead trả về là danh sách các website và bao gồm cả các đánh giá thống kê về ngôn ngữ sử dụng và nguồn gốc của các bài báo từ nước nào bằng biểu đồ trực quan. Ví dụ: Với từ khóa tìm kiếm “thị trường chứng khoán việt nam” Thì kết quả trả về danh sách một số website hợp lệ và các thống kê từ Exalead như sau: 1.4 Google Scholar ( http://scholar.com/) Google Scholar là công cu ̣ tim ̀ kiế m chuyên sâu dành cho học giả, giúp người dùng tim ̀ kiế m các tài liê ̣u ho ̣c thuâ ̣t (luâ ̣n văn , luâ ̣n án , sách, các bài báo khoa ho ̣c ,…) về nhiề u lĩnh vực. Google Scholar có chức năng tim ̀ kiế m đơn giản và chức năng tìm kiếm nâng cao để tăng tính chính xá c và hiê ̣u quả cho LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 6 viê ̣c tim ̀ thông tin.

Ngoài ra người dùng còn có thể sử dụng chức năng “Scholar preferences” để lựa cho ̣n cách hiển thị kết quả tìm kiếm hay chức năng “Library Links- online and offline” để tìm hiể u xem mô ̣t thư v iê ̣n đa ̣i ho ̣c ba ̣n đang quan tâm có tài liê ̣u đó hay không .com/) Scirus là công cụ tìm kiếm web về thông tin khoa học. Scirus cho phép các nhà khoa học tìm kiếm không chỉ nội dung các bài báo , các trang web của các nhà khoa học , các phần mềm học tập ,… mà còn cả các thông tin riêng của các tổ chức khoa học.vn) Xalo là công cụ tìm kiếm được Công ty Tinh Vân phát triển. Phiên bản beta của công cụ này được Công ty Tinh Vân cho ra mắt vào cuối tháng 3 năm 2008. Hiện công cụ này có bốn dịch vụ tìm kiếm là Web, Tin tức, Blog và Diễn đàn.com) Timnhanh vừa là một trang thông tin tổng hợp, vừa là một công cụ tìm kiếm theo kiểu Yahoo và được chính Yahoo hỗ trợ.

Trang này còn cung cấp miễn phí các dịch vụ như e-mail, tạo blog, tra cứu từ điển.com) Vatgia là website tìm kiếm chú trọng đến lĩnh vực thương mại với đầy đủ các tính năng như tổng hợp, phân chia hàng hóa một cách khoa học. Cung cấp đầy đủ thông tin về các loại sản phẩm, dịch vụ, được trình bày một cách khoa học; giúp người tiêu dùng có thể tìm được những sản phẩm, dịch vụ một cách nhanh nhất.com) Công cụ tìm kiếm Baamboo thuộc Công ty cổ phần truyền thông Việt Nam. Baamboo giúp người dùng tìm kiếm nhạc mp3, video, lời bài hát.7 Kết luận chương Chương này trình bày tổng quan bài toán đưa ra để nghiên cứu giải quyết; mục đích, yêu cầu, nội dung nghiên cứu của luận văn; tình hình nghiên cứu trong, ngoài nước và một số công cụ tìm kiếm đã có. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 Chương 2 - CƠ SỞ LÝ THUYẾT 2.NET Framework Mục này trình bày các kiến thức cơ bản về .Net Framework, các lớp thư viện cơ sở trong .Net Framework được sử dụng để lập trình thực nghiệm cho luận văn; thực hiện thống kê các bài báo trên internet và thực hiện trích rút thông tin từ các bài báo đó.Net Framework là một nền tảng công nghệ phát triển phần mềm giúp các nhà phát triển phần mềm có thể xây dựng các ứng dụng nhanh và hiệu quả trên nhiều ngôn ngữ lập trình khác nhau như C#.1 Mô hình kiến trúc .Net FrameWork Hình 1.Net Framework bao gồm 3 tầng:  Tầng ứng dụng: gồm có ASP.NET và Windows Forms.NET cung cấp các thành phần thực hiện xây dựng các ứng dụng web (chạy trong mạng cục bộ hay trên mạng internet), các dịch vụ web.

- Windows Forms: cung cấp các thành phần thực hiện phát triển các ứng dụng chạy trên windows.  Tầng giữa: cung cấp các thư viện lập trình cơ sở bao gồm các gói thư viện phục vụ cho lập trình mạng (Net), các gói thư viện giao tiếp với database (ADO.NET), các gói thư viện cho bảo mật (Security), …  Tầng dưới cùng: quản lý việc biên dịch và chạy các ứng dụng. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 8 Khi sử dụng .Net Framework, chúng ta sẽ không còn phải quá quan tâm đến việc lựa chọn ngôn ngữ nào để phát triển ứng dụng. Thậm chí trong một ứng dụng chúng ta có thể viết bằng nhiều ngôn ngữ .NET khác nhau.

Điều này là do tất cả các ngôn ngữ .NET đều được quản lý bởi CLR (Common Language Runtime).2 Lớp WebRequest và WebResponse Lớp WebRequest và WebResponse là hai lớp cơ sở nằm trong gói thư viện System. Hai lớp này được xây dựng để phục vụ cho lập trình mạng giao tiếp giữa Client và Server. Vì luận văn là đề tài chủ yếu nghiên cứu sâu về các thuật toán tìm kiếm và trích rút thông tin trên mạng internet do đó hai lớp WebRequest và WebResponse có ý nghĩa cực kỳ quan trọng trong việc lập trình thực nghiệm. Hai lớp WebRequest và WebResponse tương ứng được sử dụng trong luận văn để thực hiện gửi yêu cầu và lấy dữ liệu từ các nguồn thông tin trên internet thông qua giao thức HTTP.

Lớp WebRequest dùng để tạo ra một yêu cầu gửi tới một Website cụ thể. Lớp WebResponse dùng để lấy thông tin trả về từ WebServer. Để tạo một thể hiện (instance) của lớp WebRequest ta dùng phương thức Create(URL). Để lấy dữ liệu từ đối tượng WebResponse ta dùng phương thức GetResponseStream() trả về kiểu dữ liệu Stream.

Thuộc tính/Phương thức Diễn giải System.RequestUri Lấy các URI từ các nguồn được tham chiếu đến.Headers Lấy các tiêu đề tên/cặp giá trị liên kết với yêu cầu.ContentLength Lấy hoặc gán nội dung chiều dài của yêu cầu được gửi đi.ContentType Lấy hoặc gán kiểu nội dung của yêu cầu được gửi đi.Credentials Lấy hoặc gán Credentials được dùng để xác nhận yêu cầu.PreAuthenticate Lấy hoặc gán giá trị để gửi thông tin xác thực với yêu cầu.GetRequestStream() Lấy dòng văn bản cho dữ liệu đến nguồn dữ liệu.GetResponse() Lấy phản hồi của một yêu cầu. Một số thuộc tính và phương thức của lớp WebRequest LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 9 Thuộc tính/Phương thức Diễn giải System.Headers Lấy các tiêu đề tên/cặp giá trị liên kết với nội dung trả về.ContentLength Lấy chiều dài của nội dung trả về từ server.ContentType Lấy kiểu nội dung của dữ liệu được trả về từ server.GetResponseHe Lấy thông tin của header thông qua ader(string headerName) headerName.GetResponseStr Lấy nội dung trả về từ server. Một số thuộc tính và phương thức của lớp WebResponse Đoạn chương trình bên dưới sử dụng các đối tượng WebRequest và WebResponse thực hiện gửi yêu cầu và nhận kết quả trả về. protected void Button1_Click(object sender, EventArgs e) { string URL = "http://www.vn"; WebRequest request = WebRequest.Create(URL); WebResponse response = request.GetResponse(); StreamReader reader = new StreamReader(response.GetResponseStream()); string str = reader.text + str; txtBox1.text + "\n"; str = reader.3 Lớp HttpWebRequest và HttpWebResponse Lớp WebRequest và WebResponse là các lớp trừu tượng trong gói thư viện System.Net, vì vậy chúng ta không nên sử dụng trực tiếp chúng.

Do đó chúng ta dùng thông qua lớp HttpWebRequest và HttpWebResponse tương ứng để thực hiện gửi yêu cầu và nhận kết quả trả về từ Webserver. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 Đoạn chương trình bên dưới sử dụng các đối tượng HttpWebRequest và HttpWebResponse thay thế cho các đối tượng WebRequest và WebResponse. protected void Button1_Click(object sender, EventArgs e) { string URL = "http://www.vn"; HttpWebRequest request = (HttpWebRequest)WebRequest.GetResponse(); String ver = response.ToString(); StreamReader reader = new StreamReader(response.GetResponseStream() ); string str = reader.text + str; txtBox1.text + "\n"; str = reader.4 Trích rút thông tin từ các website có yêu cầu xác thực Khi thực hiện tìm kiếm và trích rút thông tin từ nhiều nguồn khác nhau trên internet, sẽ xuất hiện trường hợp chúng ta truy xuất phải các website được bảo mật, các website đó yêu cầu một số thông tin xác thực trước khi có thể truy xuất vào được. Như vậy trước khi gửi yêu cầu tới website có yêu xác thực chúng ta phải cấu hình thuộc tính WebRequest.Credentials với các thông tin xác thực.

Một số kiểu xác thực mà website thường sử dụng:  Website sử dụng Basic authentication hay Digest authentication, chúng ta cần gửi kết hợp username và password bằng cách tạo đối tượng System.NetworkCredential và gán nó vào thuộc tính HttpWebRequest.  Website sử dụng Integrated Windows authentication, chúng ta thực hiện tương tự như trên. Chúng ta có thể lấy các thông tin đăng nhập của người dùng hiện hành từ đối tượng System. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11  Website đòi hỏi chứng chỉ, chúng ta cần nạp chứng chỉ từ một tệp bằng lớp System.X509Certificate, và thêm nó vào tập hợp HttpWebRequest.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Phát triển hệ thống thông tin thông minh

Tìm kiếm và truy xuất thông tin

Nghiên cứu khoa học ngành công nghệ thông tin

Khai thác và tổng hợp dữ liệu web