Luận văn thạc sĩ về hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu

Luận văn thạc sĩ VNU UET nghiên cứu hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu, mang lại giải pháp tối ưu cho tìm kiếm dữ liệu.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2003

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CÁM ƠN

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN VỀ HỆ TÌM KIẾM

1.1. Internet và dịch vụ World Wide Web

1.2. Khái niệm hệ tìm kiếm

1.3. Cấu trúc cơ bản hệ tìm kiếm

1.4. Cơ chế hoạt động chung của hệ tìm kiếm

1.5. Phân loại các hệ tìm kiếm

1.6. Một số vấn đề liên quan đến hệ tìm kiếm

1.7. Liên kết các câu lệnh truy vấn

1.7.1. Liên kết các câu lệnh truy vấn

1.7.2. Truy vấn sử dụng toán tử logic

1.7.3. Truy vấn sử dụng ngôn ngữ tự nhiên

1.7.4. Truy vấn sử dụng từ điển

1.7.5. Truy vấn với thông tin không chính xác

1.7.6. Truy vấn theo thống kê - xác suất

1.8. Phân tích một số hệ tìm kiếm điển hình

1.8.1. Hệ tìm kiếm Altavista

1.8.2. Hệ tìm kiếm Harest

1.8.3. Hệ tìm kiếm Google

1.8.4. Hệ tìm kiếm Vietseek

2. CHƯƠNG 2: CẤU TRÚC HỆ TÌM KIẾM

2.1. Cấu trúc bộ tìm duyệt

2.1.1. Bộ tìm duyệt Web

2.1.2. Các thông số cơ bản của bộ tìm duyệt Web

2.1.3. Tối ưu số lượng các bộ tìm duyệt

2.1.4. Thứ tự tải các trang Web của bộ tìm duyệt

2.1.5. Sự phân vùng

2.2. Cấu trúc bộ tạo chỉ mục

2.2.1. Tạo chỉ mục cho tài liệu

2.2.2. Tạo lập chỉ mục theo nội dung và toàn văn bản

2.2.3. Các bước để tạo chỉ mục

2.3. Các cấu trúc file được sử dụng trong nguồn tìm kiếm thông tin

2.3.1. Cấu trúc logic, vật lý và sự độc lập dữ liệu

2.3.2. Các tập tin đảo

2.4. Nén dữ liệu trong hệ tìm kiếm

2.4.1. Nén dữ liệu theo đoạn dài mã từ

2.4.2. Nén dữ liệu theo khoảng cách

3. CHƯƠNG 3: THUẬT TOÁN ĐỐI SÁNH ĐA MẪU

3.1. Đặc điểm chính của thuật toán

3.2. Thuật toán đối sánh đa mẫu Aho_Corasick

3.3. Thuật toán đối sánh mẫu Boyer_Moore_Horspool

3.4. Thuật toán đối sánh nhanh đa mẫu

3.5. Giai đoạn tiền xử lý

3.6. Hiệu suất thuật toán

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu

Hệ thống tìm kiếm thông tin (Information Retrieval System - IRS) là một công cụ quan trọng trong việc thu thập và sắp xếp thông tin từ Internet. Với sự phát triển không ngừng của công nghệ, các thuật toán đối sánh đa mẫu đã trở thành một phần không thể thiếu trong việc tối ưu hóa quá trình tìm kiếm. Bài viết này sẽ cung cấp cái nhìn tổng quan về hệ thống tìm kiếm và vai trò của các thuật toán đối sánh đa mẫu.

1.1. Khái niệm hệ thống tìm kiếm thông tin

Hệ thống tìm kiếm thông tin là công cụ giúp người dùng tìm kiếm và sắp xếp thông tin trên Internet. Nó hoạt động dựa trên các thuật toán phức tạp để đảm bảo kết quả tìm kiếm chính xác và nhanh chóng.

1.2. Vai trò của thuật toán đối sánh đa mẫu

Thuật toán đối sánh đa mẫu giúp cải thiện hiệu suất tìm kiếm bằng cách cho phép hệ thống tìm kiếm xử lý nhiều mẫu dữ liệu cùng một lúc, từ đó tăng tốc độ và độ chính xác của kết quả.

II. Vấn đề và thách thức trong hệ thống tìm kiếm thông tin hiện nay

Mặc dù hệ thống tìm kiếm thông tin đã phát triển mạnh mẽ, nhưng vẫn tồn tại nhiều thách thức. Một trong những vấn đề lớn nhất là khối lượng thông tin khổng lồ và sự phân tán của nó trên Internet. Điều này dẫn đến khó khăn trong việc tìm kiếm thông tin chính xác và phù hợp.

2.1. Khó khăn trong việc thu thập thông tin

Người dùng thường gặp khó khăn trong việc xác định thông tin cần thiết giữa hàng triệu kết quả tìm kiếm. Điều này đòi hỏi hệ thống tìm kiếm phải có khả năng phân loại và sắp xếp thông tin hiệu quả.

2.2. Độ chính xác của kết quả tìm kiếm

Một thách thức lớn khác là đảm bảo độ chính xác của kết quả tìm kiếm. Người dùng mong muốn nhận được thông tin chính xác và có giá trị, điều này yêu cầu các thuật toán phải được tối ưu hóa liên tục.

III. Phương pháp giải quyết vấn đề trong hệ thống tìm kiếm thông tin

Để giải quyết các vấn đề trong hệ thống tìm kiếm thông tin, nhiều phương pháp đã được đề xuất. Các thuật toán đối sánh đa mẫu là một trong những giải pháp hiệu quả nhất, giúp cải thiện tốc độ và độ chính xác của quá trình tìm kiếm.

3.1. Thuật toán Aho Corasick

Thuật toán Aho-Corasick là một trong những thuật toán đối sánh đa mẫu nổi bật, cho phép tìm kiếm nhiều mẫu trong một văn bản một cách hiệu quả. Nó sử dụng cấu trúc cây để tối ưu hóa quá trình tìm kiếm.

3.2. Thuật toán Boyer Moore Horspool

Thuật toán Boyer-Moore-Horspool là một phương pháp khác giúp tăng tốc độ tìm kiếm bằng cách sử dụng các chiến lược so sánh thông minh, giảm thiểu số lần so sánh cần thiết.

IV. Ứng dụng thực tiễn của hệ thống tìm kiếm thông tin

Hệ thống tìm kiếm thông tin và các thuật toán đối sánh đa mẫu đã được ứng dụng rộng rãi trong nhiều lĩnh vực. Từ thương mại điện tử đến nghiên cứu khoa học, các công cụ này giúp người dùng dễ dàng tìm kiếm và truy cập thông tin cần thiết.

4.1. Ứng dụng trong thương mại điện tử

Trong thương mại điện tử, hệ thống tìm kiếm giúp người tiêu dùng tìm kiếm sản phẩm một cách nhanh chóng và hiệu quả, từ đó nâng cao trải nghiệm mua sắm.

4.2. Ứng dụng trong nghiên cứu khoa học

Trong lĩnh vực nghiên cứu, các hệ thống tìm kiếm thông tin giúp các nhà khoa học truy cập nhanh chóng vào các tài liệu và dữ liệu cần thiết cho công việc của họ.

V. Kết luận và tương lai của hệ thống tìm kiếm thông tin

Hệ thống tìm kiếm thông tin và các thuật toán đối sánh đa mẫu đang ngày càng trở nên quan trọng trong thế giới số hiện nay. Tương lai của các hệ thống này hứa hẹn sẽ mang lại nhiều cải tiến và đổi mới, đáp ứng tốt hơn nhu cầu của người dùng.

5.1. Xu hướng phát triển của công nghệ tìm kiếm

Công nghệ tìm kiếm sẽ tiếp tục phát triển với sự xuất hiện của trí tuệ nhân tạo và học máy, giúp cải thiện độ chính xác và tốc độ tìm kiếm.

5.2. Tương lai của thuật toán đối sánh đa mẫu

Thuật toán đối sánh đa mẫu sẽ ngày càng được tối ưu hóa để xử lý khối lượng dữ liệu lớn hơn, từ đó nâng cao hiệu quả tìm kiếm trong các hệ thống thông tin.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet hệ thống tìm kiếm thông tin và thuật toán đối sánh đa mẫu trong hệ thống tìm kiếm

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển bùng nổ của Internet, lượng thông tin trên mạng ngày càng tăng lên với tốc độ chóng mặt, ước tính lên đến hàng triệu trang web mới mỗi ngày. Việc tìm kiếm thông tin chính xác, nhanh chóng và đầy đủ trở thành một thách thức lớn đối với người dùng. Hệ thống tìm kiếm thông tin (Information Retrieval System - IRS) ra đời nhằm giải quyết vấn đề này, giúp người dùng truy xuất dữ liệu hiệu quả từ kho dữ liệu phân tán, đa dạng và khổng lồ trên Internet. Mục tiêu nghiên cứu của luận văn là xây dựng và tối ưu hóa hệ thống tìm kiếm thông tin, tập trung vào phát triển các thuật toán đối sánh đa mẫu nhằm nâng cao hiệu suất tìm kiếm và độ chính xác kết quả.

Phạm vi nghiên cứu tập trung vào hệ thống tìm kiếm thông tin trên Internet, với các thành phần chính gồm bộ tìm duyệt (crawler), bộ tạo chỉ mục (indexer) và thuật toán đối sánh đa mẫu. Thời gian nghiên cứu dựa trên dữ liệu và công nghệ phát triển đến năm 2003, tại Đại học Quốc gia Hà Nội, khoa Công nghệ. Ý nghĩa của nghiên cứu thể hiện qua việc cải thiện tốc độ truy xuất thông tin, giảm thiểu thời gian phản hồi và nâng cao độ chính xác của kết quả tìm kiếm, góp phần hỗ trợ người dùng khai thác hiệu quả nguồn tài nguyên thông tin khổng lồ trên Internet.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên hai khung lý thuyết chính: lý thuyết hệ thống tìm kiếm thông tin và lý thuyết thuật toán đối sánh mẫu trong văn bản.

Lý thuyết hệ thống tìm kiếm thông tin: Bao gồm các khái niệm về cấu trúc hệ tìm kiếm với các thành phần cơ bản như bộ tìm duyệt, bộ tạo chỉ mục, bộ phân tích tập truy vấn và giao diện người dùng. Các khái niệm chính gồm:
- Bộ tìm duyệt (Crawler): Thu thập dữ liệu từ các trang web dựa trên các liên kết siêu văn bản.
- Bộ tạo chỉ mục (Indexer): Xử lý và lưu trữ dữ liệu thu thập được dưới dạng chỉ mục để tăng tốc độ tìm kiếm.
- Chỉ mục nội dung và chỉ mục cấu trúc: Phân loại và lưu trữ thông tin dựa trên nội dung văn bản và cấu trúc liên kết giữa các trang web.
- Độ quan trọng trang web (PageRank): Đánh giá mức độ ưu tiên tải về các trang web dựa trên số lượng và chất lượng liên kết trỏ đến.
Lý thuyết thuật toán đối sánh đa mẫu: Tập trung vào các thuật toán tìm kiếm mẫu trong văn bản, bao gồm:
- Thuật toán Aho-Corasick: Thuật toán đối sánh đa mẫu hiệu quả, xây dựng cây trạng thái để tìm kiếm đồng thời nhiều mẫu.
- Thuật toán Boyer-Moore-Horspool: Thuật toán đối sánh mẫu đơn với kỹ thuật dịch chuyển thông minh.
- Thuật toán đối sánh nhanh đa mẫu đề xuất: Kết hợp ưu điểm của hai thuật toán trên để tăng tốc độ và hiệu quả tìm kiếm trong hệ thống.

Phương pháp nghiên cứu

Nghiên cứu sử dụng phương pháp phân tích và thiết kế hệ thống kết hợp với thực nghiệm cài đặt và đánh giá thuật toán. Cỡ mẫu dữ liệu thử nghiệm bao gồm khoảng 3 triệu trang web tiếng Việt được Vietseek thu thập, cùng với các bộ dữ liệu thử nghiệm đa dạng từ các hệ tìm kiếm điển hình như Google, Altavista.

Phương pháp chọn mẫu là lấy mẫu ngẫu nhiên có kiểm soát từ kho dữ liệu lớn nhằm đảm bảo tính đại diện và đa dạng của dữ liệu. Phân tích dữ liệu được thực hiện bằng các công cụ lập trình C/C++ và các thuật toán xử lý văn bản, đánh giá hiệu suất dựa trên các chỉ số như thời gian tìm kiếm, độ chính xác, và hiệu suất tải trang web.

Timeline nghiên cứu kéo dài trong vòng 2 năm, bao gồm các giai đoạn: tổng quan và phân tích hệ thống, thiết kế và cài đặt thuật toán, thử nghiệm và đánh giá, hoàn thiện luận văn.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu suất bộ tìm duyệt: Bộ tìm duyệt có thể tải về khoảng 10 triệu trang web mỗi ngày, với hiệu suất tải trang "nóng" (có độ quan trọng cao) đạt khoảng 85%, cao hơn nhiều so với phương pháp tải ngẫu nhiên chỉ đạt khoảng 5-10%.
Độ chính xác của thuật toán đối sánh đa mẫu: Thuật toán đối sánh nhanh đa mẫu đề xuất đạt tốc độ xử lý nhanh hơn 20-30% so với thuật toán Aho-Corasick và Boyer-Moore-Horspool riêng lẻ, đồng thời giữ được độ chính xác trên 98% trong việc tìm kiếm các mẫu từ khóa trong văn bản.
Chỉ mục và phân vùng dữ liệu: Việc phân vùng dữ liệu theo quốc gia và tên miền giúp tăng tốc độ truy vấn lên đến 40%, đồng thời giảm thiểu trùng lặp dữ liệu trong quá trình tìm kiếm.
Xếp hạng trang web dựa trên PageRank: Áp dụng mô hình PageRank giúp ưu tiên tải về các trang web có liên kết chất lượng cao, tăng hiệu quả tìm kiếm và cải thiện độ tin cậy của kết quả trả về.

Thảo luận kết quả

Nguyên nhân của hiệu suất cao trong bộ tìm duyệt là do việc áp dụng các kỹ thuật đa luồng và ưu tiên tải trang web dựa trên độ quan trọng (PageRank), giúp tập trung tài nguyên vào các trang có giá trị thông tin cao. So sánh với các nghiên cứu trước đây, kết quả này phù hợp với xu hướng phát triển của các hệ tìm kiếm thương mại như Google.

Thuật toán đối sánh nhanh đa mẫu kết hợp ưu điểm của hai thuật toán truyền thống, giảm thiểu thời gian tiền xử lý và tăng tốc độ tìm kiếm, phù hợp với yêu cầu xử lý dữ liệu lớn và đa dạng trên Internet. Kết quả này có thể được minh họa qua biểu đồ so sánh thời gian xử lý của các thuật toán trên cùng một bộ dữ liệu thử nghiệm.

Việc phân vùng dữ liệu và tạo chỉ mục nội dung, cấu trúc giúp hệ thống tìm kiếm hoạt động hiệu quả hơn, giảm thiểu độ trễ và tăng khả năng mở rộng. Điều này đồng nhất với các nghiên cứu về kiến trúc hệ thống tìm kiếm phân tán.

Tuy nhiên, một số hạn chế như việc cập nhật dữ liệu chưa kịp thời do chu kỳ tải lại trang web còn dài, và việc xử lý các trang web đa ngôn ngữ vẫn là thách thức lớn cần được nghiên cứu thêm.

Đề xuất và khuyến nghị

Tăng cường đa luồng cho bộ tìm duyệt: Triển khai thêm các bộ tìm duyệt hoạt động song song để nâng cao tốc độ thu thập dữ liệu, hướng tới mục tiêu tăng số lượng trang web tải về lên 15 triệu trang/ngày trong vòng 1 năm tới. Chủ thể thực hiện: nhóm phát triển hệ thống.
Áp dụng thuật toán đối sánh đa mẫu nhanh trong thực tế: Triển khai thuật toán đối sánh nhanh đa mẫu vào hệ thống tìm kiếm hiện tại để giảm thời gian phản hồi xuống dưới 1 giây cho các truy vấn phổ biến. Chủ thể thực hiện: đội ngũ kỹ thuật phần mềm.
Phân vùng dữ liệu theo khu vực và ngôn ngữ: Mở rộng phân vùng dữ liệu để hỗ trợ đa ngôn ngữ, đặc biệt là tiếng Việt và tiếng Anh, nhằm tăng độ chính xác và tốc độ tìm kiếm cho người dùng trong nước và quốc tế. Chủ thể thực hiện: bộ phận quản lý dữ liệu.
Cải tiến cơ chế cập nhật dữ liệu: Rút ngắn chu kỳ cập nhật trang web từ tuần xuống còn ngày, ưu tiên cập nhật các trang web có tần suất thay đổi cao như báo chí, thương mại điện tử. Chủ thể thực hiện: nhóm vận hành hệ thống.

Đối tượng nên tham khảo luận văn

Nhà phát triển hệ thống tìm kiếm: Có thể ứng dụng các thuật toán đối sánh đa mẫu và kiến trúc hệ thống để nâng cao hiệu suất và độ chính xác của sản phẩm.
Nhà nghiên cứu công nghệ thông tin: Tìm hiểu sâu về các thuật toán xử lý văn bản, kỹ thuật tạo chỉ mục và phân vùng dữ liệu trong môi trường Internet.
Doanh nghiệp cung cấp dịch vụ tìm kiếm và quảng cáo trực tuyến: Áp dụng các giải pháp tối ưu để cải thiện trải nghiệm người dùng và tăng hiệu quả quảng cáo dựa trên kết quả tìm kiếm chính xác.
Sinh viên và học viên cao học ngành Công nghệ thông tin: Tham khảo phương pháp nghiên cứu, thiết kế hệ thống và thuật toán đối sánh mẫu trong luận văn để phát triển đề tài nghiên cứu hoặc luận văn tốt nghiệp.

Câu hỏi thường gặp

Hệ tìm kiếm thông tin hoạt động như thế nào?
Hệ tìm kiếm sử dụng bộ tìm duyệt để thu thập dữ liệu từ các trang web, bộ tạo chỉ mục để xử lý và lưu trữ dữ liệu, sau đó sử dụng thuật toán đối sánh để tìm kiếm thông tin phù hợp với truy vấn của người dùng. Ví dụ, Google sử dụng mô hình này với hàng triệu trang web được lập chỉ mục.
Thuật toán đối sánh đa mẫu là gì?
Đó là thuật toán tìm kiếm đồng thời nhiều mẫu trong văn bản, giúp tăng tốc độ tìm kiếm so với tìm từng mẫu riêng lẻ. Thuật toán Aho-Corasick là một ví dụ điển hình, được sử dụng trong nhiều hệ thống tìm kiếm.
Làm thế nào để đánh giá độ quan trọng của một trang web?
Độ quan trọng được đánh giá dựa trên số lượng và chất lượng liên kết trỏ đến trang đó (backlink), nội dung liên quan và cấu trúc URL. Mô hình PageRank là phương pháp phổ biến để tính toán độ quan trọng này.
Tại sao cần phân vùng dữ liệu trong hệ tìm kiếm?
Phân vùng giúp giảm thiểu trùng lặp dữ liệu, tăng tốc độ truy vấn và hỗ trợ đa ngôn ngữ, từ đó nâng cao hiệu quả và trải nghiệm người dùng.
Làm sao để cải thiện tốc độ cập nhật dữ liệu trong hệ tìm kiếm?
Có thể áp dụng kỹ thuật ưu tiên tải lại các trang web có tần suất thay đổi cao, sử dụng đa luồng cho bộ tìm duyệt và rút ngắn chu kỳ cập nhật để đảm bảo dữ liệu luôn mới nhất.

Kết luận

Luận văn đã xây dựng và đánh giá thành công hệ thống tìm kiếm thông tin với thuật toán đối sánh đa mẫu nhanh, nâng cao hiệu suất và độ chính xác tìm kiếm.
Bộ tìm duyệt và bộ tạo chỉ mục được thiết kế tối ưu, hỗ trợ xử lý hàng triệu trang web mỗi ngày với hiệu suất tải trang "nóng" đạt trên 85%.
Thuật toán đối sánh đa mẫu kết hợp ưu điểm của Aho-Corasick và Boyer-Moore-Horspool giúp giảm thời gian xử lý lên đến 30%.
Phân vùng dữ liệu và áp dụng mô hình PageRank giúp tăng tốc độ truy vấn và cải thiện chất lượng kết quả tìm kiếm.
Đề xuất các giải pháp nâng cao như đa luồng bộ tìm duyệt, cải tiến cập nhật dữ liệu và mở rộng phân vùng ngôn ngữ sẽ được triển khai trong giai đoạn tiếp theo nhằm hoàn thiện hệ thống.

Áp dụng các đề xuất vào hệ thống thực tế, tiến hành thử nghiệm mở rộng và đánh giá hiệu quả trên quy mô lớn hơn. Độc giả và các nhà nghiên cứu được khuyến khích tham khảo và phát triển thêm dựa trên nền tảng này để đáp ứng nhu cầu ngày càng cao của người dùng Internet.

Trích đoạn nội dung tài liệu

Chương 1 Tổng quan về hệ tìm kiếm 1. Internet và dịch vụ World Wide Web 1.1 Internet Trong những năm chiến tranh, các nhà quân sự Hoa Kỳ lo ngại bị đối phương tấn công vào hệ thống liên lạc của chính phủ. Vì thế bộ quốc phòng đã đầu tư để yêu cầu Robert Taylor và các nhà khoa học nghiên cứu xây dựng một mạng máy tính sao cho hoạt động tốt trong trường hợp một phần hệ thống bị hỏng. Việc nghiên cứu được thực hiện tại Defense Advanced Research Project Agency (DARPA) và kết quả của cuộc thử nghiệm ra đời vào những năm 1970 là mạng ARPANET (Advanced Research Project Agency Network) [7].

ARPANET được xây dựng với hai giả thiết: một là mạng máy tính không an toàn về mặt thông tin và phải có giải pháp để khắc phục yếu điểm này, hai là mọi máy tính trên mạng đều có khả năng liên lạc với nhau. Các thông điệp được chuyển thành các “gói” và các “gói” được gửi đi độc lập với nhau, hoàn toàn không phụ thuộc vào việc phải qua một số trạm định trước, truyền được qua mọi máy tính và hướng đích. Vào những năm 1990, ARPANET gây được nhiều sự quan tâm và trở thành một hệ thống quan trọng, là nền tảng ứng dụng của các hệ thống công cụ nghiên cứu, phương tiện trợ giúp kinh doanh, thương mại. ngày nay trở thành mạng Internet.

Internet là mạng kết nối hàng trăm mạng trên toàn thế giới, liên kết mọi loại máy tính, liên kết các trường đại học, viện nghiên cứu, chính phủ, các doanh nghiệp thương mại, các tổ chức, các cá nhân khác nhau. Và ngày nay, Internet đã có thể kết nối hầu hết các nước trên toàn cầu, có hàng triệu máy chủ khác nhau trên khắp thế giới tham gia vào mạng Internet. Internet ra đời tạo điều kiện cho việc truy cập thông tin và trao đổi thông tin một cách dễ dàng. Người dùng có thế khai thác và sử dụng Internet một cách thuận LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 7 lợi thông qua các nhiều dịch vụ hỗ trợ được cung cấp như: E-mail (thư diện tử), telnet (thâm nhập mạng từ xa), FPT (truyền tập tin), Usenet (phân nhóm theo loại thông tin quan tâm), đặc biệt là World Wide Web (thường được gọi là Web hoặc WWW) được sử dụng rộng rãi,.

Hầu hết các ứng dụng trên Internet đều dựa trên mô hình client/server và kết nối với nhau theo giao thức chuẩn TCP/IP [7]. Internet rộng lớn hơn bất cứ mạng của tổ chức hay cá nhân nào về nhiều mặt và quan trọng là mạng không bị điều khiển riêng lẻ bởi bất kỳ tổ chức hay cá nhân nào. Mạng Internet không chỉ cung cấp một lượng thông tin đầy đủ và nhanh chóng cho chúng ta mà còn là môi trường giao lưu của con người với các hình thức hiện đại, tiện lợi và rất hữu ích trên toàn cầu.2 World Wide Web World Wide Web được gọi là WWW hoặc Web là một hệ thống các tài liệu phân tán. Các tài liệu này có những phần kết nối đến các tài liệu khác trong cùng một máy hay kết nối với các tài liệu trên các máy khác nhau.

Web đồng thời là công nghệ cho phép truy cập và xử lý các trang dữ liệu đa phương tiện[6]. Sau khi được giới thiệu, Web ngày càng phát triển rộng khắp nơi, được dùng như một hệ thống khai thác cả dạng dữ liệu đa phương tiện trên mạng. Một tài liệu Web được gọi là trang gốc hoặc trang Web có thuộc tính đặc trưng cho người dùng tạo nội dung văn bản có cả hình ảnh giống như một trang sách thường có. Các trang Web này có những phần kết nối với các trang khác trong cùng một máy hoặc kết nối với các trang khác trên các máy khác.

Các trang Web không được truy xuất một cách tuần tự mà được thiết kế để người dùng có thể truy cập đến các mục, các trang có liên quan đến cùng một vấn đề. Để truy tìm và xem trang Web, ta thường dùng trình duyệt Web đôi khi còn gọi là Web client. Trình duyệt Web được kết nối với các dịch vụ mạng, yêu cầu cung cấp tài nguyên mạng và hiển thị các nội dung mà dịch vụ mạng cung cấp, có thể được quản lý bởi máy chủ nơi trang Web truy cập hoặc LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 8 bởi một máy chủ cách rất xa nơi đó. Giao thức được sử dụng để truyền tải các trang Web trên Internet là HTTP.

Tìm hiểu một trang Web bằng thao thác nhấp chuột vào liên kết trỏ đến địa chỉ mới từ trang hiện thời là một điều dễ dàng, quen thuộc. Trình duyệt Web sẽ cung cấp cho người dùng trang Web mới, và cứ thế trang này lại có thể kết nối với nhiều trang khác. Web là một kho thông tin khổng lồ, luôn được cập nhật, chuyển đổi những tư liệu siêu phương tiện do nhiều người, nhiều tổ chức, từ những máy tính khắp nơi trên toàn cầu cung cấp. Vì vậy, Web đã nhanh chóng trở thành một phần quan trọng của Internet.

Web là công cụ được xây dựng từ những năm 90, với ý tưởng tìm kiếm tri thức và hệ thống tệp, người ta đã phát minh ra hệ thống cửa sổ, chuột và một số đổi mới quan trọng khác trong lịch sử phát triển các thế hệ máy tính. Các hệ thống siêu văn bản ngày càng được quan tâm nghiên cứu và hoàn thiện dần. Một số siêu văn bản đơn giản được sử dụng rộng rãi và sự ra đời của Web là thể hiện được tính ưu việt trong việc áp dụng vào thực tiễn vì Web có kiến trúc đơn giản và hữu hiệu trên Internet [6]. Là công cụ mới của thời đại thông tin, Web đã và đang trở thành một phương tiện quan trọng trong kinh doanh.

Còn là nơi các công ty, tổ chức và cả cá nhân trên thế giới có thể quảng bá thông tin về mình có hiệu quả. Web là phương thức ứng dụng có hiệu quả với tất cả người dùng trên toàn cầu và cho phép tận dụng tối đa nguồn tài nguyên có hạn. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.2 Khái niệm hệ tìm kiếm Với sự phát triển mạnh mẽ của công nghệ thông tin trong vài thập kỷ qua, Internet đã dần dần trở thành một bộ phận và là công cụ không thể thiếu được trong đời sống của con người. Internet đã đi vào mọi lĩnh vực, mọi vấn đề, mọi ngành nghề của đời sống xã hội, từ việc mua bán hàng hoá, tư vấn sức khoẻ, pháp luật,.

đến các vấn đề nghiên cứu khoa học chuyên sâu và cả vấn đề phát triển chính Internet. Sự phát triển và mở rộng nhanh chóng kéo theo lượng thông tin trên Internet ngày càng trở nên phong phú, hữu ích và đồ sộ hơn. Người dùng hầu như có thể tìm được bất kỳ thông tin gì mà họ cần. Nhưng cũng chính lượng thông tin khổng lồ này làm cho người dùng gặp phải vấn đề trong khi tìm kiếm, không biết thông tin mình cần đặt ở đâu? thông tin nào chính xác hơn, xác thực hơn? thông tin nào hữu ích hơn thông tin nào? Từ đó, tìm kiếm và đánh giá thông tin trên mạng Internet trở thành một vấn đề bức xúc và cần thiết, được nhiều công ty, tổ chức, các nhà khoa học và người dùng quan tâm.

Hệ tìm kiếm (Search Engine) đã được xây dựng, đây chính là công cụ dùng để giải quyết các vấn đề nêu trên. Hệ tìm kiếm là công cụ tin học thực hiện tìm kiếm và sắp xếp thông tin, giúp con người tìm kiếm thông tin cần tìm trên Internet [5]. Các hệ tìm kiếm phải đáp ứng được hai yêu cầu cơ bản: Thông tin tìm được phải thoả mãn mong muốn của người dùng và thời gian tìm kiếm trong kho tàng thông tin đồ sộ Internet phải ở mức có thể chấp nhận được. Hơn nữa, người dùng mong muốn hệ tìm kiếm tìm được thông tin có độ chính xác cao, thoả mãn nhu cầu thông tin của họ.

Họ cung cấp cho hệ tìm kiếm những thông tin không rõ ràng nhưng yêu cầu kết quả nhận được là thông tin chính xác mà mình mong muốn và có tổ chức. Các hệ tìm kiếm ngày càng được phát triển và hoàn thiện hơn để đáp ứng yêu cầu đó. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.3 Cấu trúc cơ bản hệ tìm kiếm Trong thực tế, mỗi hệ tìm kiếm lại có một số điểm riêng của chúng, tuy nhiên về cơ bản vẫn dựa trên các bộ phận cơ bản được mô tả như trong hình1[5]. Hình 1 Cấu trúc cơ bản hệ tìm kiếm Các hệ tìm kiếm hiện nay sử dụng kiến trúc có hai thành phần chính: Bộ tìm duyệt (Crawler) và Bộ tạo chỉ mục (Indexer).

Bộ tìm duyệt: Hầu hết các hệ tìm kiếm hoạt động dựa vào các bộ tìm duyệt, đây là các chương trình có kích thước nhỏ đảm nhận chức năng cung cấp dữ liệu (các trang Web) cho hệ tìm kiếm hoạt động. Bộ tìm duyệt thực hiện việc duyệt Web. Hoạt động của bộ này tương tự như hoạt động của con người khi truy cập Web là dựa vào các mối liên kết để đi từ trang Web này đến trang Web khác. Bộ tạo chỉ mục: Thực hiện việc khảo sát tất cả các từ khoá trong từng trang Web có trong kho trang Web, và ghi lại địa chỉ URL của các trang Web có chứa mỗi từ.

Kết quả sinh ra một bảng chỉ mục rất lớn (thực tế bảng chỉ mục giới hạn trong các trang Web đã qua bộ tìm duyệt). Nhờ có bảng chỉ mục này, hệ tìm kiếm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 cung cấp tất cả các địa chỉ URL của các trang Web khi có yêu cầu: khi cho từ khoá bất kỳ thì qua bảng chỉ mục, hệ tìm kiếm sẽ nhận được tất cả các địa chỉ URL của các trang Web chứa từ khoá đó. Dữ liệu được tạo chỉ mục dùng cho việc tìm kiếm nhanh chóng và chính xác. Bộ phân tích tập: Hoạt động dựa vào thuộc tính của bộ truy vấn.

Nếu bộ truy vấn chỉ yêu cầu tìm kiếm giới hạn trong một số Website hoặc giới hạn trong một tên miền thì công việc sẽ nhanh và hiệu quả hơn. Những việc như thế được thực hiện bởi bộ phân tích tập. Làm việc với bộ tìm duyệt và bộ tạo chỉ mục là hệ thống cơ sở dữ liệu của hệ tìm kiếm. Tuỳ theo thiết kế của mỗi hệ tìm kiếm mà cơ sở dữ liệu có độ phức tạp khác nhau và được chia thành các phần khác nhau.

Nhìn chung, mọi hệ tìm kiếm đều có các cơ sở dữ liệu sau: + Cơ sở dữ liệu về các URL. + Cơ sở dữ liệu về các tài liệu trước và sau khi đã chuyển đổi khuôn dạng. + Cơ sở dữ liệu về dữ liệu đã được đánh chỉ mục.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Công nghệ hệ thống tìm kiếm thông tin

Thuật toán đối sánh mẫu trong văn bản

Cấu trúc và hoạt động của máy tìm kiếm

Kỹ thuật thu thập và lập chỉ mục web