Tổng Quan Về Các Máy Tìm Kiếm Dữ Liệu Trên Internet

Chuyên khảo phân tích Tổng quan về các máy tìm kiếm, đánh giá các khía cạnh quan trọng, đề xuất hướng nghiên cứu tiếp theo., phục vụ nghiên cứu và ứng dụng thực tiễn

Trường đại học

Khoa HTTT

Chuyên ngành

Kinh tế và TMĐT

Người đăng

Ẩn danh

Thể loại

bài

2021

109
0
0

Phí lưu trữ

35 Point

Mục lục chi tiết

1. BÀI SỐ TỔNG QUAN VỀ CÁC MÁY TÌM KIẾM

1.1. Khái niệm và đặc điểm của máy tìm kiếm dữ liệu trên Internet

1.2. Cấu trúc của máy tìm kiếm dữ liệu trên Internet

1.3. Cấu trúc webpage trong kết quả trả về và nguyên tắc hoạt động của máy tìm kiếm

1.4. Máy tìm kiếm theo chủ đề và máy tìm kiếm toàn bộ văn bản

1.5. Máy tìm kiếm AND và máy tìm kiếm OR

1.6. Phối hợp toán tử và từ bổ nghĩa của các máy tìm kiếm

2. BÀI SỐ MÁY TÌM KIẾM GOOGLE

2.1. Tổng quan về Google

2.2. Những cú pháp đặc biệt của Google

2.3. Những chủ đề tìm kiếm của Google

Trích đoạn nội dung tài liệu

1 BÀI SỐ TỔNG QUAN VỀ CÁC MÁY TÌM KIẾM TS. Nguyễn Trần Hưng Khoa HTTT Kinh tế và TMĐT NỘI DUNG CHÍNH • 1. Khái niệm và đặc điểm của máy tìm kiếm dữ liệu trên Internet • 1. Cấu trúc của các máy tìm kiếm dữ liệu trên Internet • 1. Cấu trúc webpage trong kết quả tìm kiếm trả về và nguyên tắc hoạt động của máy tìm kiếm. Máy tìm kiếm theo chủ đề và máy tìm kiếm toàn bộ văn bản • 1. Máy tìm kiếm AND và máy tìm kiếm OR • 1. Phối hợp toán tử và từ bổ nghĩa của các máy tìm kiếm Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 2 Kinh tế và TMĐT 1. Khái niệm và đặc điểm của máy tìm kiếm dữ liệu trên Internet • Khái niệm máy tìm kiếm (Search Engines) Máy tìm kiếm là một website được thiết kế đặc Khái biệt để giúp đỡ người sử niệm dụng tìm kiếm các thông tin theo yêu cầu trên môi trường mạng Internet Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 3 Kinh tế và TMĐT Đặc điểm của máy tìm kiếm dữ liệu trên Internet • Tìm kiếm trong cơ sở dữ liệu được tự động xây dựng bởi một robot, không phải do con người xây dựng. • Máy tìm kiếm sẽ so sánh các từ khóa người dùng nhập vào vào cửa sổ tìm kiếm với các từ được viết ở các trang web mà nó lưu trữ. • Luợng thông tin mà các máy tìm kiếm có thể chứa đựng hơn 90% nội dung của các trang web có thể xử lý được. • Kết quả tìm kiếm của người dùng phụ thuộc vào khả năng sử dụng nhuần nhuyễn các tính năng và cú pháp của máy tìm kiếm. Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 4 Kinh tế và TMĐT 1. Cấu trúc của máy tìm kiếm dữ liệu trên Internet Bộ thu thập thông tin (web spider, web wanderer, web worm) Các bộ Bộ lập chỉ mục (Index) phận cấu – Hệ thống phân tích thành và xử lý dữ liệu Bộ tìm kiếm thông tin – Search Engine Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 5 Kinh tế và TMĐT 1. Cấu trúc webpage trong kết quả trả về và nguyên tắc hoạt động của máy tìm kiếm • Cấu trúc webpage trong kết quả trả về Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 6 Kinh tế và TMĐT Nguyên tắc hoạt động của máy tìm kiếm Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 7 Kinh tế và TMĐT 1. Máy tìm kiếm theo chủ đề và máy tìm kiếm toàn bộ văn bản. Máy tìm kiếm toàn bộ Hai văn bản trường phái tìm Google Teoma kiếm thông tin Máy tìm kiếm theo chủ đề Yahoo Yandex Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 8 Kinh tế và TMĐT http://www.vn Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 9 Kinh tế và TMĐT http://www.org Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 10 Kinh tế và TMĐT http://www.org Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 11 Kinh tế và TMĐT Tại sao lại có hai cách thức tìm kiếm Máy tìm kiếm toàn bộ Máy tìm kiếm theo văn bản chủ đề Tìm kiếm những kiểu thông tin được phân Rất hứu ích cho sự tìm biệt rõ ràng. kiếm chung, tìm kiếm Những lời trích dẫn, các đề tài chung, các những bài hát. Những địa chỉ, những câu hỏi phức tạp, những nơi ít được biết đến Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 12 Kinh tế và TMĐT 1. Máy tìm kiếm AND và máy tìm kiếm OR. Điều đầu tiên và quan trọng nhất khi tiến hành tìm kiếm thông tin đó là cần phải biết về một máy tìm kiếm thuộc loại nào: tìm kiếm toàn bộ văn bản hay là một máy tìm kiếm theo chủ đề và sau đó là máy tìm kiếm đang sử dụng được mặc định AND hay OR Mặc định tìm kiếm AND Mặc định tìm kiếm OR Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 13 Kinh tế và TMĐT Ví dụ về một máy tìm kiếm được mặc định AND Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 14 Kinh tế và TMĐT Ví dụ về máy tìm kiếm mặc định OR Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 15 Kinh tế và TMĐT 1. Phối hợp toán tử và từ bổ nghĩa của các máy tìm kiếm • Những toán tử và từ bổ nghĩa này sẽ khiến cho máy tìm kiếm biết được chính xác bạn đang muốn những từ tìm kiếm sẽ được xử lý như thế nào. +: Phải xuất hiện trong kết quả tìm Toán kiếm tử -: Không được xuất hiện trong kết quả tìm kiếm Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 16 Kinh tế và TMĐT Ví dụ về tìm kiếm có từ bổ nghĩa đại số Boolean +Electronic Commerce –Security Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 17 Kinh tế và TMĐT Những từ bổ nghĩa bên ngoài đại số Boolean Ngoài các từ bổ nghĩa đại số Boolean cơ bản là : + và -, còn có rất nhiều các từ bổ nghĩa bên ngoài vượt ra khỏi đại số Boolean tới những cú pháp đặc biệt. OR(hoặc) NEAR (gần) ~ Synonym (Từ đồng “”(dấu nghĩa) nháy kép) Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 18 Kinh tế và TMĐT Web search TS. Nguyễn Trần Hưng/ Khoa HTTT 19 Kinh tế và TMĐT 2 BÀI SỐ MÁY TÌM KIẾM GOOGLE TS. Nguyễn Trần Hưng Khoa HTTT Kinh tế và TMĐT NỘI DUNG CHÍNH • 2. Tổng quan về Google. Những cú pháp đặc biệt của Google. Những chủ đề tìm kiếm của Google 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 21 Kinh tế và TMĐT 2. Tổng quan về Google http://www.com Google được mặc định AND Từ bổ nghĩa bên ngoài đại số Từ bổ nghĩa đại Boolean số Boolean cơ bản " ": Bao gồm các từ tìm kiếm. + : Phải bao gồm. Synonym – từ đồng nghĩa. - : Không bao gồm. * : Dấu gộp từ nguyên. Nguyễn Trần Hưng/ Khoa HTTT 22 Kinh tế và TMĐT Ví dụ về tìm kiếm với từ bổ nghĩa OR 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 23 Kinh tế và TMĐT Ví dụ về tìm kiếm với một dấu gộp nguyên: dấu * 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 24 Kinh tế và TMĐT 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 25 Kinh tế và TMĐT 2. Những cú pháp đặc biệt của Google Cú pháp site phối hợp với intitle được sử dụng để tìm kiếm tiêu đề chỉ giới hạn trong một website cụ Phối hợp thể hoặc một miền đặc thù. site với intitle và allintitle Câu lệnh: Intitle hoặc allintitle:<Từ khóa tìm kiếm> Site:<địa chỉ tên miền> 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 26 Kinh tế và TMĐT Ví dụ về phối hợp site với cú pháp intitle 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 27 Kinh tế và TMĐT Phối hợp site với cú pháp inurl và tùy chọn tìm kiếm bổ sung allinurl Được sử dụng để tìm kiếm từ khóa nằm trong địa chỉ url của một website cụ thể hoặc một miền đặc thù Cú pháp: inurl hoặc allinurl:<từ khóa cần tìm kiếm> site:<địa chỉ tên miền> 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 28 Kinh tế và TMĐT Ví dụ: Electronic commerce inurl:library site:org 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 29 Kinh tế và TMĐT Phối hợp site với cú pháp intext Tìm thấy những từ tìm kiếm trong nội dung văn bản của một Website cụ thể hoặc một miền đặc thù. Câu lệnh: Intext:<từ tìm kiếm> site:<địa chỉ tên miền> 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 30 Kinh tế và TMĐT Ví dụ về việc sử dụng site phối hợp với cú pháp intext 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 31 Kinh tế và TMĐT Phối hợp site với cú pháp inanchor Tìm các từ khóa trong một liên kết mấu neo (link anchor) của một website cụ thể hoặc một miền đặc thù. Một link anchor là dòng chữ mô tả một link. Câu lệnh: inanchor:<từ khóa tìm kiếm> site:<địa chỉ tên miền 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 32 Kinh tế và TMĐT Phối hợp cú pháp site với cú pháp link Cú pháp này cho phép liệt kê những liên kết từ một địa chỉ URL cụ thể tới một website đã được xác định trước. Câu lệnh: link:<địa chỉ URL của trang Web> site:<địa chỉ tên miền> 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 33 Kinh tế và TMĐT Phối hợp cú pháp intitle với cú pháp inurl và intext Được sử dụng để tìm kiếm một nội dung thông tin thỏa mãn đồng thời các điều kiện trong tiêu đề web, trong đường dẫn url và trong nội dung văn bản Câu lệnh: <từ khóa tìm kiếm> intitle:<điều kiện yêu cầu> inurl:<điều kiện yêu cầu> intext:<điều kiện yêu cầu> 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 34 Kinh tế và TMĐT Phối hợp cú pháp Cache (bộ nhớ đệm) với cú pháp intitle, intext và inurl Cho phép tìm kiếm các thông tin thỏa mãn yêu cầu trong tiêu đề, đường dẫn, nội dung văn bản của những trang web đã không còn tồn tại đã được lưu vào trong bộ nhớ đệm của Google. Nó cũng cho phép nhìn thấy hình ảnh của trang web theo yêu cầu trông như thế nào từ lần cuối cùng Google thu thập thông tin về trang web đó. Câu lệnh: cache:<địa chỉ của trang web> intitle hoặc intext hoặc inurrl:<điều kiện yêu cầu> 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 35 Kinh tế và TMĐT Ví dụ về cú pháp Cache 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 36 Kinh tế và TMĐT Phối hợp cú pháp related với intitle, intext và inurl Cho phép tìm thấy những trang liên quan tới một địa chỉ trang web đã được xác định trước thỏa mãn các yêu cầu về tiêu đề, nội dung văn bản hoặc yêu cầu đường dẫn url. Hay nói cách khác là cú pháp này liệt kê các trang có nội dung tương tự hoặc liên quan tới nội dung của trang Web mà người dùng truy cập. Câu lệnh: related:<địa chỉ của trang web> intext:<từ khóa điều kiện> 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 37 Kinh tế và TMĐT Ví dụ 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 38 Kinh tế và TMĐT Cú pháp tìm kiếm theo thời gian Cú pháp daterange cho phép bạn tìm kiếm những nội dung thông tin được xác định trong một phạm vi ngày tháng nhất định. Câu lệnh: <Từ tìm kiếm> daterange:<phạm vi ngày tháng> 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 39 Kinh tế và TMĐT Ví dụ về cú pháp daterange 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 40 Kinh tế và TMĐT Cú pháp filetype Cú pháp này tìm kiếm các hậu tố hoặc phần mở rộng của tên file. Hay nói cách khác là cho phép chúng ta tìm kiếm các văn bản với các định dạng file khác nhau như: doc, ppt, xls, pdf… Câu lệnh: <Từ tìm kiếm> filetype:<định dạng file> 29/07/2021 TS. Nguyễn Trần Hưng/ Khoa HTTT 41 Kinh tế và TMĐT Ví dụ về cú pháp filetype 29/07/2021 TS.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ