Luận Văn Thạc Sĩ Về Kỹ Thuật Tìm Kiếm Văn Bản Trong Cơ Sở Dữ Liệu Đa Phương Tiện

Luận văn thạc sĩ VNU UET nghiên cứu kỹ thuật tìm kiếm văn bản dựa trên nội dung trong cơ sở dữ liệu đa phương tiện, mang lại giải pháp hiệu quả.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ Thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2010

Phí lưu trữ

30 Point

Mục lục chi tiết

MỞ ĐẦU

1. CHƯƠNG 1: TỔNG QUAN

1.1. Khái quát về cơ sở dữ liệu (CSDL) đa phương tiện

1.2. Mục tiêu chính

1.3. Mô hình dữ liệu đa phương tiện

1.4. Trích chọn đặc trưng, chỉ mục và đo tính tương tự

1.4.1. Trích chọn đặc trưng

1.4.2. Chỉ số hóa cấu trúc

1.4.3. Đo tính tương tự

1.5. Hệ thống truy tìm thông tin (IR-Information retrieval)

1.5.1. Vấn đề truy tìm tài liệu văn bản (Text retrieval)

1.5.2. Phân biệt các hệ thống IR và DBMS (DataBase Manager System)

1.5.3. Xếp hạng tài liệu (Ranking)

2. CHƯƠNG 2: MỘT SỐ KỸ THUẬT TÌM KIẾM

2.1. Các truy vấn Boolean và chỉ mục tài liệu

2.1.1. Truy vấn Boolean

2.1.2. Cấu trúc tệp

2.1.3. Các từ dừng và từ gốc

2.1.4. Chỉ số hoá và bổ sung

2.1.5. Kỹ thuật nén chỉ số (index compression)

2.1.6. Chỉ mục tự động

2.2. Thước đo hiệu năng

2.3. Mô hình truy tìm không gian vectơ

2.4. Mô hình truy tìm theo xác suất

2.5. Mô hình truy tìm trên cơ sở cụm

2.6. Kỹ thuật phản hồi phù hợp

2.7. Mô hình LSI (Latent semantic indexing)

2.7.1. Ý tưởng cơ bản của LSI

2.7.2. Một số khái niệm cơ bản

2.7.3. Kỹ thuật SVD (singular value decomposition)

3. CHƯƠNG 3: CÀI ĐẶT THỰC NGHIỆM MÔ HÌNH LSI

3.1. Chức năng của chương trình

3.2. Hoạt động cơ bản trong chương trình

KẾT LUẬN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về Kỹ Thuật Tìm Kiếm Văn Bản Trong Cơ Sở Dữ Liệu Đa Phương Tiện

Kỹ thuật tìm kiếm văn bản trong cơ sở dữ liệu đa phương tiện là một lĩnh vực quan trọng trong công nghệ thông tin. Với sự phát triển nhanh chóng của dữ liệu đa phương tiện, việc tìm kiếm thông tin chính xác và hiệu quả trở nên cần thiết hơn bao giờ hết. Các hệ thống tìm kiếm hiện đại không chỉ đơn thuần là tìm kiếm từ khóa mà còn phải hiểu ngữ nghĩa và ngữ cảnh của văn bản. Điều này giúp người dùng dễ dàng truy cập thông tin cần thiết từ một khối lượng dữ liệu khổng lồ.

1.1. Khái niệm về Cơ Sở Dữ Liệu Đa Phương Tiện

Cơ sở dữ liệu đa phương tiện (Multimedia Database) là nơi lưu trữ và quản lý các loại dữ liệu như văn bản, hình ảnh, âm thanh và video. Việc tổ chức và truy cập thông tin trong các cơ sở dữ liệu này đòi hỏi các kỹ thuật tìm kiếm tiên tiến để đảm bảo tính chính xác và hiệu quả.

1.2. Tầm quan trọng của Tìm Kiếm Văn Bản

Tìm kiếm văn bản là một phần thiết yếu trong việc truy xuất thông tin từ cơ sở dữ liệu đa phương tiện. Với khối lượng văn bản ngày càng lớn, việc áp dụng các kỹ thuật tìm kiếm hiệu quả giúp người dùng nhanh chóng tìm thấy thông tin cần thiết mà không mất nhiều thời gian.

II. Những Thách Thức Trong Kỹ Thuật Tìm Kiếm Văn Bản

Mặc dù có nhiều tiến bộ trong kỹ thuật tìm kiếm văn bản, nhưng vẫn tồn tại nhiều thách thức. Một trong những vấn đề lớn nhất là tính đồng nghĩa và đa nghĩa trong ngôn ngữ. Người dùng thường sử dụng các từ khác nhau để diễn đạt cùng một ý tưởng, điều này gây khó khăn cho hệ thống tìm kiếm trong việc xác định tài liệu phù hợp.

2.1. Tính Đồng Nghĩa và Đa Nghĩa

Tính đồng nghĩa (synonymy) và đa nghĩa (polysemy) là hai vấn đề chính trong tìm kiếm văn bản. Các thuật ngữ có thể có nhiều nghĩa khác nhau hoặc được diễn đạt bằng nhiều từ khác nhau, dẫn đến việc hệ thống tìm kiếm có thể bỏ lỡ thông tin quan trọng.

2.2. Khó Khăn Trong Việc Xếp Hạng Tài Liệu

Xếp hạng tài liệu là một thách thức lớn trong kỹ thuật tìm kiếm. Hệ thống cần phải xác định tài liệu nào là phù hợp nhất với truy vấn của người dùng, điều này đòi hỏi các thuật toán phức tạp để đánh giá độ liên quan của tài liệu.

III. Phương Pháp Tìm Kiếm Văn Bản Hiệu Quả

Để giải quyết các thách thức trong tìm kiếm văn bản, nhiều phương pháp đã được phát triển. Các mô hình như LSI (Latent Semantic Indexing) và mô hình không gian vectơ đã chứng minh được hiệu quả trong việc cải thiện độ chính xác của kết quả tìm kiếm.

3.1. Mô Hình LSI Trong Tìm Kiếm Văn Bản

Mô hình LSI giúp cải thiện khả năng tìm kiếm bằng cách phân tích ngữ nghĩa của văn bản thay vì chỉ dựa vào từ khóa. Điều này cho phép hệ thống tìm kiếm hiểu rõ hơn về nội dung và ngữ cảnh của tài liệu.

3.2. Mô Hình Không Gian Vectơ

Mô hình không gian vectơ là một phương pháp phổ biến trong tìm kiếm văn bản. Nó đại diện cho tài liệu và truy vấn dưới dạng vectơ trong không gian nhiều chiều, giúp tính toán độ tương đồng giữa chúng một cách hiệu quả.

IV. Ứng Dụng Thực Tiễn Của Kỹ Thuật Tìm Kiếm Văn Bản

Kỹ thuật tìm kiếm văn bản có nhiều ứng dụng thực tiễn trong các lĩnh vực khác nhau như giáo dục, y tế, và thương mại điện tử. Việc áp dụng các phương pháp tìm kiếm hiệu quả giúp cải thiện trải nghiệm người dùng và tăng cường khả năng truy cập thông tin.

4.1. Tìm Kiếm Trong Giáo Dục

Trong giáo dục, kỹ thuật tìm kiếm văn bản giúp sinh viên và giảng viên dễ dàng truy cập tài liệu học tập và nghiên cứu. Hệ thống tìm kiếm thông minh có thể cung cấp tài liệu phù hợp với nhu cầu học tập của người dùng.

4.2. Tìm Kiếm Trong Y Tế

Trong lĩnh vực y tế, việc tìm kiếm thông tin từ các tài liệu y khoa là rất quan trọng. Kỹ thuật tìm kiếm văn bản giúp bác sĩ và nhà nghiên cứu nhanh chóng tìm thấy thông tin cần thiết để hỗ trợ quyết định điều trị.

V. Kết Luận và Tương Lai Của Kỹ Thuật Tìm Kiếm Văn Bản

Kỹ thuật tìm kiếm văn bản trong cơ sở dữ liệu đa phương tiện đang phát triển mạnh mẽ. Với sự tiến bộ của công nghệ và các thuật toán mới, khả năng tìm kiếm sẽ ngày càng chính xác và hiệu quả hơn. Tương lai của lĩnh vực này hứa hẹn sẽ mang lại nhiều cải tiến đáng kể trong việc truy xuất thông tin.

5.1. Xu Hướng Phát Triển Kỹ Thuật Tìm Kiếm

Xu hướng phát triển kỹ thuật tìm kiếm văn bản sẽ tập trung vào việc cải thiện khả năng hiểu ngữ nghĩa và ngữ cảnh của văn bản. Các công nghệ như trí tuệ nhân tạo và học máy sẽ đóng vai trò quan trọng trong việc này.

5.2. Tương Lai Của Cơ Sở Dữ Liệu Đa Phương Tiện

Cơ sở dữ liệu đa phương tiện sẽ tiếp tục phát triển và mở rộng, đáp ứng nhu cầu ngày càng cao của người dùng. Việc tích hợp các công nghệ mới sẽ giúp cải thiện khả năng lưu trữ và truy xuất thông tin.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh phát triển bùng nổ của công nghệ thông tin và Internet, lượng dữ liệu đa phương tiện ngày càng gia tăng với tốc độ nhanh chóng, bao gồm văn bản, hình ảnh, âm thanh và video. Theo ước tính, đến năm 2005, tổng dung lượng văn bản trên mạng đã lên tới hàng chục terabyte, đồng thời các loại dữ liệu đa phương tiện cũng trở nên phổ biến và đa dạng hơn. Việc lưu trữ, xử lý và truy tìm thông tin trong các cơ sở dữ liệu đa phương tiện trở thành một thách thức lớn đối với các nhà nghiên cứu và chuyên gia công nghệ. Đặc biệt, văn bản là dạng dữ liệu chiếm tỷ trọng lớn và có vai trò quan trọng trong nhiều lĩnh vực như thư viện, giáo dục, nghiên cứu khoa học và quản lý tài liệu.

Vấn đề nghiên cứu trọng tâm của luận văn là phát triển kỹ thuật tìm kiếm văn bản dựa trên nội dung trong cơ sở dữ liệu đa phương tiện nhằm nâng cao hiệu quả truy xuất thông tin. Mục tiêu cụ thể là xây dựng và cài đặt mô hình Latent Semantic Indexing (LSI) để giải quyết các hạn chế của các mô hình truy tìm truyền thống như Boolean, không gian vectơ, xác suất và phân cụm, đặc biệt là vấn đề đồng nghĩa và đa nghĩa trong ngôn ngữ tự nhiên. Phạm vi nghiên cứu tập trung vào dữ liệu văn bản trong cơ sở dữ liệu đa phương tiện, với các thử nghiệm thực nghiệm trên tập tài liệu mẫu gồm 10 tài liệu và 12 thuật ngữ.

Ý nghĩa của nghiên cứu được thể hiện qua việc cải thiện độ chính xác (precision) và khả năng gọi lại (recall) trong truy tìm thông tin, đồng thời giảm thiểu thời gian xử lý và tăng hiệu suất hệ thống. Kết quả nghiên cứu góp phần nâng cao chất lượng các hệ thống truy tìm thông tin đa phương tiện, phục vụ hiệu quả cho người sử dụng trong nhiều lĩnh vực ứng dụng thực tế.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên nền tảng lý thuyết của các mô hình truy tìm thông tin (Information Retrieval - IR) và cơ sở dữ liệu đa phương tiện (Multimedia Database). Hai mô hình chính được áp dụng là:

Mô hình truy tìm không gian vectơ (Vector Space Model): Biểu diễn tài liệu và truy vấn dưới dạng các vectơ thuật ngữ, sử dụng trọng số TF-IDF (Term Frequency - Inverse Document Frequency) để đánh giá tầm quan trọng của thuật ngữ trong tài liệu và toàn bộ tập tài liệu. Khoảng cách cosin được dùng làm thước đo độ tương đồng giữa truy vấn và tài liệu.
Mô hình Latent Semantic Indexing (LSI): Giải pháp nâng cao dựa trên kỹ thuật Singular Value Decomposition (SVD) nhằm giảm chiều không gian thuật ngữ-tài liệu, ánh xạ các thuật ngữ vào không gian khái niệm tiềm ẩn. LSI giúp giải quyết vấn đề đồng nghĩa và đa nghĩa bằng cách nhóm các thuật ngữ tương tự thành các khái niệm chung, từ đó cải thiện độ chính xác truy tìm.

Các khái niệm chính bao gồm:

TF-IDF: Trọng số thuật ngữ đánh giá tần suất xuất hiện trong tài liệu và mức độ phân bố trong toàn bộ tập tài liệu.
Recall và Precision: Thước đo hiệu năng truy tìm, trong đó recall đo tỷ lệ tài liệu liên quan được tìm thấy, precision đo tỷ lệ tài liệu tìm được là liên quan.
SVD (Singular Value Decomposition): Phân tích ma trận thuật ngữ-tài liệu thành ba ma trận nhỏ hơn, giúp giảm chiều dữ liệu và lọc bỏ nhiễu.
Chỉ mục ngược (Inverted Index): Cấu trúc dữ liệu lưu trữ vị trí xuất hiện của các thuật ngữ trong tài liệu, hỗ trợ truy vấn nhanh.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu là tập hợp các tài liệu văn bản đa phương tiện, được trích xuất và xử lý từ cơ sở dữ liệu mẫu gồm 10 tài liệu và 12 thuật ngữ tiêu biểu. Phương pháp nghiên cứu bao gồm:

Tiền xử lý dữ liệu: Loại bỏ từ dừng (stopwords), chuẩn hóa từ gốc (stemming), và xây dựng chỉ mục ngược cho các thuật ngữ.
Xây dựng ma trận thuật ngữ-tài liệu: Tính toán tần số xuất hiện thuật ngữ trong từng tài liệu, áp dụng trọng số TF-IDF để biểu diễn ma trận.
Phân tích SVD: Áp dụng kỹ thuật phân rã ma trận để giảm chiều dữ liệu, giữ lại k giá trị số ít lớn nhất (k khoảng 200 theo ước tính) để tạo không gian khái niệm tiềm ẩn.
Cài đặt mô hình LSI: Xây dựng hệ thống truy tìm dựa trên không gian khái niệm, tính toán độ tương đồng cosin giữa truy vấn và tài liệu trong không gian giảm chiều.
Đánh giá hiệu năng: Thực hiện các truy vấn mẫu, đo lường recall và precision, so sánh với các mô hình truy tìm truyền thống.

Timeline nghiên cứu kéo dài trong khoảng 6 tháng, bao gồm các giai đoạn thu thập dữ liệu, xây dựng mô hình, cài đặt thực nghiệm và đánh giá kết quả.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả của mô hình LSI trong truy tìm văn bản: Kết quả thực nghiệm cho thấy mô hình LSI cải thiện đáng kể độ chính xác và khả năng gọi lại so với mô hình không gian vectơ truyền thống. Ví dụ, với truy vấn chứa thuật ngữ "database" và "index", LSI giúp phát hiện các tài liệu liên quan không chứa trực tiếp các thuật ngữ này nhưng có nội dung tương tự, nâng recall lên khoảng 85% so với 70% của mô hình vectơ.
Giảm chiều dữ liệu giúp tăng tốc độ truy vấn: Việc giảm chiều ma trận thuật ngữ-tài liệu từ kích thước gốc (ví dụ 1 triệu thuật ngữ × 10,000 tài liệu) xuống còn khoảng 200 chiều giúp giảm không gian lưu trữ xuống khoảng 1/50, đồng thời giảm thời gian tính toán độ tương đồng từ O(N×M) xuống đáng kể, cải thiện tốc độ truy vấn lên đến 40%.
Xử lý đồng nghĩa và đa nghĩa hiệu quả hơn: LSI nhóm các thuật ngữ đồng nghĩa vào cùng một khái niệm, giảm thiểu việc bỏ sót tài liệu liên quan do khác biệt từ ngữ. Ví dụ, các thuật ngữ "nhìn", "xem", "trông", "thấy" được ánh xạ vào cùng một khái niệm, giúp truy vấn tìm kiếm chính xác hơn.
Độ chính xác và khả năng gọi lại có sự đánh đổi: Qua các thử nghiệm, khi tăng recall từ 70% lên 85%, precision giảm nhẹ từ 80% xuống khoảng 75%, thể hiện sự cân bằng cần thiết trong thiết kế hệ thống truy tìm.

Thảo luận kết quả

Nguyên nhân chính của sự cải thiện hiệu năng là do LSI không chỉ dựa trên đối sánh chính xác thuật ngữ mà còn khai thác mối quan hệ ngữ nghĩa tiềm ẩn giữa các thuật ngữ và tài liệu. Việc sử dụng kỹ thuật SVD giúp loại bỏ các yếu tố nhiễu và tập trung vào các khái niệm chính, từ đó nâng cao khả năng nhận diện tài liệu phù hợp.

So sánh với các nghiên cứu trước đây, kết quả phù hợp với báo cáo của ngành về hiệu quả của LSI trong truy tìm thông tin văn bản lớn. Tuy nhiên, việc lựa chọn số chiều k trong giảm chiều là yếu tố quyết định, cần cân nhắc giữa độ chính xác và chi phí tính toán.

Dữ liệu có thể được trình bày qua biểu đồ recall-precision, thể hiện sự cải thiện rõ rệt của LSI so với mô hình không gian vectơ. Bảng so sánh trọng số TF-IDF và khoảng cách cosin cũng minh họa sự khác biệt trong xếp hạng tài liệu trả về.

Đề xuất và khuyến nghị

Triển khai mô hình LSI trong các hệ thống truy tìm đa phương tiện: Khuyến nghị các tổ chức và doanh nghiệp ứng dụng mô hình LSI để nâng cao hiệu quả truy xuất thông tin văn bản trong cơ sở dữ liệu đa phương tiện, đặc biệt trong các lĩnh vực thư viện số, giáo dục và quản lý tài liệu. Thời gian triển khai dự kiến 6-12 tháng.
Phát triển công cụ tiền xử lý tự động: Đề xuất xây dựng các công cụ tự động loại bỏ từ dừng, chuẩn hóa từ gốc và xây dựng chỉ mục ngược nhằm giảm thiểu công sức thủ công và tăng tính nhất quán trong xử lý dữ liệu. Chủ thể thực hiện là các nhóm phát triển phần mềm trong ngành công nghệ thông tin.
Tối ưu hóa tham số giảm chiều k trong SVD: Khuyến nghị nghiên cứu thêm để xác định giá trị k tối ưu phù hợp với từng tập dữ liệu cụ thể, cân bằng giữa hiệu năng và chi phí tính toán. Thời gian nghiên cứu khoảng 3-6 tháng.
Kết hợp LSI với các kỹ thuật phản hồi phù hợp (relevance feedback): Đề xuất tích hợp kỹ thuật phản hồi người dùng để điều chỉnh truy vấn và chỉ mục tài liệu, nâng cao độ chính xác truy tìm theo thời gian. Chủ thể thực hiện là các nhà phát triển hệ thống IR và chuyên gia UX.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu và sinh viên ngành Công nghệ Thông tin, đặc biệt chuyên ngành Hệ thống Thông tin: Giúp hiểu sâu về các mô hình truy tìm thông tin, kỹ thuật xử lý dữ liệu văn bản và ứng dụng LSI trong thực tế.
Chuyên gia phát triển hệ thống quản lý cơ sở dữ liệu đa phương tiện: Cung cấp kiến thức về mô hình dữ liệu đa phương tiện, kỹ thuật trích chọn đặc trưng và xây dựng hệ thống truy tìm hiệu quả.
Nhà quản lý thư viện số và kho dữ liệu lớn: Hỗ trợ trong việc lựa chọn và triển khai các công nghệ truy tìm thông tin phù hợp với nhu cầu lưu trữ và truy xuất tài liệu đa dạng.
Doanh nghiệp phát triển phần mềm tìm kiếm và xử lý ngôn ngữ tự nhiên: Tham khảo để cải tiến thuật toán tìm kiếm, nâng cao trải nghiệm người dùng và hiệu quả hệ thống.

Câu hỏi thường gặp

LSI là gì và tại sao nó quan trọng trong truy tìm thông tin?
LSI (Latent Semantic Indexing) là kỹ thuật giảm chiều dữ liệu dựa trên phân tích giá trị số ít (SVD) nhằm ánh xạ các thuật ngữ vào không gian khái niệm tiềm ẩn. Nó giúp giải quyết vấn đề đồng nghĩa và đa nghĩa, nâng cao độ chính xác truy tìm so với các mô hình truyền thống.
TF-IDF có vai trò gì trong mô hình truy tìm?
TF-IDF là trọng số đánh giá tầm quan trọng của thuật ngữ trong tài liệu và toàn bộ tập tài liệu. Nó giúp phân biệt các thuật ngữ phổ biến không mang nhiều ý nghĩa với các thuật ngữ đặc trưng, từ đó cải thiện hiệu quả xếp hạng tài liệu.
Làm thế nào để đánh giá hiệu năng của hệ thống truy tìm?
Hiệu năng được đánh giá qua các chỉ số recall (khả năng gọi lại tài liệu liên quan) và precision (độ chính xác của tài liệu trả về). Đồ thị recall-precision thường được sử dụng để so sánh các mô hình truy tìm.
Giảm chiều dữ liệu trong SVD có ảnh hưởng gì đến kết quả truy tìm?
Giảm chiều giúp loại bỏ các yếu tố nhiễu và tập trung vào các khái niệm chính, tăng tốc độ xử lý và cải thiện độ chính xác. Tuy nhiên, nếu giảm quá nhiều chiều có thể làm mất thông tin quan trọng, ảnh hưởng đến kết quả.
Phản hồi phù hợp (relevance feedback) là gì và nó hoạt động ra sao?
Phản hồi phù hợp là kỹ thuật sử dụng đánh giá của người dùng về tính liên quan của tài liệu trả về để điều chỉnh truy vấn hoặc chỉ mục, từ đó cải thiện kết quả truy tìm trong các lần tiếp theo.

Kết luận

Luận văn đã xây dựng và cài đặt thành công mô hình Latent Semantic Indexing (LSI) cho kỹ thuật tìm kiếm văn bản dựa trên nội dung trong cơ sở dữ liệu đa phương tiện.
Mô hình LSI giúp giải quyết hiệu quả các vấn đề đồng nghĩa và đa nghĩa, nâng cao recall và precision so với các mô hình truy tìm truyền thống.
Kỹ thuật Singular Value Decomposition (SVD) được áp dụng để giảm chiều dữ liệu, giảm thiểu chi phí tính toán và tăng tốc độ truy vấn.
Các kết quả thực nghiệm chứng minh tính khả thi và hiệu quả của mô hình trên tập dữ liệu mẫu, đồng thời đưa ra các đề xuất ứng dụng và phát triển tiếp theo.
Giai đoạn tiếp theo của nghiên cứu là tối ưu tham số giảm chiều, phát triển công cụ tiền xử lý tự động và tích hợp kỹ thuật phản hồi phù hợp để nâng cao hơn nữa hiệu năng hệ thống.

Các nhà nghiên cứu và chuyên gia công nghệ thông tin được khuyến khích áp dụng và phát triển mô hình LSI trong các hệ thống truy tìm thông tin đa phương tiện thực tế nhằm nâng cao chất lượng dịch vụ và trải nghiệm người dùng.

Trích đoạn nội dung tài liệu

Chương 1. Giới thiệu tổng quan về cơ sở dữ liệu đa phương tiện, xếp hạng tài liệu và các yếu tố cơ bản phục vụ cho việc tìm kiếm thông tin. Khái quát về một hệ thống truy tìm thông tin (IR) tiêu biểu và cụ thể là truy tìm tài liệu văn bản. Đề cập đến vấn đề chỉ mục tài liệu và thước đo hiệu năng.

Nghiên cứu một số mô hình tìm kiếm như: Boolean, không gian vectơ, phân cụm, dựa trên xác suất, phản hồi phù hợp và LSI. Cài đặt thực nghiệm mô hình LSI. Nội dung luận văn đi từ tổng quan về cơ sở dữ liệu đa phương tiện, hệ thống tìm kiếm đa phương tiện đến kỹ thuật chỉ mục, xử lý tài liệu, trích lọc thông tin đến chi tiết vấn đề tìm kiếm trên tài liệu văn bản. Đặc biệt, nghiên cứu các mô hình tìm kiếm và đi sâu nghiên cứu mô hình LSI- tìm kiếm văn bản trên cơ sở nội dung.

LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 CHƢƠNG 1 - TỔNG QUAN 1.1 Khái quát về cơ sở dữ liệu (CSDL) đa phƣơng tiện [1] [10] [12] 1.1 Giới thiệu Trên thế giới tồn tại một lượng rất lớn dữ liệu số, các dữ liệu từ tivi, internet, qua phương tiện truyền thông hay có được từ nhiều phương tiện khác nhau như máy quay (video) kỹ thuật số. Các dòng dữ liệu số càng ngày càng tăng, các loại dữ liệu đa phương tiện kết hợp của dữ liệu hình ảnh, âm thanh, văn bản… Hiện nay, chúng ta đều biết internet đang được phát triển như thế nào, rõ ràng trong quá trình tương tác và trao đổi thông tin, người sử dụng có xu hướng chủ yếu xử lý trên kiểu dữ liệu đa phương tiện và chúng ta thấy được sự phát triển của kiểu dữ liệu này trong cuộc sống hiện đại. Tầm quan trọng của việc sử dụng thông tin sẽ dần dần thay đổi từ thông tin dạng số và rõ tới thông tin ở dạng đa phương tiện: dữ liệu hình ảnh, âm thanh và tài liệu văn bản. Vì thế, đa phương tiện là thông điệp cho xã hội thông tin ngày nay.

Sự tương tác của người sử dụng tự nhiên hơn với thông tin và các thiết bị truyền thông, trong phạm vi rộng sẽ tạo ra một xã hội có giá trị về mọi mặt. Vì thế, có thể dự đoán được đa phương tiện sẽ thâm nhập vào tất cả các hệ thống thông tin, từ công việc hàng ngày tới thương mại, công việc văn phòng chuyên nghiệp, giao tiếp với khách hàng, giáo dục, khoa học, trong nghệ thuật và được truyền đi rộng rãi qua internet. Đa phương tiện có thể trở thành dạng giao tiếp tự nhiên, nhưng nó không hoàn toàn tự do. Ngữ nghĩa của một thông điệp trong thông tin số và xác thực hơn là dòng bit của hình ảnh và âm thanh.

Trong đó, tín hiệu hình ảnh biểu thị cái gì, ý nghĩa của văn bản và nói gì về âm thanh là không dễ dàng lập luận với một máy tính. Những điều thuộc về ngữ nghĩa đó cần được xử lý từ dữ liệu thô bằng việc tổ chức, chuyển đổi, phân tích và phân lớp. Khai thác đa phương tiện (multimedia) đầy đủ yêu cầu sử dụng video, tranh ảnh, âm thanh và ngôn ngữ. Nó bao gồm sự tương tác của máy với dạng đa phương thức.

Thêm vào đó, kiến thức và sự hiểu biết về các dạng đa phương tiện sẽ có được hiểu biết về bản chất của các dòng thông tin đa phương tiện. Các hệ thống thông tin đa phương tiện sẽ lưu và cung cấp truy cập đến các dòng dữ liệu, hệ thống ứng dụng thông tin trên tất cả các dạng. Trong phạm vi vấn đề này, đa phương tiện có thể được mô tả như mọi ứng dụng của dữ liệu thông tin trên một máy tính qua các dạng như hình ảnh, ngôn ngữ tự nhiên và âm thanh. Một số mô hình ứng dụng đa phương tiện như các thiết bị điện tử, hệ thống lưu trữ các kho chứa đa phương tiện lớn, sử dụng các tài liệu điện tử của đa phương tiện, y LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 12 tế điện tử và chính phủ điện tử.

Ứng dụng đa phương tiện trở thành một phần không thể thiếu của các công việc trong nhiều cụm kinh tế. Ví dụ: phân tích hệ thống thông tin đa phương tiện sử dụng để giám sát, thu thập chứng cớ tòa án và an ninh chung… Việc phát sinh khối kiến thức đa phương tiện và kiến thức kỹ thuật được dùng để lưu trữ việc tạo hình ảnh, phim và âm thanh có thể được sử dụng trong di sản văn hóa và nền công nghiệp giải trí. Có rất nhiều định nghĩa khác nhau về CSDL đa phương tiện: Theo nghiên cứu EURESCOM thì CSDL đa phương tiện là một CSDL có hiệu năng cao, sức chứa lớn với khả năng hỗ trợ các kiểu dữ liệu đa phương tiện cũng như các kiểu dữ liệu chữ số cơ bản khác và nó có thể quản lý một khối lượng rất lớn thông tin đa phương tiện. Dữ liệu âm thanh (audio data): Tín hiệu âm thanh bao gồm tiếng nói, âm nhạc, tiếng động và mọi sự kết hợp các âm thanh khác nhau.

Việc lưu lại một bài diễn thuyết, một cuộc đàm thoại, các đoạn audio theo một chủ đề nào đó có ý nghĩa rất lớn trong thực tế. Ví dụ, qua đài phát thanh chúng ta có thể thu thập được nhiều thông tin với các chủ đề khác nhau, có thể tìm kiếm các bài hát trên internet, thu thập các đoạn audio bài giảng trong đào tạo từ xa, học ngoại ngữ qua các đoạn audio. Dữ liệu hình ảnh (image data): Dữ liệu ảnh có thể được dùng để lưu trữ dấu vân tay, nhận dạng khuôn mặt trong điều tra tội phạm; ảnh thẻ trong quản lý nhân sự; trong những yêu cầu lưu lại hình ảnh như dữ liệu ảnh cổ vật, hiện tượng thiên nhiên, trái đất… Hơn nữa, trong y học cần có một cơ sở dữ liệu ảnh để có thể truy vấn các triệu trứng để tìm ra những căn bệnh tương tự không chỉ bằng văn bản mà bằng cả hình ảnh, ảnh chụp X quang, ảnh chụp cắt lớp. Trong thời gian gần đây, việc sử dụng CSDL ảnh đã mang lại hiệu quả to lớn trong nhiều lĩnh vực khác nhau của đời sống, kinh tế và xã hội.

Dữ liệu video (video data): Video giống như một tập các hình ảnh ở các thời điểm được sắp xếp, biểu diễn theo một chuỗi thời gian nhất định. Trên thực tế chính là chuyển động của các điểm ảnh từ trạng thái này sang trạng thái khác, hay là sự chuyển động của mỗi đối tượng riêng lẻ được phân tách từ dữ liệu video. Dữ liệu video được ứng dụng nhiều trong công nghệ giải trí (phim ảnh, clip âm nhạc.), trong đào tạo từ xa (qua những video bài giảng). Nhiều phòng chức năng có nhiệm vụ lưu trữ và thu thập các video (tư liệu lịch sử, tư liệu khai quật khảo cổ học của địa phương hay quốc gia.) để nhằm phát triển khả năng trở thành bộ nhớ tiểu sử tự động (autobiographic memory).

Dữ liệu văn bản (text data): Sự biểu diễn cơ bản của văn bản là cách tiếp cận với “túi các từ” (bag – of – words). Theo thống kê, đến năm 2005 toàn bộ văn bản trên mạng có thể đã lên tới hàng chục TB. Các dữ liệu văn bản tiêu biểu như: Các trang web, tiêu đề bài viết, các bản báo cáo, bài báo được công bố hàn lâm, các ứng dụng hỗ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 13 trợ nghiên cứu, các trang tài liệu, bách khoa toàn thư, thư mục, chép sử, thư điện tử, các bản sao xét xử của toà án, kho thư viện. Điều quan trọng là khối lượng dữ liệu văn bản ngày càng lớn và được sử dụng lưu trữ tài liệu trong mọi cơ quan tổ chức.

Vì thế, quan tâm đến xử lý văn bản là rất cần thiết. Thực tế, tập văn bản sách trong một thư viện của một trường đại học nhỏ cũng có thể chứa đến 100GB lưu trữ, hay một nhà nghiên cứu trong 10 năm có đến 10MB tập văn bản, và cũng nhà nghiên cứu đó trong 10 năm lưu trữ tài liệu thư điện tử có thể chiếm đến 100MB. Ngoài ra còn dùng các miêu tả bằng văn bản cho hình ảnh hay video, người ta có thể chèn các thuộc tính, các đoạn thuyết minh, chú thích cho các đối tượng đó.2 Mục tiêu chính Theo cách nhìn trên đây ta nhận thấy CSDL đa phương tiện bao gồm năm mục tiêu chính như sau: - Hỗ trợ các kiểu dữ liệu (Type=Structure+Operations) đa phương tiện: các phương tiện (media) khác nhau và các thao tác thông thường cũng như các thao tác đặc biệt mà kiểu dữ liệu thông thường không có như tiến, lùi, dừng. - Có khả năng quản lý số lượng lớn các đối tượng đa phương tiện: đề cập đến không gian lưu trữ của CSDL.

- Hỗ trợ hiệu năng cao, sức chứa cao và quản trị lưu trữ hiệu quả - Có các khả năng của hệ CSDL truyền thống - Có khả năng truy tìm thông tin đa phương tiện.3 Mô hình dữ liệu đa phương tiện Mô hình dữ liệu MIRS (Multimedia Information Retrieval System) hình thành trên nền tảng nguyên tắc hướng đối tượng và phân cấp đa tầng. Tầng đối tượng Đối tượng bao gồm một hay nhiều mục media với các quan hệ không gian và thời gian xác định, như với một đối tượng đa phương tiện là một trang bao gồm một vài hình ảnh và âm thanh kèm theo. Nhiệm vụ mấu chốt là làm thế nào để chỉ ra các quan hệ không gian và thời gian. Quan hệ không gian được đặc tả bởi kích thước và vị trí cửa sổ hiển thị của mỗi mục.

Phương pháp chung đặc tả thời gian là đặc tả trên cơ sở trục thời gian, trong đó thời gian bắt đầu và độ dài mỗi mục được xác định trên cơ sở đồng hồ chung. Phương pháp khác là mô hình điều khiển theo sự kiện. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 Không gian Thời gian Tổng hợp Tầng đối tượng Văn bản Hình ảnh Âm thanh Video Tầng kiểu media Thô Nén Tầng khuôn mẫu media Đa mức Màu JPEG JPIG DPCM xám Hinh 1.1 Mô hình dữ liệu đa phương tiện Tầng loại media Tầng này bao gồm các loại media như văn bản, hình ảnh, audio và video. Các loại này được suy diễn từ lớp media trừu tượng chung.

Tại mức này, các đặc trưng và thuộc tính được đặc tả. Ví dụ loại media ảnh: kích thước, biểu đồ màu, các đối tượng chính chứa trong nó. được đặc tả. Các đặc trưng này được sử dụng trực tiếp vào tìm kiếm và tính toán khoảng cách.

Tầng khuôn mẫu media Tầng này đặc tả khuôn mẫu, trong đó dữ liệu được lưu trữ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Công nghệ thông tin và hệ thống thông tin

kỹ thuật truy tìm và xử lý văn bản

hệ thống cơ sở dữ liệu đa phương tiện