Bài giảng Các Thuật Toán Nén Dữ Liệu - RLE, Huffman (Nguyễn Tri Tuấn - ĐH.HCM)

Tài liệu nghiên cứu 15 các thuật toán nén dữ liệu chuong 6 cac thuat toan nen, tổng hợp lý thuyết và thực hành, cung cấp kiến thức chuyên sâu về toán học.

Người đăng

Ẩn danh

Phí lưu trữ

30 Point

Tóm tắt

I. Tổng quan các thuật toán nén dữ liệu và vai trò cốt lõi

Trong kỷ nguyên số, dữ liệu được tạo ra với tốc độ chưa từng có. Việc quản lý, lưu trữ và truyền tải khối lượng dữ liệu khổng lồ này đặt ra nhiều thách thức. Các thuật toán nén dữ liệu ra đời như một giải pháp nền tảng, đóng vai trò then chốt trong việc tối ưu hóa tài nguyên. Mục đích chính của việc nén dữ liệu không chỉ dừng lại ở việc giảm kích thước tệp để tiết kiệm không gian lưu trữ trên ổ cứng hay máy chủ. Nó còn có ý nghĩa quan trọng trong việc tăng tốc độ truyền dữ liệu qua mạng, giảm băng thông yêu cầu và chi phí liên quan. Theo tài liệu của Nguyễn Tri Tuấn (ĐH.HCM), mục đích của nén dữ liệu bao gồm: Giảm kích thước dữ liệu khi lưu trữ và truyền tải, đồng thời tăng tính bảo mật. Về cơ bản, quá trình này bao gồm hai hoạt động chính: mã hóa (Encoding) và giải mã (Decoding) hay giải nén dữ liệu. Dữ liệu gốc được đưa qua một thuật toán mã hóa để tạo ra một phiên bản có kích thước nhỏ hơn. Khi cần sử dụng, dữ liệu đã nén sẽ được đưa qua một thuật toán giải mã tương ứng để khôi phục lại trạng thái ban đầu hoặc gần đúng với ban đầu. Hiệu quả của quá trình này phụ thuộc rất nhiều vào phương pháp nén được lựa chọn và đặc trưng của chính dữ liệu đó.

1.1. Mục đích và ý nghĩa của việc nén dữ liệu hiện nay

Mục đích cơ bản của nén dữ liệu là giảm thiểu sự dư thừa thông tin trong một tập dữ liệu. Dữ liệu trong thực tế thường chứa các mẫu lặp lại hoặc các thông tin có thể dự đoán được. Các thuật toán nén dữ liệu khai thác các đặc điểm này để biểu diễn thông tin một cách cô đọng hơn. Ý nghĩa của việc này vượt ra ngoài phạm vi lưu trữ. Trong truyền thông đa phương tiện, việc nén hình ảnh và nén âm thanh cho phép streaming video và nhạc trực tuyến một cách mượt mà, ngay cả với kết nối mạng có băng thông hạn chế. Trong lĩnh vực sao lưu và phục hồi dữ liệu, nén tệp tin giúp giảm đáng kể thời gian và không gian cần thiết, làm cho quy trình trở nên hiệu quả hơn. Hơn nữa, một số kỹ thuật nén còn tích hợp yếu tố mã hóa, góp phần tăng cường tính bảo mật cho thông tin nhạy cảm khi được truyền đi hoặc lưu trữ.

1.2. Các thuật ngữ cơ bản Encoding Decoding Lossless Lossy

Để hiểu sâu về các thuật toán nén dữ liệu, cần nắm vững một số thuật ngữ nền tảng. Encoding (Mã hóa) là quá trình chuyển đổi dữ liệu từ dạng gốc sang dạng đã được nén. Decoding (Giải mã) là quá trình ngược lại, khôi phục dữ liệu từ dạng nén về dạng ban đầu. Hai hình thức nén chính là Lossless Compression (nén không tổn hao) và Lossy Compression (nén tổn hao). Nén không tổn hao đảm bảo rằng dữ liệu sau khi giải nén hoàn toàn giống hệt dữ liệu gốc, không có bất kỳ thông tin nào bị mất mát. Ngược lại, nén tổn hao chấp nhận loại bỏ một số thông tin được cho là không quan trọng hoặc khó nhận biết bởi con người để đạt được tỷ lệ nén cao hơn. Các thuật ngữ khác như Run-Length, Entropy, Dictionary-based cũng là những khái niệm cốt lõi, định hình nên các phương pháp nén khác nhau.

II. Phân loại 2 hình thức nén Nén tổn hao và không tổn hao

Việc lựa chọn giữa nén không tổn hao (lossless compression) và nén tổn hao (lossy compression) là một quyết định quan trọng, phụ thuộc hoàn toàn vào yêu cầu của ứng dụng và bản chất của dữ liệu. Sự khác biệt cơ bản giữa chúng nằm ở việc bảo toàn thông tin. Theo tài liệu nghiên cứu, nén không tổn hao đảm bảo không mất mát thông tin nguyên thủy, trong khi nén tổn hao chấp nhận mất mát để đạt hiệu suất cao hơn. Đối với các loại dữ liệu mà mỗi bit thông tin đều quan trọng, chẳng hạn như nén văn bản, mã nguồn chương trình, hay dữ liệu y tế, việc sử dụng nén không tổn hao là bắt buộc. Bất kỳ sự thay đổi nhỏ nào cũng có thể làm sai lệch hoàn toàn ý nghĩa hoặc gây ra lỗi nghiêm trọng. Ngược lại, với dữ liệu đa phương tiện như hình ảnh, âm thanh, video, các giác quan của con người có những giới hạn nhất định. Nén tổn hao lợi dụng đặc điểm này để loại bỏ các chi tiết mà mắt người hoặc tai người khó có thể nhận ra, qua đó giảm kích thước tệp một cách đáng kể. Quyết định này là sự cân bằng giữa chất lượng và kích thước.

2.1. Tìm hiểu nén không tổn hao lossless compression

Nén không tổn hao hoạt động bằng cách tìm ra các mẫu lặp lại và biểu diễn chúng một cách hiệu quả hơn mà không loại bỏ bất kỳ dữ liệu gốc nào. Dữ liệu sau khi giải nén dữ liệu sẽ giống hệt 100% so với ban đầu. Hiệu suất nén của phương pháp này thường không cao bằng nén tổn hao, dao động từ 10% đến 60% tùy thuộc vào dữ liệu. Các thuật toán tiêu biểu cho hình thức này bao gồm Run-Length Encoding (RLE), mã hóa Huffman, và thuật toán LZW. Các phần mềm nén tệp tin phổ biến như WinZip, WinRAR, 7-Zip đều sử dụng các kỹ thuật lossless compression để đảm bảo tính toàn vẹn của tệp tin khi sao lưu hoặc chia sẻ. Đây là lựa chọn duy nhất khi sự chính xác tuyệt đối của dữ liệu là ưu tiên hàng đầu.

2.2. Đặc điểm của nén tổn hao lossy compression

Nén tổn hao đạt được tỷ lệ nén ấn tượng, thường từ 40% đến 90% hoặc hơn, bằng cách loại bỏ vĩnh viễn một phần thông tin. Quá trình này được thiết kế một cách thông minh để loại bỏ những dữ liệu dư thừa hoặc ít quan trọng đối với cảm nhận của con người. Ví dụ, trong nén hình ảnh định dạng JPEG, các chi tiết về màu sắc mà mắt người kém nhạy cảm sẽ được lược bỏ. Tương tự, trong nén âm thanh MP3, các tần số âm thanh nằm ngoài ngưỡng nghe của tai người hoặc bị các âm thanh khác che lấp sẽ bị loại bỏ. Mặc dù có sự mất mát thông tin, chất lượng của sản phẩm cuối cùng vẫn ở mức chấp nhận được đối với hầu hết các ứng dụng thông thường. Các thuật toán tiêu biểu bao gồm JPEG cho hình ảnh, MP3 và AAC cho âm thanh, MPEG cho video.

2.3. Cách tính toán và ý nghĩa của tỷ lệ nén dữ liệu

Tỷ lệ nén là một chỉ số quan trọng để đánh giá hiệu suất của một thuật toán. Nó đo lường mức độ giảm kích thước của dữ liệu sau khi nén. Công thức được định nghĩa trong tài liệu của Nguyễn Tri Tuấn như sau: D (%) = (N – M)/N*100, trong đó N là kích thước dữ liệu trước khi nén và M là kích thước sau khi nén. Một tỷ lệ nén cao cho thấy thuật toán hoạt động hiệu quả trên loại dữ liệu đó. Tuy nhiên, chỉ số này không phải là yếu tố duy nhất cần xem xét. Tốc độ nén và giải nén, cũng như yêu cầu về bộ nhớ và năng lực xử lý của CPU cũng là những yếu tố quan trọng. Một thuật toán có thể cho tỷ lệ nén rất cao nhưng lại đòi hỏi thời gian xử lý quá lâu, không phù hợp cho các ứng dụng thời gian thực.

III. Khám phá Run Length Encoding RLE Kỹ thuật nén đơn giản

Run-Length Encoding (RLE) là một trong những thuật toán nén dữ liệu đơn giản và lâu đời nhất, thuộc nhóm nén không tổn hao. Nguyên tắc hoạt động của nó dựa trên một ý tưởng rất trực quan: thay vì lưu trữ một chuỗi các ký tự lặp lại liên tiếp (gọi là một 'run'), ta chỉ cần lưu trữ ký tự đó và số lần nó lặp lại. Ví dụ, chuỗi AAAAABBBCC có thể được nén thành 5A3B2C. Phương pháp này đặc biệt hiệu quả với các loại dữ liệu có nhiều vùng chứa các giá trị giống hệt nhau, chẳng hạn như ảnh đồ họa đơn sắc, icon, hoặc các bản vẽ kỹ thuật. Mặc dù đơn giản, RLE là nền tảng cho nhiều định dạng tệp phổ biến và là một ví dụ điển hình về cách khai thác sự dư thừa trong dữ liệu. Tuy nhiên, RLE cũng có nhược điểm. Với dữ liệu không có chuỗi lặp lại, ví dụ như ABCDE, việc áp dụng RLE có thể gây 'phản tác dụng', làm tăng kích thước tệp (1A1B1C1D1E). Do đó, các biến thể thực tế của RLE thường có cơ chế để xử lý trường hợp này.

3.1. Nguyên lý cơ bản và ví dụ về mã hóa theo độ dài lặp

Nguyên lý cốt lõi của Run-Length Encoding (RLE) là tìm và thay thế các chuỗi dữ liệu lặp lại. Một 'run' là một dãy các byte dữ liệu giống nhau và liên tiếp. Thay vì lưu trữ toàn bộ chuỗi, RLE chỉ lưu một cặp giá trị: <số lần lặp> và <giá trị byte>. Ví dụ, một dòng 100 pixel màu trắng trong một hình ảnh có thể được biểu diễn chỉ bằng 2 byte (ví dụ: 100, WHITE) thay vì 100 byte. Như trong tài liệu tham khảo, chuỗi AAAABBBBBBBBCCCCCCCCCCDEE (25 byte) có thể được nén thành 4A8B10C1D2E (10 byte), cho thấy hiệu quả rõ rệt khi độ dài của 'run' lớn. RLE là một dạng mã hóa từ điển sơ khai, nơi 'từ' là các ký tự và 'mã' là cặp số lượng-ký tự.

3.2. So sánh biến thể RLE trong định dạng file PCX và BMP

Trong thực tế, Run-Length Encoding (RLE) được triển khai với nhiều biến thể để khắc phục nhược điểm. Tài liệu của Nguyễn Tri Tuấn đã phân tích hai định dạng tiêu biểu là PCX và BMP.

RLE trong PCX: Sử dụng 2 bit cao của một byte làm cờ hiệu. Nếu 2 bit này được bật (11), 6 bit còn lại biểu thị số lần lặp (tối đa 63 lần) của byte dữ liệu tiếp theo. Nếu 2 bit này không được bật, byte đó đại diện cho chính nó (số lần lặp là 1). Cách này giải quyết phần lớn trường hợp 'phản tác dụng' nhưng vẫn có giới hạn về độ dài lặp và gặp vấn đề với các byte có giá trị ASCII lớn hơn 192.
RLE trong BMP: Sử dụng một cách tiếp cận khác. Dữ liệu được chia thành 2 dạng: dạng lặp và dạng không lặp. Dạng lặp được biểu diễn bằng <số lần lặp> <ký tự>. Dạng không lặp được đánh dấu bằng một mã thoát đặc biệt (escape code), theo sau là số lượng byte không lặp và chuỗi byte đó. Cách tiếp cận này linh hoạt hơn, xử lý hiệu quả cả những đoạn dữ liệu không có tính lặp lại.

IV. Phân tích mã hóa Huffman Giải pháp tối ưu dựa trên tần suất

Mã hóa Huffman, do David Huffman phát triển vào năm 1952, là một thuật toán nén không tổn hao kinh điển và cực kỳ hiệu quả. Nó là một ví dụ tiêu biểu của mã hóa entropy, dựa trên nguyên tắc cơ bản từ lý thuyết thông tin: các ký tự xuất hiện thường xuyên hơn trong dữ liệu nguồn nên được biểu diễn bằng mã bit ngắn hơn, và các ký tự ít xuất hiện hơn sẽ được biểu diễn bằng mã bit dài hơn. Thay vì sử dụng một số bit cố định (ví dụ 8 bit cho mỗi ký tự trong bảng mã ASCII), Huffman tạo ra một bộ mã có độ dài thay đổi (Variable Length Encoding). Điều này dẫn đến việc giảm đáng kể tổng số bit cần thiết để biểu diễn toàn bộ dữ liệu. Thuật toán này không phụ thuộc vào tính chất lặp lại của dữ liệu như RLE, mà dựa hoàn toàn vào phân bố tần suất của các ký tự, làm cho nó trở nên linh hoạt và có thể áp dụng rộng rãi cho nhiều loại dữ liệu, đặc biệt là nén văn bản. Hiệu quả của nó đã được chứng minh và nó trở thành một thành phần cốt lõi trong nhiều chuẩn nén hiện đại.

4.1. Quy trình xây dựng cây Huffman và tạo bảng mã bit

Quy trình nén bằng mã hóa Huffman (phiên bản tĩnh) bao gồm các bước chính. Đầu tiên, thuật toán duyệt qua toàn bộ dữ liệu để lập một bảng thống kê tần suất xuất hiện của mỗi ký tự. Dựa trên bảng này, một cây nhị phân đặc biệt gọi là 'cây Huffman' được xây dựng. Quá trình xây dựng bắt đầu bằng việc coi mỗi ký tự là một nút lá, có trọng số bằng tần suất của nó. Sau đó, thuật toán lặp đi lặp lại việc tìm hai nút có trọng số nhỏ nhất, kết hợp chúng thành một nút cha mới có trọng số bằng tổng trọng số của hai nút con. Quá trình này tiếp tục cho đến khi chỉ còn lại một nút gốc duy nhất. Từ cây Huffman hoàn chỉnh, bảng mã bit được tạo ra bằng cách duyệt từ gốc đến mỗi nút lá: đi sang nhánh trái tương ứng với bit '0', sang nhánh phải tương ứng với bit '1'. Kết quả là các ký tự có tần suất cao sẽ nằm gần gốc hơn, do đó có mã bit ngắn hơn.

4.2. So sánh Huffman tĩnh Static và Huffman động Adaptive

Có hai biến thể chính của mã hóa Huffman: tĩnh và động.

Huffman tĩnh (Static Huffman): Yêu cầu hai lần duyệt dữ liệu. Lần đầu để xây dựng bảng tần suất và cây Huffman, lần thứ hai để thực hiện mã hóa. Ngoài ra, thông tin về cây Huffman (hoặc bảng tần suất) phải được lưu lại cùng với dữ liệu nén để bộ giải nén có thể tái tạo lại cây. Điều này làm tăng kích thước tệp và đòi hỏi dữ liệu phải có sẵn toàn bộ trước khi nén.
Huffman động (Adaptive Huffman): Là một cải tiến quan trọng, chỉ cần một lần duyệt dữ liệu. Cây Huffman được xây dựng và cập nhật 'động' trong suốt quá trình nén và giải nén. Cả bộ nén và bộ giải nén đều bắt đầu với một cây rỗng và tự động cập nhật cấu trúc cây khi đọc từng ký tự. Điều này loại bỏ nhu cầu lưu trữ thông tin cây, giúp nén hiệu quả hơn và cho phép nén dữ liệu theo thời gian thực (on-line streaming).

V. Ứng dụng thực tiễn của các thuật toán nén trong công nghệ

Các thuật toán nén dữ liệu không chỉ là những khái niệm lý thuyết mà đã trở thành một phần không thể thiếu trong thế giới công nghệ hiện đại. Từ việc gửi một email, lướt web, xem video trực tuyến cho đến sao lưu dữ liệu, các kỹ thuật nén luôn hoạt động ngầm để tối ưu hóa trải nghiệm người dùng và hiệu quả hệ thống. Các phần mềm nén tệp tin như PKZIP, WinZip, WinRAR sử dụng các thuật toán nén không tổn hao như thuật toán DEFLATE (một sự kết hợp thông minh giữa thuật toán LZW và mã hóa Huffman) để đảm bảo người dùng có thể giải nén dữ liệu và nhận lại tệp tin nguyên vẹn. Trong lĩnh vực đa phương tiện, các chuẩn nén như JPEG, PNG cho hình ảnh, MP3, AAC cho âm thanh, và H.264/AVC, H.265/HEVC cho video là những ví dụ điển hình về việc ứng dụng thành công cả nén tổn hao và nén không tổn hao. Việc hiểu rõ ứng dụng của từng loại thuật toán giúp các nhà phát triển lựa chọn giải pháp phù hợp nhất cho bài toán cụ thể, cân bằng giữa tỷ lệ nén, chất lượng và hiệu suất xử lý.

5.1. Kỹ thuật nén văn bản và lưu trữ tệp tin hiệu quả

Đối với nén văn bản và nén tệp tin nói chung, tính toàn vẹn dữ liệu là yêu cầu tuyệt đối. Do đó, chỉ có các thuật toán nén không tổn hao được sử dụng. Mã hóa Huffman rất hiệu quả với văn bản vì các ngôn ngữ tự nhiên có sự phân bố tần suất ký tự không đồng đều (ví dụ, trong tiếng Anh, 'e' và 't' xuất hiện nhiều hơn 'q' và 'z'). Các thuật toán dựa trên mã hóa từ điển như Lempel-Ziv (LZ77, LZ78) và biến thể của chúng như thuật toán LZW hoạt động bằng cách tìm và thay thế các chuỗi ký tự lặp lại bằng các tham chiếu ngắn gọn. Thuật toán DEFLATE, được sử dụng trong định dạng ZIP và GZIP, kết hợp sức mạnh của LZ77 và mã hóa Huffman để đạt được tỷ lệ nén rất tốt cho nhiều loại tệp khác nhau.

5.2. Vai trò trong nén hình ảnh âm thanh và truyền dữ liệu

Lĩnh vực đa phương tiện là nơi các thuật toán nén thể hiện sức mạnh rõ rệt nhất. Nén hình ảnh sử dụng các kỹ thuật như Biến đổi Cosine rời rạc (DCT) trong JPEG (nén tổn hao) để loại bỏ thông tin không gian tần số cao, hoặc các thuật toán dự đoán và mã hóa entropy trong PNG (nén không tổn hao). Tương tự, nén âm thanh MP3 sử dụng mô hình tâm lý âm học để loại bỏ các âm thanh mà tai người không thể nghe thấy. Các kỹ thuật lossy compression này cho phép giảm kích thước tệp xuống 10 lần hoặc hơn mà chất lượng suy giảm không đáng kể, tạo điều kiện cho việc lưu trữ hàng ngàn bài hát và hình ảnh trên thiết bị di động cũng như streaming video chất lượng cao qua Internet.

VI. Tương lai ngành nén dữ liệu Hướng tới hiệu suất vượt trội

Lĩnh vực nén dữ liệu vẫn đang liên tục phát triển, được thúc đẩy bởi sự bùng nổ của dữ liệu lớn (Big Data), Internet vạn vật (IoT), và trí tuệ nhân tạo (AI). Các nhà nghiên cứu đang tìm kiếm các thuật toán nén dữ liệu mới không chỉ có tỷ lệ nén cao hơn mà còn phải nhanh hơn và tiết kiệm năng lượng hơn, đặc biệt là cho các thiết bị di động và cảm biến. Một hướng đi đầy hứa hẹn là sử dụng học máy và mạng nơ-ron để học các đặc trưng phức tạp của dữ liệu và tạo ra các mô hình nén thông minh hơn. Thay vì các quy tắc mã hóa được thiết kế thủ công, các mô hình AI có thể tự động tìm ra cách biểu diễn dữ liệu tối ưu nhất. Các thuật toán như thuật toán DEFLATE và các chuẩn nén video mới như AV1, VVC đang liên tục được cải tiến. Tương lai của ngành nén dữ liệu hứa hẹn sẽ mang lại những giải pháp đột phá, giúp chúng ta quản lý và khai thác hiệu quả hơn đại dương thông tin vô tận của thế giới số.

6.1. Tổng kết các phương pháp nén dữ liệu phổ biến nhất

Nhìn lại, có thể phân loại các thuật toán nén dữ liệu phổ biến vào hai nhóm chính. Nhóm thứ nhất là mã hóa entropy, dựa trên thuộc tính thống kê của dữ liệu, với đại diện tiêu biểu là mã hóa Huffman và mã hóa số học (Arithmetic Coding). Chúng không đưa ra giả định nào về cấu trúc dữ liệu mà chỉ tập trung vào tần suất của các ký hiệu. Nhóm thứ hai là mã hóa từ điển, hoạt động bằng cách thay thế các chuỗi dữ liệu lặp lại bằng con trỏ, với các thuật toán nổi tiếng là gia đình Lempel-Ziv (LZ77, LZ78, thuật toán LZW). Các hệ thống nén hiện đại và hiệu quả nhất, như thuật toán DEFLATE, thường là sự kết hợp lai ghép giữa hai phương pháp này để tận dụng ưu điểm của cả hai.

6.2. Giới thiệu các thuật toán nâng cao DEFLATE và LZW

Thuật toán LZW (Lempel-Ziv-Welch) là một thuật toán nén không tổn hao dựa trên mã hóa từ điển. Nó xây dựng một từ điển các chuỗi ký tự gặp trong quá trình nén và thay thế chúng bằng một mã duy nhất. LZW từng được sử dụng rộng rãi trong định dạng ảnh GIF. Thuật toán DEFLATE là một trong những thuật toán thành công và phổ biến nhất, là trái tim của các định dạng ZIP, GZIP, PNG. DEFLATE là một sự kết hợp khéo léo: đầu tiên, nó sử dụng thuật toán LZ77 để tìm và loại bỏ các chuỗi dữ liệu trùng lặp. Sau đó, kết quả đầu ra của LZ77 được nén thêm một lần nữa bằng mã hóa Huffman. Sự kết hợp này mang lại hiệu suất nén vượt trội trên một loạt các loại dữ liệu khác nhau, từ văn bản đến tệp thực thi.

15/07/2025

Bạn đang xem trước tài liệu:

15 các thuật toán nén dữ liệu chuong 6 cac thuat toan nen

Tải đầy đủ

Trích đoạn nội dung tài liệu

Data Structures & Algorithms Các thuật toán nén dữ liệu (Data Compression Algorithms) Nguyễn Tri Tuấn Khoa CNTT – ĐH.HCM Email: nttuan@fit.vn Data Compression Giới thiệu Giải thuật nén RLE Giải thuật nén Huffman Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 2 Giới thiệu  Các thuật ngữ thường dùng: Data Compression Lossless Compression Lossy Compression Encoding Decoding Run / Run Length RLE, Huffman, LZW Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 3 Giới thiệu (tt) Mục đích của nén dữ liệu: Giảm kích thước dữ liệu: Khi lưu trữ Khi truyền dữ liệu Tăng tính bảo mật Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 4 Giới thiệu (tt) Có 2 hình thức nén: Nén bảo toàn thông tin (Lossless Compression): Không mất mát thông tin nguyên thuỷ Hiệu suất nén không cao: 10% - 60% Các giải thuật tiêu biểu: RLE, Arithmetic, Huffman, LZ77, LZ78,… Nén không bảo toàn thông tin (Lossy Compression): Thông tin nguyên thủy bị mất mát Hiệu suất nén cao 40% - 90% Các giải thuật tiêu biểu: JPEG, MP3, MP4,… Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 5 Giới thiệu (tt) Hiệu suất nén (%): Tỉ lệ % kích thước dữ liệu giảm được sau khi áp dụng thuật toán nén D (%) = (N – M)/N*100 D: Hiệu suất nén N: kích thước data trước khi nén M: kích thước data sau khi nén Hiệu suất nén tùy thuộc Phương pháp nén Đặc trưng của dữ liệu Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 6 Giới thiệu (tt) Nén tập tin: Dùng khi cần Backup, Restore,… dữ liệu Dùng các thuật toán nén bảo toàn thông tin Không quan tâm đến định dạng (format) của tập tin Các phần mềm: PKzip, WinZip, WinRar,… Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 7 Data Compression Giới thiệu Giải thuật nén RLE Giải thuật nén Huffman Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 8 Giải thuật nén RLE RLE = Run Length Encoding: mã hoá theo độ dài lặp lại của dữ liệu Ý tưởng Dạng 1: RLE với file *.PCX Dạng 2: RLE với file *.BMP Nhận xét Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 9 Giải thuật nén RLE (tt) Ý tưởng: Hình thức biểu diễn thông tin dư thừa đơn giản: “đường chạy” (run) – là dãy các ký tự lặp lại liên tiếp “đường chạy” được biểu diễn ngắn gọn: <Số lần lặp> <Ký tự> Khi độ dài đường chạy lớn  Tiết kiệm đáng kể Ví dụ: Data = AAAABBBBBBBBCCCCCCCCCCDEE (# 25 bytes) Datanén = 4A8B10C1D2E (# 10 bytes) Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 10 Giải thuật nén RLE (tt) Ý tưởng: (tt) Khi vận dụng thực tế, cần có biện pháp xử lý để tránh trường hợp “phản tác dụng” đối với các “run đặc biệt chỉ có 1 ký tự” X (# 1 bytes)  1X (# 2 bytes) Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 11 Giải thuật nén RLE (tt) Dạng 1: RLE trong định dạng file *.PCX 1 1 0 0 1 1 0 1 0 1 0 0 0 0 0 1 Hai bit n = 6 bit thấp d = byte dữ liệu cao bật cho biết số lần kế tiếp được “11” lặp… lặp Trường hợp “run bình thường”: AAAAAAAAAAAAA  13 A (biểu diễn 2 bytes)  0xCD 0x41 Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 12 Giải thuật nén RLE (tt) RLE trong định dạng file *.PCX (tt) 0 1 0 0 0 0 0 1 Hai bit cao Đây là byte dữ không bật liệu (số lần lặp=1) Trường hợp “run đặc biệt”: A  A (biểu diễn 1 byte)  0x41 Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 13 Giải thuật nén RLE (tt) RLE trong định dạng file *.PCX (tt) 1 1 0 0 0 0 0 1 1 1 0 1 1 0 0 1 Hai bit n = 6 bit thấp d = byte dữ liệu cao bật cho biết số lần kế tiếp được “11” lặp (= 1) lặp Trường hợp “run đặc biệt”: 0xD9(217 d)  1 0xD9 (biểu diễn 2 bytes)  0xC1 0xD9 Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 14 Giải thuật nén RLE (tt) RLE trong định dạng file *.PCX (tt) Ưu điểm: Cài đặt đơn giản Giảm 75% các trường hợp “phản tác dụng” của những run đặc biệt Khuyết điểm: Dùng 6 bit biểu diễn số lần lặp  chỉ thể hiện được chiều dài run max = 63  Các đoạn lặp dài hơn sẽ phải chia nhỏ để mã hóa Không giải quyết được trường hợp “phản tác dụng” với run đặc biệt có mã ASCII >= 192d Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 15 Giải thuật nén RLE (tt) RLE trong định dạng file *.PCX (tt) Vì sao dùng 2 bits làm cờ hiệu, mà không dùng 1 bit ? Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 16 Giải thuật nén RLE (tt) #define MAX_RUNLENGTH 63 int PCXEncode_a_String(char *aString, int nLen, FILE *fEncode) { unsigned char cThis, cLast; int i; int nTotal = 0; // Tổng số byte sau khi mã hoá int nRunCount = 1; // Chiều dài của 1 run cLast = *(aString); for (i=0; i<nLen; i++) { cThis = *(++aString); if (cThis == cLast) { // Tồn tại 1 run nRunCount++; if (nRunCount == MAX_RUNLENGTH) { nTotal += PCXEncode_a_Run(cLast,nRunCount,fEncode); nRunCount = 0; } } Continued… Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 17 Giải thuật nén RLE (tt) else // Hết 1 run, chuyển sang run kế tiếp { if (nRunCount) nTotal += PCXEncode_a_Run(cLast,nRunCount,fEncode); cLast = cThis; nRunCount = 1; } } // end for if (nRunCount) // Ghi run cuối cùng lên file nTotal += PCXEncode_a_Run(cLast, nRunCount, fEncode); return (nTotal); } // end function Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 18 Giải thuật nén RLE (tt) int PCXEncode_a_Run(unsigned char c, int nRunCount, FILE *fEncode) { if (nRunCount) { if ((nRunCount == 1) && (c < 192)) { putc(c, fEncode); return 1; } else { putc(0xC0 | nRunCount, fEncode); putc(c, fEncode); return 2; } } Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 19 Giải thuật nén RLE (tt) int PCXDecode_a_File(FILE *fEncode, FILE *fDecode) { unsigned char c, n; while (!feof(fEncode)) { c = (unsigned char) getc(fEncode); if (c == EOF) break; if ((c & 0xC0) == 0xC0) // 2 bit cao bật { n = c & 0x3f; // Lấy 6 bit thấp  số lần lặp… c = (unsigned char) getc(fEncode); } else n = 1; // Ghi dữ liệu đã giải mã lên file fDecode for (int i=0; i<n; i++) putc(c, fDecode); } fclose(fDecode); } Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 20 Giải thuật nén RLE (tt) Dạng 2: RLE trong định dạng file *.BMP Định dạng file chuẩn của Windows dùng để lưu ảnh bitmap Có khả năng lưu trữ ảnh B&W, 16 màu, 256 màu, 24bits màu Có sử dụng thuật toán nén RLE khi lưu trữ dữ liệu điểm ảnh Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 21 Giải thuật nén RLE (tt) RLE trong trong định dạng file *.BMP (tt) AAA………………………………………A lặp 255 lần Neùn PCX Dữ liệu lưu lặp lại vì số lần lặp chỉ sử dụng có 6 bits 0xFF’A’0xFF’A’ 0xFF’A’0xFF’A’ 0xC3’A’ Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 22 Giải thuật nén RLE (tt) RLE trong trong định dạng file *.BMP (tt) Ý tưởng: Dữ liệu có 2 dạng Dạng 1: Run với độ dài > 1. AAAAAAAAAAAA Dạng 2: Dãy các ký tự đơn lẻ. BCDEFG Biểu diễn: phân biệt 2 dạng bằng cách dùng “mã nhận dạng” (ESCAPE 0x00) Dạng 1: <Số lần lặp> <Ký tự lặp> VD. 0x0C ‘A’ Dạng 2: <ESCAPE> <n> <Dãy ký tự> VD.

0x00 0x06 ‘B’’C’’D’’E’’F’’G’ Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 23 Giải thuật nén RLE (tt) RLE trong trong định dạng file *.BMP (tt) AAA………………………………………ABCDEFG lặp 255 lần Neùn BMP 0xFF ‘A’ 0x00 0x06 “BCDEFG” Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 24 Giải thuật nén RLE (tt) So sánh giữa PCX RLE và BMP RLE ? Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 25 Giải thuật nén RLE (tt) int BMPDecode_a_File(FILE *fEncode, FILE *fDecode) { unsigned char cMode, cData; int i, n; while (!feof(fEncode)) { cMode = (unsigned char) getc(fEncode); if (cMode==EOF) break; if (cMode==0) { // Dạng 2 n = (unsigned char) getc(fEncode); for (i=0; i<n; i++) { cData = (unsigned char) getc(fEncode); putc(cData, fDecode); } } Continued… Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 26 Giải thuật nén RLE (tt) else // Dạng 1 { n = cMode; // Số lần lặp cData = (unsigned char) getc(fEncode); for (i=0; i<n; i++) putc(cData, fDecode); } } // end while } // end Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 27 Giải thuật nén RLE (tt) Nhận xét / Ứng dụng: Dùng để nén các dữ liệu có nhiều đoạn lặp lại (run) Thích hợp cho dữ liệu ảnh  ứng dụng hẹp Chưa phải là một thuật toán nén có hiệu suất cao Đơn giản, dễ cài đặt Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 28 Data Compression Giới thiệu Giải thuật nén RLE Giải thuật nén Huffman Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 29 Giải thuật nén Huffman Giới thiệu Huffman tĩnh (Static Huffman) Huffman động (Adaptive Huffman) Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 30 Giải thuật nén Huffman – Giới thiệu  Hình thành Vấn đề: Một giải thuật nén bảo toàn thông tin; Không phụ thuộc vào tính chất của dữ liệu; Ứng dụng rộng rãi trên bất kỳ dữ liệu nào, với hiệu suất tốt Tư tưởng chính: Phương pháp cũ: dùng 1 dãy cố định (8 bits) để biểu diễn 1 ký tự Huffman: Sử dụng vài bits để biểu diễn 1 ký tự (gọi là “mã bit” – bits code) Độ dài “mã bit” cho các ký tự không giống nhau: Ký tự xuất hiện nhiều lần  biểu diễn bằng mã ngắn; Ký tự xuất hiện ít  biểu diễn bằng mã dài  Mã hóa bằng mã có độ dài thay đổi (Variable Length Encoding) David Huffman – 1952: tìm ra phương pháp xác định mã tối ưu trên dữ liệu tĩnh Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.HCM 31 Giải thuật nén Huffman – Giới thiệu (tt) Giả sử có dữ liệu như sau: f = “ADDAABBCCBAAABBCCCBBBCDAADDEEAA” Biểu diễn bình thường (8 bits/ký tự): Sizeof(f) = 10*8 + 8*8 + 6*8 + 5*8 + 2*8 = 248 bits Ký tự Số lần xuất hiện trong file f A 10 B 8 C 6 D 5 E 2 Winter 2015 Data Structures & Algorithms - Data Compression - Nguyen Tri Tuan, DH.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Cấu trúc dữ liệu và giải thuật

Thuật toán nén dữ liệu trong khoa học máy tính

Kỹ thuật mã hóa và nén thông tin

Bài giảng Các Thuật Toán Nén Dữ Liệu - RLE, Huffman (Nguyễn Tri Tuấn - ĐH.HCM)

I. Tổng quan các thuật toán nén dữ liệu và vai trò cốt lõi

1.1. Mục đích và ý nghĩa của việc nén dữ liệu hiện nay

1.2. Các thuật ngữ cơ bản Encoding Decoding Lossless Lossy

II. Phân loại 2 hình thức nén Nén tổn hao và không tổn hao

2.1. Tìm hiểu nén không tổn hao lossless compression

2.2. Đặc điểm của nén tổn hao lossy compression

2.3. Cách tính toán và ý nghĩa của tỷ lệ nén dữ liệu

III. Khám phá Run Length Encoding RLE Kỹ thuật nén đơn giản

3.1. Nguyên lý cơ bản và ví dụ về mã hóa theo độ dài lặp

3.2. So sánh biến thể RLE trong định dạng file PCX và BMP

IV. Phân tích mã hóa Huffman Giải pháp tối ưu dựa trên tần suất

4.1. Quy trình xây dựng cây Huffman và tạo bảng mã bit

4.2. So sánh Huffman tĩnh Static và Huffman động Adaptive

V. Ứng dụng thực tiễn của các thuật toán nén trong công nghệ

5.1. Kỹ thuật nén văn bản và lưu trữ tệp tin hiệu quả

5.2. Vai trò trong nén hình ảnh âm thanh và truyền dữ liệu

VI. Tương lai ngành nén dữ liệu Hướng tới hiệu suất vượt trội

6.1. Tổng kết các phương pháp nén dữ liệu phổ biến nhất

6.2. Giới thiệu các thuật toán nâng cao DEFLATE và LZW

THÔNG TIN CHI TIẾT

Đề tài: 15 Các Thuật Toán Nén Dữ Liệu Chương 6 Các Thuật Toán Nén

Bài giảng Các Thuật Toán Nén Dữ Liệu - RLE, Huffman (Nguyễn Tri Tuấn - ĐH.HCM)

I. Tổng quan các thuật toán nén dữ liệu và vai trò cốt lõi

1.1. Mục đích và ý nghĩa của việc nén dữ liệu hiện nay

1.2. Các thuật ngữ cơ bản Encoding Decoding Lossless Lossy

II. Phân loại 2 hình thức nén Nén tổn hao và không tổn hao

2.1. Tìm hiểu nén không tổn hao lossless compression

2.2. Đặc điểm của nén tổn hao lossy compression

2.3. Cách tính toán và ý nghĩa của tỷ lệ nén dữ liệu

III. Khám phá Run Length Encoding RLE Kỹ thuật nén đơn giản

3.1. Nguyên lý cơ bản và ví dụ về mã hóa theo độ dài lặp

3.2. So sánh biến thể RLE trong định dạng file PCX và BMP

IV. Phân tích mã hóa Huffman Giải pháp tối ưu dựa trên tần suất

4.1. Quy trình xây dựng cây Huffman và tạo bảng mã bit

4.2. So sánh Huffman tĩnh Static và Huffman động Adaptive

V. Ứng dụng thực tiễn của các thuật toán nén trong công nghệ

5.1. Kỹ thuật nén văn bản và lưu trữ tệp tin hiệu quả

5.2. Vai trò trong nén hình ảnh âm thanh và truyền dữ liệu

VI. Tương lai ngành nén dữ liệu Hướng tới hiệu suất vượt trội

6.1. Tổng kết các phương pháp nén dữ liệu phổ biến nhất

6.2. Giới thiệu các thuật toán nâng cao DEFLATE và LZW

Tài liệu liên quan

THÔNG TIN CHI TIẾT

Đề tài: 15 Các Thuật Toán Nén Dữ Liệu Chương 6 Các Thuật Toán Nén