Nghiên cứu phương pháp nén dữ liệu để tăng hiệu quả lưu trữ chuỗi DNA

Luận văn thạc sĩ VNU UET nghiên cứu phương pháp nén dữ liệu nhằm tăng hiệu quả lưu trữ chuỗi DNA, góp phần vào lĩnh vực sinh học tính toán.

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2016

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CAM ĐOAN

LỜI CẢM ƠN

1. CHƯƠNG 1: TỔNG QUAN VỀ THUẬT TOÁN NÉN DỮ LIỆU

1.1. Thuật toán mã hóa bit (Naïve Bit)

1.2. Mã hóa trực tiếp phần khác biệt (thuật toán 2D)

1.3. Thuật toán nén DNABIT

1.4. Thuật toán nén dựa trên bộ từ điển

1.5. Thuật toán nén xác suất thống kê

1.6. Thuật toán nén HuffBit sử dụng cây nhị phân mở rộng với mã Huffman

1.7. Thuật toán Expert Markov (XM)

1.8. Thuật toán nén tham chiếu

1.9. Đặc trưng thuật toán tham chiếu

1.10. Các thuật toán nén tham chiếu

2. CHƯƠNG 2: THUẬT TOÁN NÉN THAM CHIẾU JDNA

2.1. THUẬT TOÁN JDNA - Nén tham chiếu các chuỗi gen đã sắp xếp

2.2. Thuật toán nén

2.3. Thư viện FRESCO

2.4. Định dạng tệp

2.5. Cải thiện tỉ lệ nén

2.6. Cải thiện thời gian. Cải thiện vùng nhớ

3. CHƯƠNG 3: THỰC NGHIỆM SO SÁNH THUẬT TOÁN JDNA VỚI THUẬT TOÁN MÃ HÓA HUFFMAN VÀ LEMPEL - ZIV

3.1. Môi trường thực nghiệm

3.2. Thực nghiệm so sánh JDNA với Mã hóa Huffman và Lempel – Ziv

3.3. Phân tích và đánh giá kết quả thực nghiệm

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về nghiên cứu nén dữ liệu DNA để tối ưu hóa lưu trữ

Nén dữ liệu DNA là một lĩnh vực nghiên cứu quan trọng trong công nghệ thông tin sinh học. Với sự phát triển của công nghệ sắp xếp chuỗi gen, khối lượng dữ liệu DNA ngày càng lớn, đặt ra thách thức về lưu trữ và truy cập. Việc tối ưu hóa lưu trữ dữ liệu DNA không chỉ giúp tiết kiệm không gian mà còn tăng tốc độ truy cập và xử lý thông tin. Nghiên cứu này sẽ trình bày các phương pháp nén dữ liệu DNA hiện có và hiệu quả của chúng trong việc tối ưu hóa lưu trữ.

1.1. Tầm quan trọng của nén dữ liệu DNA trong công nghệ sinh học

Nén dữ liệu DNA giúp giảm thiểu chi phí lưu trữ và tăng tốc độ truy cập thông tin. Điều này đặc biệt quan trọng trong nghiên cứu y sinh học, nơi mà dữ liệu gen được sử dụng để phân tích và phát triển các phương pháp điều trị mới.

1.2. Các thách thức trong việc nén dữ liệu DNA

Các thách thức bao gồm tính phức tạp của chuỗi DNA, sự xuất hiện của các bazơ không ngẫu nhiên và yêu cầu về độ chính xác trong việc khôi phục dữ liệu. Những yếu tố này làm cho việc phát triển thuật toán nén hiệu quả trở nên khó khăn.

II. Phương pháp nén dữ liệu DNA hiệu quả nhất hiện nay

Có nhiều phương pháp nén dữ liệu DNA đã được phát triển, mỗi phương pháp có những ưu điểm và nhược điểm riêng. Các phương pháp này bao gồm mã hóa bit, nén dựa trên bộ từ điển, nén thống kê và nén tham chiếu. Mỗi phương pháp đều có khả năng đạt được tỉ lệ nén khác nhau, từ đó ảnh hưởng đến hiệu quả lưu trữ.

2.1. Mã hóa bit và ứng dụng trong nén dữ liệu DNA

Mã hóa bit là phương pháp cơ bản nhất, sử dụng 2 bit để biểu diễn 4 bazơ của DNA. Phương pháp này có thể đạt tỉ lệ nén 4:1, nhưng không hiệu quả với các chuỗi dài và phức tạp.

2.2. Nén dựa trên bộ từ điển và lợi ích của nó

Nén dựa trên bộ từ điển thay thế các chuỗi lặp bằng cách tham chiếu tới một từ điển đã được xây dựng. Phương pháp này có thể đạt tỉ lệ nén từ 4:1 đến 6:1, giúp tiết kiệm không gian lưu trữ hiệu quả.

2.3. Nén tham chiếu và tiềm năng của nó trong lưu trữ DNA

Nén tham chiếu có thể đạt tỉ lệ nén lên tới 400:1, nhờ vào việc sử dụng các chuỗi tham chiếu bên ngoài. Phương pháp này cho thấy tiềm năng lớn trong việc tối ưu hóa lưu trữ dữ liệu DNA.

III. Kết quả nghiên cứu và ứng dụng thực tiễn của nén dữ liệu DNA

Nghiên cứu đã chỉ ra rằng các phương pháp nén dữ liệu DNA hiện tại có thể cải thiện đáng kể hiệu quả lưu trữ. Các thuật toán nén tham chiếu, đặc biệt là JDNA, đã cho thấy kết quả khả quan trong việc nén chuỗi DNA. Việc áp dụng các phương pháp này trong thực tiễn có thể giúp các nhà nghiên cứu tiết kiệm thời gian và chi phí.

3.1. Kết quả thực nghiệm so sánh các thuật toán nén

Thực nghiệm cho thấy thuật toán JDNA vượt trội hơn so với các thuật toán nén khác như Huffman và Lempel-Ziv về tỉ lệ nén và tốc độ giải nén. Điều này chứng tỏ tính hiệu quả của nén tham chiếu trong việc xử lý dữ liệu DNA.

3.2. Ứng dụng trong nghiên cứu y sinh học

Các phương pháp nén dữ liệu DNA có thể được áp dụng trong nghiên cứu y sinh học để phân tích gen, phát triển thuốc và điều trị bệnh. Việc tối ưu hóa lưu trữ giúp các nhà nghiên cứu dễ dàng truy cập và xử lý dữ liệu lớn.

IV. Kết luận và hướng phát triển tương lai trong nén dữ liệu DNA

Nén dữ liệu DNA là một lĩnh vực nghiên cứu đang phát triển mạnh mẽ. Các phương pháp nén hiện tại đã cho thấy hiệu quả trong việc tối ưu hóa lưu trữ, nhưng vẫn còn nhiều thách thức cần được giải quyết. Hướng phát triển tương lai có thể tập trung vào việc cải thiện các thuật toán nén và áp dụng công nghệ mới để nâng cao hiệu quả lưu trữ.

4.1. Những thách thức cần vượt qua trong nghiên cứu

Các thách thức bao gồm việc phát triển thuật toán nén hiệu quả hơn, khả năng khôi phục dữ liệu chính xác và xử lý các chuỗi DNA phức tạp. Những vấn đề này cần được nghiên cứu sâu hơn để cải thiện hiệu quả nén.

4.2. Tiềm năng của công nghệ mới trong nén dữ liệu DNA

Công nghệ mới như trí tuệ nhân tạo và học máy có thể được áp dụng để phát triển các thuật toán nén thông minh hơn. Điều này có thể mở ra hướng đi mới cho việc tối ưu hóa lưu trữ dữ liệu DNA trong tương lai.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet nghiên cứu phương pháp nén dữ liệu để tăng hiệu quả lưu trữ chuỗi dna

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Trong bối cảnh công nghệ sinh học phát triển mạnh mẽ, việc giải mã và lưu trữ dữ liệu chuỗi DNA ngày càng trở nên quan trọng và phức tạp. Bộ gen người gồm khoảng 3 tỷ đặc trưng trên 23 cặp nhiễm sắc thể, tạo ra một khối lượng dữ liệu khổng lồ cần được lưu trữ và xử lý hiệu quả. Theo ước tính, để lưu trữ toàn bộ một hệ gen người cần khoảng 3GB không gian lưu trữ nếu sử dụng 1 byte cho mỗi nucleotit. Tuy nhiên, việc sử dụng các phần mềm nén dữ liệu thông thường không thể đạt hiệu quả cao do đặc thù phức tạp của chuỗi DNA, bao gồm các đặc trưng như sự lặp lại, biến đổi SNPs, và các biến thể chèn/xóa.

Mục tiêu nghiên cứu của luận văn là phát triển và đánh giá các phương pháp nén dữ liệu nhằm tăng hiệu quả lưu trữ chuỗi DNA, đặc biệt tập trung vào thuật toán nén tham chiếu JDNA, một khung nén dựa trên thuật toán FRESCO đã được cải tiến. Phạm vi nghiên cứu bao gồm các thuật toán nén dữ liệu DNA phổ biến, so sánh hiệu quả của JDNA với các thuật toán nén khác như Huffman, Lempel-Ziv, và các thuật toán nén tham chiếu tiêu biểu. Nghiên cứu được thực hiện trên dữ liệu chuỗi gen của ba loài: người, cỏ Arabidopsis thaliana và khuẩn men, với kích thước dữ liệu lên đến hàng trăm megabyte.

Ý nghĩa của nghiên cứu thể hiện qua việc giảm thiểu không gian lưu trữ, tăng tốc độ truy cập và xử lý dữ liệu gen, góp phần hỗ trợ các nghiên cứu y sinh học, di truyền học và phát triển công nghệ sinh học hiện đại. Tỉ lệ nén cao nhất của thuật toán nén tham chiếu có thể đạt tới 400:1, vượt trội so với các phương pháp nén truyền thống, đồng thời giảm đáng kể chi phí lưu trữ và truyền tải dữ liệu.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên bốn nhóm thuật toán nén dữ liệu chuỗi DNA chính:

Thuật toán mã hóa bit (Naïve Bit): Mỗi bazơ DNA (A, C, G, T) được mã hóa bằng 2 bit, cho phép biểu diễn 4 trạng thái. Thuật toán này đơn giản nhưng hiệu quả khi các bazơ xuất hiện ngẫu nhiên. Ví dụ, thuật toán 2D sử dụng mã hóa bộ ba bazơ trong một byte, hỗ trợ nén tuyến tính với độ phức tạp O(n).
Thuật toán nén dựa trên bộ từ điển (Dictionary-based): Thay thế các chuỗi con lặp bằng tham chiếu tới bộ từ điển được xây dựng trong quá trình nén hoặc trước đó. Thuật toán Lempel-Ziv (LZ77, LZ78) là ví dụ tiêu biểu, tận dụng các chuỗi lặp để giảm kích thước dữ liệu.
Thuật toán nén xác suất thống kê (Statistical Compression): Dựa trên mô hình xác suất của dữ liệu đầu vào, như mã hóa Huffman hoặc mô hình Markov ẩn, để dự đoán và mã hóa các ký tự tiếp theo với tỉ lệ nén cao hơn. Thuật toán Expert Markov (XM) kết hợp nhiều chuyên gia dự đoán để tối ưu hóa phân bố xác suất.
Thuật toán nén tham chiếu (Reference-based Compression): Sử dụng một chuỗi tham chiếu bên ngoài để mã hóa các chuỗi con dài của dữ liệu đầu vào, thay thế các chuỗi con bằng vị trí và độ dài trong chuỗi tham chiếu. Thuật toán JDNA là một khung nén tham chiếu hiệu quả, kế thừa và cải tiến từ thư viện FRESCO.

Các khái niệm chuyên ngành quan trọng bao gồm SNPs (Single Nucleotide Polymorphisms), indels (chèn/xóa nucleotit), bảng K-mer (bảng băm các đoạn con kích thước K), và các thuật toán mã hóa entropy như Huffman và mã hóa số học.

Phương pháp nghiên cứu

Nguồn dữ liệu nghiên cứu là các chuỗi gen thực tế từ ba loài: người (1092 gen), cỏ Arabidopsis thaliana (180 gen), và khuẩn men (38 gen). Dữ liệu được xử lý dưới định dạng RAW hoặc FASTA, với kích thước tệp lên đến hàng trăm megabyte.

Phương pháp phân tích bao gồm:

Thực nghiệm so sánh: Thuật toán JDNA được so sánh với các thuật toán nén khác như Huffman, Lempel-Ziv, và FRESCO về tỉ lệ nén, thời gian nén và dung lượng bộ nhớ sử dụng.
Đánh giá hiệu quả thuật toán: Tập trung vào tỉ lệ nén (kích thước dữ liệu gốc so với kích thước dữ liệu nén), thời gian thực hiện (phân tích thời gian đánh chỉ số, nén và giải nén), và bộ nhớ sử dụng.
Timeline nghiên cứu: Quá trình nghiên cứu kéo dài trong năm 2016, bao gồm thu thập dữ liệu, phát triển thuật toán, thực nghiệm và phân tích kết quả.

Phương pháp chọn mẫu là sử dụng các bộ gen đại diện cho các loài phổ biến và có dữ liệu sẵn có, đảm bảo tính đại diện và khả năng so sánh.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Tỉ lệ nén vượt trội của thuật toán nén tham chiếu JDNA: JDNA đạt tỉ lệ nén cao hơn đáng kể so với các thuật toán nén dựa trên bộ từ điển và xác suất thống kê. Ví dụ, tỉ lệ nén trung bình của JDNA trên dữ liệu gen người đạt khoảng 300:1, trong khi các thuật toán khác chỉ đạt từ 4:1 đến 8:1.
Thời gian thực hiện chủ yếu dành cho đánh chỉ số: Trên 95% thời gian nén của JDNA và FRESCO được sử dụng cho bước đánh chỉ số bảng K-mer, trong khi chỉ khoảng 2% cho nén và 3% cho các bước còn lại. Việc cải tiến phương pháp đánh chỉ số theo yêu cầu giúp giảm đáng kể thời gian này.
Dung lượng bộ nhớ sử dụng được tối ưu: JDNA sử dụng cấu trúc dữ liệu bảng K-mer hiệu quả, giảm bộ nhớ sử dụng xuống còn khoảng 2-2.5GB, thấp hơn nhiều so với các phương pháp sử dụng HashMap truyền thống (trên 20GB).
Ảnh hưởng của chuỗi tham chiếu đến hiệu quả nén: Việc lựa chọn chuỗi tham chiếu phù hợp có ảnh hưởng lớn đến tỉ lệ nén. Ví dụ, nén hệ gen người dựa trên chuỗi tham chiếu của chuột cho kết quả tỉ lệ nén thấp hơn do sự khác biệt di truyền lớn. Trong khi đó, lựa chọn chuỗi tham chiếu trong cùng loài giúp tăng tỉ lệ nén lên đáng kể.

Thảo luận kết quả

Nguyên nhân chính của hiệu quả vượt trội của JDNA là do thuật toán nén tham chiếu tận dụng được sự tương đồng cao giữa các chuỗi gen trong cùng loài, đặc biệt là các phần lặp và biến thể nhỏ như SNPs và indels. Việc sử dụng bảng K-mer để đánh chỉ số giúp tìm kiếm chuỗi khớp nhanh chóng và chính xác, đồng thời giảm bộ nhớ sử dụng.

So sánh với các nghiên cứu trước đây, JDNA cải tiến đáng kể so với FRESCO về tỉ lệ nén và tốc độ nén nhờ hai cải tiến chính: sử dụng tính tương đương trong đánh chỉ số và phương pháp đánh chỉ số theo yêu cầu. Điều này cho phép giảm thời gian đánh chỉ số mà không làm giảm chất lượng nén.

Kết quả cũng cho thấy các thuật toán nén dựa trên bộ từ điển và xác suất thống kê như Huffman, Lempel-Ziv, và Expert Markov không thể đạt được tỉ lệ nén cao như thuật toán nén tham chiếu do không tận dụng được đặc trưng di truyền và sự tương đồng giữa các chuỗi gen.

Dữ liệu có thể được trình bày qua biểu đồ so sánh tỉ lệ nén và thời gian thực hiện của các thuật toán trên từng bộ dữ liệu gen, cũng như bảng thống kê chi tiết về dung lượng bộ nhớ sử dụng.

Đề xuất và khuyến nghị

Tối ưu hóa bước đánh chỉ số bằng phương pháp đánh chỉ số theo yêu cầu: Động từ hành động là "triển khai", mục tiêu giảm thời gian đánh chỉ số xuống dưới 50% tổng thời gian nén, thực hiện trong vòng 6 tháng, do nhóm phát triển phần mềm chịu trách nhiệm.
Lựa chọn chuỗi tham chiếu phù hợp cho từng nhóm gen: Đề xuất xây dựng bộ tham chiếu chuẩn cho từng loài hoặc nhóm loài, nhằm tăng tỉ lệ nén và giảm dung lượng lưu trữ, thực hiện trong 12 tháng, do các nhà nghiên cứu sinh học phân tử phối hợp với chuyên gia công nghệ thông tin.
Phát triển giao diện người dùng thân thiện cho công cụ nén JDNA: Động từ hành động là "thiết kế", mục tiêu giúp người dùng không chuyên dễ dàng sử dụng công cụ, hoàn thành trong 9 tháng, do nhóm phát triển phần mềm và thiết kế giao diện đảm nhận.
Mở rộng nghiên cứu áp dụng thuật toán nén tham chiếu cho các loại dữ liệu gen phức tạp hơn: Động từ hành động là "nghiên cứu", mục tiêu áp dụng cho dữ liệu metagenomes và gen đa loài, thực hiện trong 18 tháng, do các nhà khoa học dữ liệu và sinh học tính toán phối hợp thực hiện.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu công nghệ sinh học và di truyền học: Có thể áp dụng các phương pháp nén hiệu quả để quản lý và phân tích dữ liệu gen lớn, hỗ trợ nghiên cứu biến đổi gen và phát triển thuốc.
Chuyên gia công nghệ thông tin trong lĩnh vực y sinh: Tận dụng thuật toán nén tham chiếu để phát triển các hệ thống lưu trữ và xử lý dữ liệu sinh học hiệu quả, giảm chi phí hạ tầng.
Sinh viên và học viên cao học ngành hệ thống thông tin và công nghệ sinh học: Nắm bắt kiến thức về các thuật toán nén dữ liệu DNA, phục vụ cho nghiên cứu và phát triển đề tài học thuật.
Doanh nghiệp công nghệ sinh học và y tế: Áp dụng công nghệ nén để tối ưu hóa lưu trữ dữ liệu gen khách hàng, nâng cao hiệu quả vận hành và giảm chi phí.

Câu hỏi thường gặp

Thuật toán nén tham chiếu khác gì so với các thuật toán nén truyền thống?
Thuật toán nén tham chiếu sử dụng một chuỗi gen tham chiếu bên ngoài để mã hóa các phần giống nhau trong chuỗi đầu vào, giúp đạt tỉ lệ nén rất cao (có thể lên đến 400:1), trong khi các thuật toán truyền thống như Huffman hay Lempel-Ziv chỉ đạt tỉ lệ từ 4:1 đến 8:1.
Làm thế nào để chọn chuỗi tham chiếu phù hợp?
Chuỗi tham chiếu nên có sự tương đồng cao với chuỗi đầu vào, thường là cùng loài hoặc nhóm loài có quan hệ di truyền gần. Việc lựa chọn chuỗi tham chiếu phù hợp giúp tăng độ dài chuỗi khớp và cải thiện tỉ lệ nén.
Phương pháp đánh chỉ số theo yêu cầu trong JDNA hoạt động như thế nào?
Thay vì đánh chỉ số toàn bộ chuỗi tham chiếu từ đầu, phương pháp này chỉ đánh chỉ số một phần khi cần thiết, dựa trên các bước so sánh đơn giản trước đó, giúp giảm thời gian và bộ nhớ sử dụng trong quá trình nén.
Thuật toán JDNA có thể áp dụng cho dữ liệu gen phức tạp như metagenomes không?
Hiện tại JDNA chủ yếu áp dụng cho dữ liệu gen đã sắp xếp và có sự tương đồng cao. Tuy nhiên, nghiên cứu mở rộng đang được đề xuất để áp dụng cho dữ liệu metagenomes và gen đa loài phức tạp hơn.
Làm thế nào để đảm bảo dữ liệu gen được giải nén chính xác?
Thuật toán nén tham chiếu JDNA là phương pháp nén không mất dữ liệu, sử dụng ánh xạ chính xác giữa chuỗi tham chiếu và chuỗi đầu vào, kết hợp mã hóa entropy để đảm bảo quá trình giải nén tái tạo chính xác chuỗi gen gốc.

Kết luận

Thuật toán nén tham chiếu JDNA đạt tỉ lệ nén vượt trội, có thể giảm kích thước dữ liệu gen xuống còn khoảng 0.25% kích thước gốc trong điều kiện lý tưởng.
Việc cải tiến phương pháp đánh chỉ số theo yêu cầu giúp giảm đáng kể thời gian nén và bộ nhớ sử dụng so với các thuật toán trước đó như FRESCO.
Lựa chọn chuỗi tham chiếu phù hợp là yếu tố quyết định hiệu quả nén, đặc biệt trong các dự án gen đa mẫu cùng loài.
JDNA có tiềm năng mở rộng ứng dụng cho các loại dữ liệu gen phức tạp hơn trong tương lai.
Khuyến nghị triển khai các giải pháp tối ưu hóa thuật toán và phát triển công cụ hỗ trợ người dùng để ứng dụng rộng rãi trong nghiên cứu và công nghiệp sinh học.

Khuyến khích các nhà nghiên cứu và doanh nghiệp công nghệ sinh học áp dụng thuật toán JDNA trong quản lý dữ liệu gen, đồng thời tiếp tục nghiên cứu cải tiến để mở rộng phạm vi ứng dụng.

Trích đoạn nội dung tài liệu

CHƯƠNG 1 – TỔNG QUAN VỀ THUẬT TOÁN NÉN DỮ LIỆU 1. Thuật toán mã hóa bit (Naïve Bit) Thuật toán mã hóa bit sử dụng các bit trạng thái để biểu diễn dữ liệu nén. 4 bazơ đặc trưng của DNA được mã hóa bởi 2 bit (4 trạng thái). Kỹ thuật nén thẳng dữ liệu chuỗi DNA là mã hóa 4 bazơ trong một byte theo mã hóa bit.1 [2] cho thấy một ví dụ về nén mã hóa bit Hình 1.

Ví dụ mã hóa bit Mỗi kí tự ở đầu vào được thay thế bởi 2 bit sử dụng phép thay thế {A = 00, C = 01, G = 10, T = 11}. Những cấu trúc hiện tại cung cấp các phép toán bit tốt hơn, về cơ bản cho phép một mã hóa của dữ liệu chuỗi DNA với 2 bit. Mã hóa này ảnh hưởng tới khả năng đọc dữ liệu đáng kể vì cần một bảng tìm kiếm để dịch dữ liệu nén. Do biểu diễn 4 bazơ vừa đủ chính xác trong 8 bit nên nếu xảy ra thêm giá trị biên thì sẽ phá hỏng cấu trúc này.

Mã hóa sẽ trở nên phức tạp nếu thêm một hoặc nhiều phần bù ví dụ như N vào chuỗi. Một phương pháp dùng để mã hóa 5 kí tự A, C, G, T, N là đặt 3 bazơ liên tiếp vào 1 byte. 7 bit có thể mã hóa 128 trạng thái và vì 53 < 128. Tuy nhiên, việc tăng kích thước các kí tự (nhiều kí tự được thêm vào chuỗi) sẽ khiến cho việc biểu diễn kí tự trở nên khó khăn hơn.

Tỉ lệ nén của thuật toán mã hóa bit là 4:1 nếu kích thước của chuỗi kí tự đầu vào là 4 hoặc ít hơn 4:1 nếu nhiều hơn 4 kí tự [2]. Có nhiều thuật toán được xây dựng dựa trên phương thức mã hóa bit như thuật toán mã hóa trực tiếp phần khác biệt (thuật toán 2D), thuật toán này có thể xử lý các chuỗi đầu vào ở bất kỳ định dạng nào. Với 5 kí tự thông thường của LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 DNA (A, C, G, T, N), một mã hóa 7bit cho 3 kí tự liên tiếp được sử dụng. Theo cách này thì có tới 128 kí tự bổ sung sẽ được mã hóa.

Tiếp theo là Genbit compress (GBC), một công cụ nén chuỗi viết bằng ngôn ngữ java, sử dụng mã hóa độ dài (run-length encoding) thực hiện trên 2 bit (naïve 2bit) [3]. [4] cũng đưa ra một phương thức nén các nhiễm sắc thể tương đồng, mã hóa 3 bazơ sử dụng 1 byte. Tuy nhiên, trong thuật toán này kết hợp những xử lý phức tạp cho phần lặp N, sau đó nén mã hóa đạt được bằng LZ77. Một phương thức khác thuộc lớp thuật toán này được xây dựng trên cơ sở dữ liệu Oracle [5].

Và [6] kết hợp một thuật toán bổ sung cho việc tìm kiếm nhiều đoạn trong dữ liệu nén. Sau cùng là một thuật toán tập trung vào việc phân tích cách thức lưu trữ các phần lặp với những mã hóa có kích thước biến đổi, thuật toán DNABit [7]. Do tính đặc trưng của thuật toán mã hóa bit được thể hiện khá rõ nét trong 2 thuật toán mã hóa trực tiếp phần khác biệt (2D) và DNABit nên sau đây người viết luận văn sẽ trình bày chi tiết hai thuật toán này. Mã hóa trực tiếp phần khác biệt (thuật toán 2D) Với sự phát triển ngày càng mạnh về các tập dữ liệu gen khổng lồ, nhiều phương pháp nén đã và đang được phát triển để đáp ứng khối lượng lớn gen gồm nhiều chuỗi và phần bù lớn hơn (như đầu chuỗi).

Các giao thức nén phát triển riêng cho dữ liệu chuỗi thì thường có tỉ lệ nén tốt nhưng hiệu suất thấp trên tập dữ liệu lớn mà gồm nhiều dữ liệu phụ trợ (phần bù). Để so sánh thì những ứng dụng nén thông thường có thể dễ dàng nén các tệp dữ liệu lớn không đồng nhất nhưng lại bị hạn chế đối với dải dữ liệu kí tự trong dữ liệu chuỗi. Bởi vậy, thuật toán 2D được thiết kế để cung cấp một giao thức nén chuỗi nucleotit thông thường. Giao thức này có thể phân biệt dữ liệu chuỗi và dữ liệu phần bù, từ đó đưa ra sự điều chỉnh phù hợp giữa nén dữ liệu chung chung và cụ thể.

Thuật toán 2D có những mục tiêu như sau [43]:  Thời gian thực hiện tuyến tính cho việc hỗ trợ các tập dữ liệu lớn: cả hai quá trình nén và giải nén đều phải hỗ trợ thực hiện đối với độ phức tạp thời gian thực hiện O(n).  Hỗ trợ bao gồm cả những kí tự phụ mà không phải thành phần của tập bazơ nucleotit mong đợi: các kí tự bổ sung có thể được sử dụng để biểu diễn thông tin tự do, dữ liệu chú thích hoặc các chuỗi con đặc biệt như miền chức năng hoặc các chuỗi lặp đặc biệt.  Mã hóa trực tiếp pha đơn: Pha nén yêu cầu chỉ một chiều đơn mà không có pha loại bỏ những thông tin dư thừa và không lưu trữ dữ liệu vào các tệp LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 12 cấu trúc phụ hoặc trung gian tạm thời. Tương tự, việc không lưu trữ dữ liệu phụ phải cho phép khôi phục một chiều đơn đối với pha giải nén.

 Nén không mất dữ liệu: Chuỗi gốc phải được khôi phục hoàn toàn sau quá trình giải nén. Việc này có thể được thực hiện chỉ dựa trên chuỗi thẳng mà không quan tâm tới định dạng hay bị ngắt dòng, hoặc dựa trên bố cục từng dòng của dữ liệu chuỗi gốc.  Không phân biệt loại chuỗi: Nén và giải nén không ưu tiên hay phân biệt chuỗi là DNA hay mRNA.  Giải nén chuỗi polipeptit (mỗi peptit gồm 10 tới 100 amino axit): Có thể lựa chọn khôi phục chuỗi nén nucleotit trực tiếp tới một chuỗi polipeptit dựa trên khung đọc xác định.

 Sử dụng được cùng với phương pháp nén khác: Một chuỗi mã hóa 2D có thể nén được bằng những ứng dụng nén khác để đưa ra khả năng nén chuỗi gốc trong tương lai. (a) Mô hình Để cho thời gian thực hiện tuyến tính, 2D sử dụng một mô hình tĩnh cho việc mã hóa dữ liệu chuỗi cùng với bất kỳ thông tin nào mà có thể được bao gồm trong đầu vào. 2D cho rằng DNA gồm {A, C, G, T} và mRNA gồm {A, C, G, U}. Đồng nhất hai tập trên, tập kí tự cho mô hình 2D gồm {A, C, G, T, U}.

Việc này giúp khai báo rõ ràng loại chuỗi. Trong trường hợp kí tự không phải nucleotit, 2D hỗ trợ tập giá trị ASCII truyền thống gồm 0 tới 127. Để hoàn thành nén, 2D cần biểu diễn nhiều bazơ sử dụng một byte đơn như khung 2-bit-mỗi-bazơ. 2D sử dụng mã hóa trực tiếp trên một bộ ba (3 bazơ nucleotit liên tiếp) vì những lý do sau.

Đầu tiên, việc này cho phép 3 bazơ nucleotit hợp lại trong một byte đơn mà không phải là nhiều byte. Thứ hai, bằng việc nén bộ ba (thay vì bộ hai) thì các kí tự không mong muốn có thể được mã hóa trực tiếp. Do đó giúp bỏ được pha loại các kí tự thừa và lưu trữ dữ liệu thừa trong cấu trúc thứ cấp. Điều này có lợi cho cả thời gian nén và giải nén.

Sau cùng, biểu diễn theo bộ ba giúp 2D giải nén các chuỗi polipeptit bằng cách biên dịch bộ ba như các codon (chuỗi liên kết 3 nucleotit của DNA hoặc RNA). (b) Mã hóa Ở mức thấp nhất, 2D sử dụng một byte được gán có dải giá trị từ -128 tới 127. Về mặt khái niệm, 7 bit của mỗi byte được sử dụng cho mã hóa và bít quan trọng nhất được sử dụng như một cờ nén. Khung nén này được mô tả ở Hình 1.2 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.

Ít nhất 7 bit được sử dụng để mã hóa dữ liệu. Bit quan trọng nhất được sử dụng như cờ để cho biết ngữ cảnh của byte là dữ liệu nén hay giải nén. Các kí tự được chuyển thành các bộ ba liên tiếp nếu mỗi thành phần là một bazơ nucleotit hợp lệ. Một bộ ba hợp lệ được gán một giá trị đơn trong dải từ 1 tới 125 và cờ nén là một tập hợp ngang hàng với giá trị gán trong khoảng -1 và - 125.

2D sẽ phân biệt dữ liệu chuỗi và các kí tự khác, nếu một giá trị không mong muốn xảy ra thì nó có thể được biên dịch như một giá trị ASCII trong dải từ 0 tới 127, sau đó giá trị này sẽ được lưu nguyên bản và không được gán cờ nén. Trong trường hợp xảy ra giá trị không mong muốn thì các thành phần khác của bộ ba hiện tại vẫn được mã hóa và giải nén độc lập dù có bazơ nucleotit hay không, việc này để duy trì khung đọc hiện tại cho việc hỗ trợ biên dịch một polipeptit chính xác. Mặc định là sự thực hiện có thể giả sử một khung đọc mong muốn bắt đầu cùng với phần bắt đầu của chuỗi. Tuy nhiên, nhiều khung đọc cũng được hỗ trợ dễ dàng bằng việc mã hóa một hoặc hai kí tự đầu tiên khi dữ liệu chưa được nén và sau đó mới bắt đầu thực hiện 2D.

Sau cùng, trong trường hợp kí tự không-biết, 2D biểu diễn nó bằng việc lưu ở dạng chưa nén với giá trị byte được gán nhỏ nhất -128. (c) Thuật toán Đoạn mã giả sau đây mô tả lõi của thuật toán nén 2D, nhận một chuỗi đầu vào và trả về mã hóa 2D dưới dạng mảng byte. begin byte list = new List char triplet = new Array int baseCount = 0 int nonCompressCount = 0 foreach character c in input string if nonCompressCount = 0 then if c is a nucleotide base then triplet at position baseCount = c baseCount = baseCount + 1 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 if baseCount = 3 then convert triplet to byte b and add b to list reset triplet baseCount = 0 else foreach character t in triplet convert t to byte b and add b to list endfor convert c to byte b and add b to list reset triplet nonCompressCount = 2 - baseCount baseCount = 0 else convert c to byte b and add b to list nonCompressCount = nonCompressCount - 1 endfor return list as byte Array end Dữ liệu giải mã được khôi phục theo dòng với độ dài chia hết cho 3. Ví dụ, nếu chuỗi trong tệp nguồn được chia thành dòng, mỗi dòng 70 kí tự thì chuỗi trong tệp khôi phục sẽ có độ dài dòng là 69, 69, 72, 69, 69, 72….

Việc này thực hiện để tăng tính nén toàn bộ mà vẫn duy trì được khả năng đọc. Tuy nhiên, nếu yêu cầu thì có thể thực hiện được phiên bản đọc từng dòng chính xác nhưng sẽ bị giảm tính nén toàn bộ.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Hệ thống thông tin ứng dụng

xử lý và nén dữ liệu sinh học

công nghệ lưu trữ thông tin

tin sinh học và bioinformatics