Trường đại học
Đại học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí MinhChuyên ngành
Khoa Học Máy TínhNgười đăng
Ẩn danhThể loại
Luận Văn Thạc Sĩ2021
Phí lưu trữ
30.000 VNĐMục lục chi tiết
Tóm tắt
Metagenomics là ngành khoa học cho phép nghiên cứu trực tiếp vật liệu di truyền thu thập từ môi trường mà không cần phân lập và nuôi cấy các sinh vật đơn lẻ. Nghiên cứu này giúp chúng ta hiểu sâu hơn về cộng đồng vi sinh vật, mang lại lợi ích trong nhiều lĩnh vực như công nghệ sinh học, khoa học trái đất, nông nghiệp. Các dự án metagenomic ban đầu sử dụng phương pháp giải trình tự shotgun toàn bộ hệ gen với công nghệ giải trình tự Sanger. Tuy nhiên, kỹ thuật này tốn kém và mất nhiều thời gian để tạo ra các trình tự, trong khi mỗi dự án phải giải trình tự một lượng lớn nội dung DNA. Nhờ sự phát triển của các kỹ thuật giải trình tự thế hệ tiếp theo như Illumina, 454 pyrosequencing, SoLID sequencing có khả năng tạo ra một lượng lớn trong thời gian chấp nhận được, các dự án metagenomic trở nên khả thi. Tuy nhiên, nó cũng đặt ra một thách thức tính toán cho cộng đồng nghiên cứu. Do thực tế là các mẫu vi sinh vật có nguồn gốc từ cộng đồng của chúng được giải trình tự trực tiếp mà không cần phân lập trong phòng thí nghiệm, các bộ dữ liệu metagenomic chứa các trình tự thuộc về các sinh vật khác nhau. Do đó, một trong những nhiệm vụ quan trọng trong các dự án metagenomic, được gọi là “binning”, là phân loại các trình tự thành các nhóm sinh vật có quan hệ gần gũi.
Metagenomics kết hợp sức mạnh của genomics, tin sinh học và sinh học hệ thống trong việc nghiên cứu cộng đồng vi sinh vật. Các trình tự thu được từ các nghiên cứu bộ gen trực tiếp từ môi trường được phân mảnh. Mỗi mảnh được giải trình tự từ một loài cụ thể, nhưng có nhiều loài khác nhau trong một mẫu, mà hầu hết chưa xác định được bộ gen đầy đủ. Trong nhiều trường hợp không thể xác định được nguồn gốc của loài. Độ dài của mỗi mảnh có thể nằm trong khoảng từ 20 basepair (bp) đến 700 bp, tùy thuộc vào phương pháp giải trình tự được sử dụng. Các trình tự ngắn được phân tách từ các loài ban đầu có thể được ráp nối lại với độ dài thường không quá 5000 bp; do đó, việc tái cấu trúc toàn bộ bộ gen nói chung là không dễ dàng. Việc trích xuất thông tin tối đa từ các thư viện metagenomic sẽ tiếp tục là thách thức, chủ yếu là do kích thước lớn và độ phức tạp của các bộ dữ liệu.
Bài toán gom cụm trình tự metagenomic là một trong những vấn đề quan trọng cần giải quyết khi phân tích dữ liệu metagenomic. Mục tiêu của bài toán là phân chia trình tự (gọi là sequences, reads, hay fragments) theo từng nhóm vi sinh vật (thuộc cùng một hệ gien hay thuộc các hệ gien có quan hệ gần nhau [9]). Đối với nhà sinh học, bài toán này là cơ sở để có thể xác định những nhóm vi sinh vật nào tồn tại trong mẫu thực nghiệm và phát hiện những nhóm vi sinh vật mới.
Sự đa dạng chủng loại vi sinh vật, số lượng dữ liệu lớn và sai sót trong các bộ dữ liệu trình tự sinh ra từ các máy giải mã trình tự, gây ra những khó khăn cho việc phân tích dữ liệu mà cụ thể là bài toán gom cụm. Bên cạnh đó với việc rút ngắn thời gian cũng như chi phí cho việc giải mã trình tự của các máy giải mã trình tự thế hệ tiếp theo (Next Generation Sequencing - NGS) làm cho độ dài của các trình tự bị rút ngắn, các trình tự ngắn này thiếu thông tin làm cho việc gom cụm gặp nhiều khó khăn. Hơn nữa, việc thao tác với các tập dữ liệu trình tự lớn đòi hỏi các kỹ thuật tính toán chuyên sâu, ảnh hưởng trực tiếp tới hiệu năng tính toán. Đa số các ứng dụng phân tích dữ liệu metagenomic hiện tại được thiết kế trên nền tảng các máy tính đơn, không đáp ứng được các yêu cầu tính toán của các dự án metagenomic lớn đang ngày càng tăng nhanh về số lượng. Cũng như không tận dụng hết sức mạnh phần cứng đang ngày càng mạnh mẽ hơn và rẻ hơn hay các hệ thống cụm máy tính sẵn có.
Việc rút ngắn thời gian cũng như chi phí cho việc giải mã trình tự của các máy giải mã trình tự thế hệ tiếp theo (Next Generation Sequencing - NGS) làm cho độ dài của các trình tự bị rút ngắn, các trình tự ngắn này thiếu thông tin làm cho việc gom cụm gặp nhiều khó khăn.
Việc thao tác với các tập dữ liệu trình tự lớn đòi hỏi các kỹ thuật tính toán chuyên sâu, ảnh hưởng trực tiếp tới hiệu năng tính toán. Đa số các ứng dụng phân tích dữ liệu metagenomic hiện tại được thiết kế trên nền tảng các máy tính đơn, không đáp ứng được các yêu cầu tính toán của các dự án metagenomic lớn đang ngày càng tăng nhanh về số lượng. Cũng như không tận dụng hết sức mạnh phần cứng đang ngày càng mạnh mẽ hơn và rẻ hơn hay các hệ thống cụm máy tính sẵn có.
Nghiên cứu này đề xuất một giải pháp song song kết hợp vận dụng điểm mạnh của công nghệ đa nhân (multi-core) và đa node (multi-node) nhằm đáp ứng nhu cầu phân tích nhanh chóng và hiệu quả cho việc phân tích dữ liệu metagenomic mà cụ thể là bài toán gom cụm trình tự. Các kết quả thực nghiệm cho thấy giải pháp đề xuất giúp cải thiện đáng kể hiệu năng của bài toán mà không làm thay đổi độ chính xác của kết quả.
Giải pháp song song kết hợp vận dụng điểm mạnh của công nghệ đa nhân (multi-core) và đa node (multi-node) nhằm đáp ứng nhu cầu phân tích nhanh chóng và hiệu quả cho việc phân tích dữ liệu metagenomic mà cụ thể là bài toán gom cụm trình tự.
Các kết quả thực nghiệm cho thấy giải pháp đề xuất giúp cải thiện đáng kể hiệu năng của bài toán mà không làm thay đổi độ chính xác của kết quả.
Giải pháp song song đề xuất bao gồm các bước chính: song song hóa quá trình tiền xử lý dữ liệu, gom nhóm trình tự và xây dựng seed, và gom cụm các nhóm. Mỗi bước được thiết kế để tận dụng tối đa khả năng tính toán song song, giảm thiểu thời gian xử lý tổng thể.
Quá trình tiền xử lý dữ liệu, bao gồm đọc file, lọc dữ liệu, và tính toán các đặc trưng, được song song hóa để tận dụng khả năng của nhiều bộ xử lý. Điều này giúp giảm đáng kể thời gian chuẩn bị dữ liệu cho các bước tiếp theo.
Việc gom nhóm trình tự và xây dựng seed được thực hiện song song để tăng tốc quá trình khởi tạo các cụm. Các seed được chọn dựa trên các tiêu chí nhất định để đảm bảo chất lượng của các cụm ban đầu.
Quá trình gom cụm các nhóm được thực hiện song song để tận dụng tối đa khả năng tính toán của hệ thống. Các nhóm được gộp lại dựa trên độ tương đồng giữa chúng, và quá trình này được lặp lại cho đến khi đạt được kết quả mong muốn.
Kết quả thực nghiệm cho thấy giải pháp song song đề xuất giúp cải thiện đáng kể hiệu năng của bài toán gom cụm trình tự metagenomic. Độ tăng tốc (speedup) đạt được là đáng kể, đặc biệt khi tăng số lượng bộ xử lý. Độ chính xác của thuật toán được bảo toàn so với các phương pháp tuần tự.
Độ tăng tốc (speedup) đạt được là đáng kể, đặc biệt khi tăng số lượng bộ xử lý. Điều này chứng tỏ khả năng mở rộng của giải pháp song song.
Hiệu năng của giải pháp tăng lên khi tăng số lượng bộ xử lý. Tuy nhiên, có một điểm giới hạn, sau đó việc tăng thêm bộ xử lý không còn mang lại nhiều cải thiện về hiệu năng.
Độ chính xác của thuật toán được bảo toàn so với các phương pháp tuần tự. Điều này cho thấy giải pháp song song không làm giảm chất lượng của kết quả.
Giải pháp song song cho bài toán gom cụm trình tự metagenomic đã chứng minh được hiệu quả trong việc cải thiện hiệu năng tính toán mà vẫn đảm bảo độ chính xác. Hướng phát triển trong tương lai có thể tập trung vào việc tối ưu hóa thuật toán và tận dụng các công nghệ mới như GPU và điện toán đám mây.
Nghiên cứu đã đề xuất và đánh giá một giải pháp song song hiệu quả cho bài toán gom cụm trình tự metagenomic, giúp giảm thời gian xử lý và đáp ứng nhu cầu phân tích dữ liệu lớn.
Hướng phát triển trong tương lai có thể tập trung vào việc tối ưu hóa thuật toán và tận dụng các công nghệ mới như GPU và điện toán đám mây để tăng cường hiệu năng hơn nữa.
Bạn đang xem trước tài liệu:
Giải pháp song song cho vấn đề gom cụm trình tự metagenomic