Luận văn thạc sĩ về bài toán cấu trúc chuỗi nguồn (Founder Sequences Reconstruction Problem)

Luận văn thạc sĩ nghiên cứu vnu uet bài toán cấu trúc chuỗi nguồn founder sequences reconstruction problem 04, đánh giá hiện trạng, phân tích vấn đề, đề xuất biện pháp hoàn thiện

Trường đại học

Đại học Quốc gia Hà Nội

Chuyên ngành

Công nghệ thông tin

Người đăng

Ẩn danh

Thể loại

luận văn thạc sĩ

2015

Phí lưu trữ

30 Point

Mục lục chi tiết

LỜI CẢM ƠN

LỜI CAM ĐOAN

1. CHƯƠNG 1: BÀI TOÁN CẤU TRÚC CHUỖI NGUỒN

1.1. Một số khái niệm trong sinh học

1.2. Phát biểu bài toán cấu trúc chuỗi nguồn

1.3. Mô hình bài toán

1.4. Bài toán 1: tìm số điểm ngắt nhỏ nhất

1.5. Bài toán 2: tìm chuỗi nguồn

1.6. Các phương pháp tiếp cận để giải bài toán cấu trúc chuỗi nguồn

1.7. Phương pháp giải bài toán tìm ra số điểm ngắt nhỏ nhất

1.8. Phương pháp giải bài toán tìm số chuỗi nguồn

2. CHƯƠNG II: GIỚI THIỆU VỀ THUẬT TOÁN ANT COLONY OPTIMIZATION (ACO)

2.1. Giới thiệu về thuật toán ACO

2.2. Mô hình mô phỏng của thuật toán

2.3. Kiến tự nhiên

2.4. Kiến nhân tạo

2.5. Trình bày giải thuật

2.6. Đồ thị cấu trúc

2.7. Trình bày về thuật toán ACO cơ bản

2.8. Thông tin Heuristic

2.9. Quy tắc cập nhật vết mùi

2.10. Thuật toán AS

2.11. Thuật toán ACS

2.12. Thuật toán Max-Min

2.13. Thuật toán Max-Min trơn

2.14. Ứng dụng thuật toán ACO trong việc giải quyết bài toán Người chào hàng Sale Man

2.15. Bài toán người chào hàng trong thực tế

2.16. Phát biểu bài toán người đưa hàng trên mô hình hóa đồ thị

2.17. Áp dụng thuật toán ACO giải quyết bài toán người chào hàng

3. CHƯƠNG III: THUẬT TOÁN MỚI

3.1. Thuật toán tối ưu đàn kiến ACO

3.2. Xây dựng đồ thị cấu trúc

3.3. Xây dựng lời giải tuần tự

3.4. Thông tin heuristic

3.5. Cập nhật mùi

3.6. Thuật toán Max – Min

3.7. Thuật toán Max – Min trơn

3.8. So sánh giữa hai cách cập nhật mùi

3.9. Mô tả thuật toán tối ưu đàn kiến ACO tổng quát giải bài toán cấu trúc chuỗi nguồn

3.10. Số lượng kiến

3.11. Tham số bay hơi

4. CHƯƠNG IV: KẾT QUẢ THỰC NGHIỆM

4.1. Mô tả thực nghiệm

4.2. Các thông số cài đặt

4.3. Kết quả thực nghiệm

4.4. So sánh các kết quả thực nghiệm

4.5. So sánh kết quả với RecBlock

4.6. So sánh kết quả với hai thuật toán cập nhật mùi khác nhau

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

TÀI LIỆU THAM KHẢO

Tóm tắt

I. Tổng quan về bài toán cấu trúc chuỗi nguồn trong công nghệ thông tin

Bài toán cấu trúc chuỗi nguồn (Founder Sequences Reconstruction Problem) là một trong những thách thức lớn trong lĩnh vực công nghệ thông tin và tin sinh học. Bài toán này liên quan đến việc xác định các chuỗi gen di truyền từ các tái tổ hợp hiện có. Việc giải quyết bài toán này không chỉ giúp hiểu rõ hơn về di truyền mà còn có ứng dụng quan trọng trong y học và nghiên cứu sinh học. Các phương pháp hiện tại chủ yếu tập trung vào việc tối ưu hóa số lượng điểm ngắt trong quá trình tái tổ hợp.

1.1. Khái niệm cơ bản về cấu trúc chuỗi nguồn

Cấu trúc chuỗi nguồn đề cập đến các chuỗi DNA và các thông tin di truyền được mã hóa trong đó. Các chuỗi này có thể được phân tích để tìm ra nguồn gốc di truyền của các sinh vật.

1.2. Tầm quan trọng của bài toán trong nghiên cứu di truyền

Giải quyết bài toán cấu trúc chuỗi nguồn giúp các nhà nghiên cứu hiểu rõ hơn về nguồn gốc di truyền và các đặc điểm sinh học của sinh vật, từ đó có thể ứng dụng trong y học và nông nghiệp.

II. Những thách thức trong việc giải quyết bài toán cấu trúc chuỗi nguồn

Bài toán cấu trúc chuỗi nguồn gặp nhiều thách thức, bao gồm việc xác định số lượng điểm ngắt tối thiểu và tìm ra các chuỗi nguồn chính xác. Các yếu tố như độ dài chuỗi, số lượng tái tổ hợp và tính đa dạng di truyền đều ảnh hưởng đến độ phức tạp của bài toán. Việc tối ưu hóa các thuật toán hiện có là cần thiết để đạt được kết quả tốt nhất.

2.1. Độ phức tạp của bài toán

Bài toán có thể trở nên phức tạp khi số lượng tái tổ hợp tăng lên, dẫn đến việc cần nhiều thời gian và tài nguyên để xử lý.

2.2. Các yếu tố ảnh hưởng đến kết quả

Các yếu tố như chất lượng dữ liệu đầu vào, độ chính xác của các thuật toán và khả năng tính toán đều có thể ảnh hưởng đến kết quả cuối cùng của bài toán.

III. Phương pháp giải quyết bài toán cấu trúc chuỗi nguồn hiệu quả

Để giải quyết bài toán cấu trúc chuỗi nguồn, nhiều phương pháp đã được phát triển, bao gồm thuật toán RecBlock và thuật toán tối ưu đàn kiến (ACO). Những phương pháp này giúp tối ưu hóa số lượng điểm ngắt và tìm ra các chuỗi nguồn chính xác hơn. Việc áp dụng các thuật toán này không chỉ giúp cải thiện hiệu suất mà còn giảm thiểu thời gian xử lý.

3.1. Thuật toán RecBlock

RecBlock là một trong những thuật toán được sử dụng phổ biến để giải quyết bài toán cấu trúc chuỗi nguồn. Thuật toán này giúp tìm ra số điểm ngắt tối thiểu và tối ưu hóa quá trình tái tổ hợp.

3.2. Thuật toán tối ưu đàn kiến ACO

ACO là một phương pháp mới được áp dụng để giải quyết bài toán cấu trúc chuỗi nguồn. Thuật toán này sử dụng mô hình hành vi của đàn kiến để tìm ra các giải pháp tối ưu.

IV. Ứng dụng thực tiễn của bài toán cấu trúc chuỗi nguồn

Bài toán cấu trúc chuỗi nguồn có nhiều ứng dụng thực tiễn trong lĩnh vực y học, nông nghiệp và nghiên cứu di truyền. Việc giải quyết bài toán này giúp phát hiện các gen liên quan đến bệnh tật, từ đó hỗ trợ trong việc phát triển các phương pháp điều trị hiệu quả. Ngoài ra, nó cũng có thể được áp dụng trong việc cải thiện giống cây trồng và vật nuôi.

4.1. Ứng dụng trong y học

Việc xác định các chuỗi gen di truyền có thể giúp phát hiện sớm các bệnh di truyền và phát triển các phương pháp điều trị hiệu quả.

4.2. Ứng dụng trong nông nghiệp

Bài toán cấu trúc chuỗi nguồn cũng có thể được áp dụng để cải thiện giống cây trồng và vật nuôi, từ đó nâng cao năng suất và chất lượng sản phẩm.

V. Kết luận và hướng phát triển tương lai của bài toán cấu trúc chuỗi nguồn

Bài toán cấu trúc chuỗi nguồn vẫn còn nhiều thách thức và cơ hội để phát triển. Việc nghiên cứu và cải tiến các thuật toán hiện có sẽ giúp nâng cao hiệu quả giải quyết bài toán này. Trong tương lai, việc áp dụng công nghệ mới như trí tuệ nhân tạo và học máy có thể mở ra những hướng đi mới trong việc giải quyết bài toán cấu trúc chuỗi nguồn.

5.1. Tương lai của nghiên cứu

Nghiên cứu về bài toán cấu trúc chuỗi nguồn sẽ tiếp tục phát triển, với nhiều ứng dụng mới trong các lĩnh vực khác nhau.

5.2. Cải tiến thuật toán

Cải tiến các thuật toán hiện có và phát triển các phương pháp mới sẽ giúp nâng cao hiệu quả giải quyết bài toán cấu trúc chuỗi nguồn.

22/07/2025

Bạn đang xem trước tài liệu:

Luận văn thạc sĩ vnu uet bài toán cấu trúc chuỗi nguồn founder sequences reconstruction problem 04

Tải đầy đủ

Nội dung chính

Tổng quan nghiên cứu

Bài toán cấu trúc chuỗi nguồn là một vấn đề quan trọng trong lĩnh vực tin sinh học, đặc biệt liên quan đến việc tái cấu trúc hệ gen tổ tiên dựa trên các chuỗi tái tổ hợp hiện tại. Theo ước tính, sự khác biệt về hệ gen giữa các cá thể cùng loài chỉ khoảng 0.1%, nhưng lại tạo ra sự đa dạng sinh học đáng kể. Mục tiêu nghiên cứu là tìm ra tập k chuỗi nguồn sao cho các chuỗi tái tổ hợp được tạo thành từ các chuỗi nguồn này với số điểm ngắt (lai ghép) nhỏ nhất, qua đó giúp hiểu rõ hơn về nguồn gốc di truyền và tiến hóa của sinh vật. Nghiên cứu được thực hiện trên các bộ dữ liệu gồm n tái tổ hợp có độ dài m, với k cố định, trong phạm vi các bộ dữ liệu ngẫu nhiên và mô hình tiến hóa chuẩn (random, evo, ms). Ý nghĩa của bài toán được thể hiện qua việc tối ưu hóa số điểm ngắt, giúp giảm thiểu sai số trong việc xác định cấu trúc di truyền tổ tiên, có ứng dụng thiết thực trong y học và nghiên cứu di truyền học phân tử.

Cơ sở lý thuyết và phương pháp nghiên cứu

Khung lý thuyết áp dụng

Luận văn dựa trên các lý thuyết và mô hình sau:

Khái niệm di truyền và tái tổ hợp DNA: Nhiễm sắc thể chứa chuỗi DNA mang thông tin di truyền, các đột biến và tái tổ hợp tạo nên sự đa dạng gen. Đa hình đơn nucleotide (SNP) là biến thể cơ bản trong trình tự DNA.
Bài toán cấu trúc chuỗi nguồn: Tìm tập k chuỗi nguồn sao cho các chuỗi tái tổ hợp được tạo thành với số điểm ngắt tối thiểu. Bài toán được mô hình hóa dưới dạng ma trận nhị phân với ký tự 0,1 biểu thị alen tự nhiên và biến dị.
Thuật toán RecBlock: Thuật toán tham lam xây dựng lời giải từng cột trong ma trận chuỗi nguồn, tối thiểu hóa số điểm ngắt từng bước.
Thuật toán tối ưu đàn kiến (Ant Colony Optimization - ACO): Metaheuristic mô phỏng hành vi tìm đường của đàn kiến, sử dụng thông tin mùi pheromone và heuristic để tìm lời giải tối ưu cho bài toán tổ hợp phức tạp.
Các quy tắc cập nhật mùi trong ACO: Bao gồm Ant System (AS), Ant Colony System (ACS), Max-Min Ant System (MMAS) và Smooth Max-Min Ant System (SMMAS), mỗi quy tắc có cách thức cập nhật mùi khác nhau ảnh hưởng đến hiệu quả tìm kiếm.

Phương pháp nghiên cứu

Nguồn dữ liệu: Ba bộ dữ liệu chính gồm random (dữ liệu ngẫu nhiên), evo và ms (dữ liệu mô hình tiến hóa chuẩn), với các kích thước n ∈ {30, 50}, m ∈ {2n, 3n, 5n}, k ∈ {5,...,10}.
Phương pháp phân tích: So sánh hiệu quả thuật toán RecBlock và thuật toán ACO với các quy tắc cập nhật mùi MMAS và SMMAS. Mỗi bộ dữ liệu được chạy 5 lần, lấy kết quả trung bình.
Timeline nghiên cứu: Nghiên cứu được thực hiện trong năm 2015, bao gồm khảo sát lý thuyết, cài đặt thuật toán, thực nghiệm và phân tích kết quả.
Cỡ mẫu và chọn mẫu: Sử dụng các bộ dữ liệu chuẩn và ngẫu nhiên đại diện cho các trường hợp thực tế trong sinh học phân tử, đảm bảo tính tổng quát và khả năng áp dụng rộng rãi.

Kết quả nghiên cứu và thảo luận

Những phát hiện chính

Hiệu quả thuật toán ACO vượt trội hơn RecBlock: Trên bộ dữ liệu random với k=5, thuật toán ACO giảm số điểm ngắt trung bình khoảng 5% so với RecBlock (ví dụ: 435.4 điểm ngắt của RecBlock giảm xuống thấp hơn với ACO). Tương tự trên bộ dữ liệu evo và ms, ACO cũng cho kết quả tốt hơn với mức cải thiện tương tự.
So sánh các quy tắc cập nhật mùi trong ACO: Thuật toán SMMAS cho kết quả ổn định và hiệu quả hơn so với MMAS trên các bộ dữ liệu rnd_30_60, evo_50_250 và ms_50_250, thể hiện qua số điểm ngắt thấp hơn và độ hội tụ nhanh hơn.
Ảnh hưởng của số lượng kiến và tham số bay hơi: Sử dụng 10 con kiến và tham số bay hơi ρ=0.1 giúp cân bằng giữa khám phá và khai thác, tăng khả năng tìm kiếm lời giải tối ưu trong không gian lớn.
Tính khả thi của mô hình đồ thị cấu trúc: Việc xây dựng đồ thị gồm m cột và 2^k hàng, mỗi hàng là hoán vị của các bit 0 và 1, giúp mô hình hóa chính xác bài toán và hỗ trợ hiệu quả cho thuật toán ACO trong việc xây dựng lời giải tuần tự.

Thảo luận kết quả

Kết quả thực nghiệm cho thấy thuật toán ACO, với sự kết hợp giữa thông tin heuristic (nghịch đảo số điểm ngắt nhỏ nhất tại mỗi cột) và thông tin học tăng cường (vết mùi pheromone), vượt trội hơn thuật toán RecBlock vốn chỉ sử dụng heuristic đơn thuần. Điều này phù hợp với các nghiên cứu trước đây về ưu điểm của metaheuristic trong giải bài toán tổ hợp NP-khó. Việc áp dụng các quy tắc cập nhật mùi khác nhau trong ACO cũng cho thấy tầm quan trọng của chiến lược học trong quá trình tìm kiếm, trong đó SMMAS giúp duy trì sự đa dạng và tránh tắc nghẽn mùi, từ đó cải thiện hiệu quả tìm kiếm. Các biểu đồ so sánh số điểm ngắt trung bình giữa các thuật toán trên từng bộ dữ liệu sẽ minh họa rõ ràng sự khác biệt này, đồng thời bảng thống kê chi tiết kết quả thực nghiệm cung cấp bằng chứng cụ thể cho các phát hiện.

Đề xuất và khuyến nghị

Áp dụng thuật toán ACO với quy tắc cập nhật mùi SMMAS trong nghiên cứu di truyền học: Đề xuất sử dụng ACO-SMMAS để phân tích dữ liệu gen lớn nhằm tối ưu hóa việc tái cấu trúc chuỗi nguồn, giảm thiểu sai số trong xác định điểm ngắt, thời gian thực hiện trong vòng 6-12 tháng, do các nhóm nghiên cứu sinh học phân tử và tin sinh học thực hiện.
Tăng cường số lượng kiến và điều chỉnh tham số bay hơi linh hoạt: Khuyến nghị điều chỉnh số lượng kiến từ 10 đến 20 và tham số bay hơi ρ trong khoảng 0.05-0.15 tùy theo kích thước dữ liệu để cân bằng giữa khám phá và khai thác, nâng cao hiệu quả thuật toán trong các dự án nghiên cứu tiếp theo.
Phát triển giao diện phần mềm tích hợp thuật toán ACO cho người dùng không chuyên: Đề xuất xây dựng công cụ phần mềm thân thiện, hỗ trợ nhập dữ liệu gen và xuất kết quả phân tích cấu trúc chuỗi nguồn, giúp các nhà nghiên cứu y sinh và di truyền học dễ dàng áp dụng trong thực tế, dự kiến hoàn thành trong 1 năm.
Mở rộng nghiên cứu áp dụng ACO cho các bài toán di truyền phức tạp hơn: Khuyến nghị nghiên cứu tiếp tục áp dụng ACO cho các bài toán đa nguồn, đa điểm ngắt phức tạp hơn, kết hợp với các kỹ thuật học máy để nâng cao độ chính xác và khả năng mở rộng, phù hợp với xu hướng phát triển công nghệ sinh học hiện đại.

Đối tượng nên tham khảo luận văn

Nhà nghiên cứu tin sinh học và di truyền học phân tử: Luận văn cung cấp phương pháp tối ưu hóa cấu trúc chuỗi nguồn, giúp họ hiểu và áp dụng thuật toán ACO trong phân tích dữ liệu gen phức tạp.
Chuyên gia phát triển phần mềm sinh học: Thông tin chi tiết về mô hình bài toán và thuật toán ACO hỗ trợ phát triển các công cụ phân tích gen hiệu quả, nâng cao chất lượng sản phẩm phần mềm.
Sinh viên và học viên cao học ngành công nghệ thông tin và sinh học: Tài liệu là nguồn tham khảo quý giá về ứng dụng thuật toán metaheuristic trong bài toán thực tế, giúp nâng cao kiến thức và kỹ năng nghiên cứu.
Các tổ chức y tế và phòng thí nghiệm di truyền: Có thể áp dụng kết quả nghiên cứu để cải thiện quy trình phân tích gen, hỗ trợ chẩn đoán và nghiên cứu bệnh di truyền với độ chính xác cao hơn.

Câu hỏi thường gặp

Bài toán cấu trúc chuỗi nguồn là gì?
Bài toán này nhằm tìm ra tập k chuỗi nguồn sao cho các chuỗi tái tổ hợp được tạo thành với số điểm ngắt nhỏ nhất, giúp xác định cấu trúc di truyền tổ tiên dựa trên dữ liệu gen hiện tại.
Tại sao sử dụng thuật toán ACO để giải bài toán này?
ACO mô phỏng hành vi tìm đường của đàn kiến, kết hợp thông tin heuristic và học tăng cường, giúp tìm lời giải gần tối ưu cho các bài toán tổ hợp phức tạp như cấu trúc chuỗi nguồn, vượt trội hơn các thuật toán tham lam truyền thống.
Quy tắc cập nhật mùi SMMAS có ưu điểm gì?
SMMAS duy trì sự đa dạng của vết mùi, tránh tắc nghẽn và giảm tốc độ tụt mùi quá nhanh ở các cạnh không thuộc lời giải tốt, giúp thuật toán khám phá không gian tìm kiếm hiệu quả hơn.
Các bộ dữ liệu thực nghiệm gồm những gì?
Nghiên cứu sử dụng ba bộ dữ liệu chính: random (dữ liệu ngẫu nhiên), evo và ms (dữ liệu mô hình tiến hóa chuẩn), với kích thước và số lượng tái tổ hợp đa dạng, đại diện cho các trường hợp thực tế trong sinh học phân tử.
Làm thế nào để đánh giá hiệu quả thuật toán?
Hiệu quả được đánh giá qua số điểm ngắt trung bình trên các bộ dữ liệu, thời gian chạy và độ ổn định của kết quả qua nhiều lần chạy, so sánh với thuật toán RecBlock và các biến thể ACO khác.

Kết luận

Thuật toán ACO, đặc biệt với quy tắc cập nhật mùi SMMAS, cho kết quả tối ưu hơn khoảng 5% so với thuật toán RecBlock trong bài toán cấu trúc chuỗi nguồn.
Việc xây dựng đồ thị cấu trúc và sử dụng thông tin heuristic từ RecBlock giúp tăng hiệu quả tìm kiếm của ACO.
Số lượng kiến và tham số bay hơi đóng vai trò quan trọng trong việc cân bằng khám phá và khai thác, ảnh hưởng đến chất lượng lời giải.
Kết quả thực nghiệm trên các bộ dữ liệu random, evo và ms chứng minh tính khả thi và hiệu quả của phương pháp đề xuất.
Hướng phát triển tiếp theo là mở rộng ứng dụng ACO cho các bài toán di truyền phức tạp hơn và phát triển công cụ phần mềm hỗ trợ nghiên cứu.

Các nhà nghiên cứu và chuyên gia trong lĩnh vực tin sinh học, di truyền học và công nghệ thông tin được khuyến khích áp dụng và phát triển thêm thuật toán ACO trong các dự án nghiên cứu và ứng dụng thực tế nhằm nâng cao hiệu quả phân tích dữ liệu gen.

Trích đoạn nội dung tài liệu

Chương 1: Trình bày sơ lược các khái niệm sinh học, phát biểu bài toán cấu trúc chuỗi nguồn. Giới thiệu một vài thuật toán giải quyết bài toán, trình bày lại thuật toán RecBlock. Chương 2: Giới thiệu thuật toán Ant colony optimization (ACO) và một vài thuật toán cập nhật mùi khác nhau trong ACO. Ví dụ về bài toán người chào hàng giải quyết bằng thuật toán ACO.

Chương 3: Đề xuất thuật toán mới, đó là thuật toán Ant colony optimization (ACO) để giải quyết bài toán cấu trúc chuỗi nguồn. Đưa ba quy tắc cập nhật mùi khác nhau đó là ACS, MMAS, SMMAS để giải quyết bài toán. Chương 4: Đưa ra kết quả thực nghiệm của luận văn, so sánh kết quả của thuật toán ACO với các quy tắc cập nhật mùi khác nhau, so sánh kết quả của thuật toán ACO với thuật toán RecBlock. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 CHƢƠNG I.

BÀI TOÁN CẤU TRÚC CHUỖI NGUỒN 1. Một số khái niệm trong sinh học 1. Một số khái niệm về di truyền Nhiễm sắc thể: Là một cấu trúc trong tế bào chứa hai loại thông tin gồm chuỗi DNA và Protein. Trong đó chuỗi DNA mang thông tin di truyền xác định chức năng và đặc điểm của sinh vật, Protein quyết định đến chức năng và quá trình phát triển của sinh vật.

Tập hợp tất các nhiễm sắc thể của một sinh vật được gọi là hệ gen của sinh vật đó.1 Cấu trúc nhiễm sắc thể Chuỗi DNA (Deoxyribonucleic Acid): Là một chuỗi cấu trúc xoắn kép gồm hai sợi liên kết, bắt cặp với nhau (A-T, G-C). Trên mỗi một sợi được biểu diễn bởi một xâu kí tự chứa 4 loại kí tự: A,T,G,C (tên viết tắt của 4 loại nucleotide). Ví dụ, xâu kí tự “CAGTTGACGGCGAACCGTGCGAGCAGACGGTCGTT“ là một chuỗi DNA. Gen: Là một đoạn DNA mang thông tin hướng dẫn tổng hợp protein và có một vị trí nhất định trên nhiễm sắc thể.

Gen chịu trách nhiệm về những đặc điểm di truyền.2 Minh họa gen trên nhiễn sắc thể Alen: Các dạng khác nhau của một gen (không cùng xảy ra) nằm tại cùng một vị trí xác định trên một nhiễm sắc thể cụ thể. Locus: Vị trí riêng biệt của một đoạn DNA mang thông tin (hay còn gọi là gen) trên nhiễm sắc thể. Nhiều locus được gọi là loci. LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 SNP: Được viết tắt của “single nucleotide polymorphism” được gọi là đa hình đơn nucleotide (đọc là sờ-níp ), là những biến thể trình tự DNA xảy ra khi một đơn nucleotide (A, T, C, hoặc G) trong trình tự bộ gen bị thay đổi.

Được minh họa bằng hình ảnh 1.3 Một đột biến điểm xảy ra trong phân tử DNA thay thế cặp nucleotide A- T bằng cặp nucleotide G-C Di truyền: là hiện tượng chuyển những tính trạng của cha mẹ cho con cái thông qua gen của bố mẹ. Trong sinh học, di truyền chuyển những đặc trưng sinh học từ một sinh vật cha mẹ đến con cái và nó đồng nghĩa với di chuyển gen, gen thừa nhận mang thông tin sinh học (hay thông tin di truyền). Thông tin di truyền: là các thông tin được mã hóa trong các bộ nucleotide, được di truyền từ thế hệ này sang thế hệ khác ở cấp độ phân tử thông qua các hoạt động nhân đôi DNA. Phép lai tạo: là quá trình hình thành nhiễm sắc thể (NST) mới trên cơ sở NST cha mẹ bằng cách ghép một hay nhiều đoạn gen của hai hay nhiều NST cha mẹ với nhau.

Quá trình đột biến DNA Theo thuyết tiến hóa của Darwin thì các loài sinh vật đều tiến hóa từ một tổ tiên chung [4]. Hệ gien của các sinh vật bị biến đổi theo thời gian trong quá trình tiến hóa dưới tác động của nhiều yếu tố khác nhau và có thể dẫn đến việc tạo ra các loài sinh vật mới. LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Minh họa quá trình tiến hóa của các loài từ một tổ tiên chung Hai trình tự tương đồng: Hai trình tự DNA của hai sinh vật khác nhau gọi là tương đồng nếu như chúng cùng tiến hóa từ một trình tự DNA tổ tiên chung.

Quá trình đột biến của các trình tự DNA: Trong quá trình tiến hóa, các nucleotit trên trình tự DNA có thể bị đột biến. Ba phép đột biến là: đột biến thay thế, đột biến mất, đột biến thêm Hình 1. Quá trình đột biến giữa hai trình tự DNA Hình 1.5 minh họa quá trình đột biến của hai trình tự X = “AGGTGGT” và Y = “ACGGTGG” từ một trình tự DNA tổ tiên chung XY = “ACGGTGGT”. Các phép đột biến trên trình tự DNA trong quá trình tiến hóa sẽ làm cho hệ gien của các loài sinh vật khác nhau cả về nội dung cũng như độ dài.

Các cá thể của cùng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 13 một loài (ví dụ hai người) cũng có hệ gien khác nhau. Tuy nhiên, sự khác biệt giữa hệ gien của hai người vào khoảng 0. Chính sự khác biệt 0.1% này tạo ra sự khác biệt giữa hai người khác nhau. Đột biến giữa hai trình tự prôtêin: Các đột biến nuclêotít trên các trình tự DNA trong quá trình tiến hóa sẽ dẫn đến các đột biến trên các trình tự axít amin mà chúng mã hóa.

Các đột biến giữa hai trình tự prôtêin cũng có thể xuất hiện trong quá trình tổng hợp prôtêin từ các trình tự DNA. Ví dụ hai trình tự DNA X = “CCTGAGCCAATATTGATGAA” và Y = “CCGGAGCCAACTATTGTT" sẽ mã hóa hai prôtêin tương ứng X = “PEPTIDE” và Y = “PEPTV”. Khái quát về các Haplotype đƣợc tạo từ các tái tổ hợp Một haplotype của n vị trí là một chuỗi các nucleotide kích thước m. Nó mô hình một đoạn nhiễm sắc thể với sự đa hình do sự thay thế nucleotide, được gọi là đa hình đơn nucleotide (SNP).

SNPs trong một quần thể chỉ có hai nucleotide được quan sát thấy ở mỗi vị trí: các alen của tổ tiên và alen mới. Sự đa dạng của một Haplotype đại diện giống như một chuỗi các vị trí đa hình đơn trong trình tự DNA [12]. Trong quá trình tái tổ hợp các vị trí tăng lên theo cấp số nhân. Để tìm ra nguyên nhân của việc tái tổ hợp được so sánh với các vị trí đa hình và là vô cùng khó.

Tuy nhiên trong bộ gen của người mỗi Haplotype đều đa dạng và có những Haplotype chiếm ưu thế dùng để đại diện cho việc tìm ra những Haplotype tổ tiên. Khoảng cách giữa các thế hệ có thể giảm vì có thể tiến hành thực hiện xây dựng. Một sự tái tổ hợp giữa hai haplotype X và Y có thể được mô hình hóa như một hoạt động phá vỡ và trao đổi các phần đối diện của X và Y. Tức là nó là hoạt động của dạng: X5X3, Y5Y3  X5Y3, Y5X3 với X = X5X3, Y = Y5Y3 (biểu thị 5 và 3 là các phân đoạn của X và Y và X5, Y5 cũng như Y3, X3 có độ dài là giống nhau.

Trong mô hình của con người, chỉ có một trong các haplotype kết quả được truyền đi. Vì vậy, một sự tái tổ hợp có thể được biểu diễn như X, Y  Z, Z là 1 tái tổ hợp. Cho C = {C1, C2, …, Ch} là một tập các Haplotype chung và R là một tái tổ hợp mới. Vấn đề là phải tìm một lộ trình tái tổ hợp tối thiểu (tối thiểu của chuỗi recombinations) tạo ra từ một tập hợp con CR của C.

Một tái tổ hợp X, Y  Z trong 1 lộ trình như sau: X and/or Y trong CR hoặc được tạo từ tái tổ hợp trước đó của các phần tử CR. R là alen với C nếu và chỉ nếu, cho vị trí bất kỳ i trong R, có tồn tại một haplotype Ck của C như vậy mà R[i] = Ck[i]. Ở đây, cho bất kỳ haplotype X, X[i] biểu thị phần tử i của X. Ví dụ, các haplotype: R = C A C T T G A A C G Alen với C = {C1, C2, C3, C4, C5}: LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 14 C1 = A C G T C T G A T T C2 = C A G A T G G A C G C3 = C C G A T G G C C G C4 = A A C T T T G A C T C5 = A C C T C G A A T G Nếu R không alen với C, R có thể không được tạo từ tái tổ hợp của C.

các vị trí không alen yêu cầu một đột biến mới. Ngược lại, được hiểu là R alen với C và R được tạo bằng các vị trí của tái tổ hợp C. Như vậy chúng ta thu được một tập các Hapotype như bảng (1. Mỗi haplotype là một xâu độ dài m của các ký tự {0, 1}.

Ký tự 0 biểu thị mã hóa alen dạng tự nhiên và ký tự 1 biểu thị alen dạng biến dị. Tập HAP tƣơng đƣơng với haplotype C Hk pos 1 2 3 4 5 6 7 8 9 10 HAP1 0 0 0 1 0 0 0 1 0 0 HAP2 1 1 0 0 1 1 0 1 1 1 HAP2 1 0 0 0 1 1 0 0 1 1 HAP4 0 1 1 1 1 0 0 1 1 0 HAP5 0 0 1 1 0 1 1 1 0 1 Khái niệm về điểm ngắt: Ngoài tế bào, các nhiễm sắc thể kết hợp trong các tế bào của con người. Có một NST từ bố, và một trong những NST khác từ phía của người mẹ. Nhưng thế hệ của NST trong quá trình chuyển giao không phải là tĩnh.

Trong quá trình hình thành trứng và tinh trùng, NST tái tổ hợp đó là sự tích tụ của các mảnh vỡ NST với nhau và trao đổi. Hai mảnh vỡ liên tiếp nhau không cùng một NST thì được gọi là điểm ngắt. Sau nhiều thế hệ, thông qua các sự kiện tái tổ hợp lặp đi lặp lại, các mảnh vỡ nhiễm sắc thể ban đầu của tổ tiên đã bị phá vỡ. Một số mảnh vỡ nhiễm sắc thể của tổ tiên trong các chuỗi DNA của nhiều thế hệ con cháu xuất hiện.

Những phần này là haplotype, nhà di truyền học có thể sử dụng nó để tìm kiếm bệnh hoặc gen liên quan đến đặc điểm quan trọng về mặt y khoa khác. LUAN VAN CHAT LUONG download : add luanvanchat@agmail. Phát biểu bài toán cấu trúc chuỗi nguồn Trong nghiên cứu về sự tiến hóa, việc xây dựng lại cấu trúc chuỗi nguồn có một ý nghĩa lớn với lĩnh vực sinh học. Mục tiêu của bài toán là tìm ra chuỗi gen di truyền thích hợp được thiết lập để đạt được chuỗi di truyền của cá thể.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Chủ đề

Thuật toán tối ưu hóa bầy đàn

Tin sinh học và phân tích di truyền

Tái cấu trúc chuỗi gen tổ tiên

Ứng dụng AI trong sinh học phân tử