Khám phá bằng tính toán về virus và vật chủ của chúng

Khám phá virus và vật chủ bằng phương pháp tính toán. Bài viết về ứng dụng công nghệ trong nghiên cứu virus học, xác định mối quan hệ virus-vật chủ hiệu quả.

Trường đại học

Universiteit Van Amsterdam

Chuyên ngành

Virology

Người đăng

Ẩn danh

2023

167
2
0

Phí lưu trữ

45 Point

Tóm tắt

I. Tổng Quan Về Computational Discovery of Viruses Host

Khám phá virus đã phát triển từ việc xác định các tác nhân gây bệnh hữu hình sang một lĩnh vực tính toán phức tạp. Từ 'virus', có nguồn gốc từ tiếng Latinh có nghĩa là chất độc, ban đầu được sử dụng rộng rãi để mô tả các tác nhân gây bệnh truyền nhiễm. Sự phát triển của các kỹ thuật nuôi cấy cho phép cô lập và nghiên cứu các tác nhân gây bệnh tế bào, dẫn đến một giả định rằng tất cả các bệnh truyền nhiễm đều do vi khuẩn, nấm và động vật nguyên sinh gây ra. Tuy nhiên, các thí nghiệm như thí nghiệm của Loeffler và Frosch cho thấy tác nhân gây bệnh lở mồm long móng có thể đi qua các bộ lọc giữ lại vi khuẩn. Beijerinck cũng phát hiện ra rằng tác nhân gây bệnh khảm thuốc lá có thể đi qua các bộ lọc tương tự. Những phát hiện này đã tạo ra một loại tác nhân gây bệnh mới được gọi là 'virus có thể lọc được'. Sự phát triển này đã dẫn đến sự hiểu biết hiện đại về virus là các tác nhân không phải tế bào cần tế bào chủ để nhân lên.

1.1. Lịch Sử Phát Triển Của Các Phương Pháp Phát Hiện Virus

Các phương pháp phát hiện virus ban đầu phụ thuộc vào các bệnh do chúng gây ra. Sự phát triển của các kỹ thuật như kết tinh virus khảm thuốc lá (TMV) và khám phá axit nucleic virus đã cho phép phân tích sinh hóa và hình thái của virus. Sự phát triển của nuôi cấy tế bào và mô eukaryotic đã cho phép cô lập và nghiên cứu nhiều virus hơn. Với sự tiến bộ trong miễn dịch học, các virus được phân biệt bằng các thuộc tính kháng nguyên của chúng, dẫn đến việc xác định các serotype. Đến những năm 1970, các nhà khoa học đã có các công cụ mạnh mẽ để tìm và mô tả các virus gây bệnh mới, nhưng một cuộc cách mạng trong sinh học phân tử đang diễn ra.

1.2. Giới Hạn Của Các Phương Pháp Phát Hiện Virus Truyền Thống

Mặc dù có những tiến bộ trong virus học vào thế kỷ 20, vẫn còn những thách thức đáng kể. Một trong số đó, như Twort đã thảo luận vào năm 1915, là việc xác định hiệu quả các virus không gây ra bệnh rõ ràng hoặc hiệu ứng tế bào bệnh. Đồng thời, việc tìm kiếm các virus lây nhiễm các loài chủ khó cô lập trong nuôi cấy tế bào cũng là một trở ngại. Các kỹ thuật phân tử cung cấp các giải pháp đầy hứa hẹn, nhưng vẫn có thông lượng thấp và phức tạp về mặt hậu cần. Việc xác định host thường bị bỏ qua hoặc được suy ra từ bệnh, không có cách tiếp cận một cách toàn diện và có hệ thống. Cần có những cách tiếp cận mới để xác định host virus một cách chính xác và hiệu quả.

II. Thách Thức Trong Dự Đoán Tương Tác Virus Host Hiện Nay

Xác định host của virus đã trở thành một thách thức lớn với sự ra đời của metagenomics HTS. Trong khi các phương pháp trước đây bắt đầu bằng việc xác định một căn bệnh và sau đó xác định virus gây ra nó, thì nhiều virus mới được phát hiện ngày nay có trình tự bộ gen đã biết nhưng host chưa được biết. Điều này có thể là do nhiều vi khuẩneukaryotic có thể bị nhiễm virus sống trong cùng một môi trường. Việc cô lập một virus cụ thể trong nuôi cấy tế bào có thể khó khăn do các host khác nhau và yêu cầu nuôi cấy đặc biệt của chúng. Do đó, cần có các phương pháp tính toán để xác định host của virus một cách chính xác.

2.1. Vấn Đề Stray Viruses và Nhu Cầu Về Giải Pháp Tính Toán

Nhiều virus ngày nay có trình tự bộ gen đã biết nhưng host chưa được biết, được gọi là 'stray viruses'. Vấn đề này phức tạp hơn do tiềm năng host đa dạng trong các môi trường khác nhau, làm lu mờ các liên kết giữa các virus riêng lẻ và host cụ thể của chúng. Do đó, không có thông tin về host, không thể kết luận rõ ràng về tầm quan trọng về y tế hoặc thú y của virus, và không thể bối cảnh hóa sự tiến hóa của chúng. Các phương pháp phòng thí nghiệm để giải quyết danh tính host thay đổi về tính hữu ích của chúng. Do đó, đối với các stray viruses, các phương pháp tính toán xác định host hiện là phù hợp nhất.

2.2. Hạn Chế Của Các Phương Pháp Xác Định Host Bằng Thực Nghiệm

Các phương pháp phòng thí nghiệm để giải quyết danh tính host khác nhau về tính hữu ích của chúng. Việc cố gắng cô lập một stray virus trong nuôi cấy tế bào có thể phù hợp khi nghi ngờ một host cụ thể, nhưng nếu không, thì thông lượng thấp và khó thành công. Nhiều taxa host tiềm năng chưa bao giờ được cô lập trong nuôi cấy và không có phòng thí nghiệm đơn lẻ nào duy trì tất cả các hệ thống nuôi cấy đã thiết lập. Hứa hẹn hơn, các kỹ thuật chuẩn bị thư viện ngăn các mẫu ở cấp độ tế bào đơn lẻ trước khi giải trình tự cho phép thu giữ virus bên trong các sinh vật có thể xác định cụ thể.

III. Phương Pháp Tin Sinh Học Xác Định Host Bằng Phân Tích Gene

Các phương pháp tin sinh học sử dụng phân tích bộ gen để xác định host của virus. Phân tích phylogenetic thường được sử dụng để tìm virus có quan hệ họ hàng gần nhất với host đã biết, vì chủ nghĩa virus thường là một đặc điểm được bảo tồn của virus, cho phép các dự đoán có căn cứ. Virus thường đồng tiến hóa với host của chúng, dẫn đến các mẫu phân nhánh tiến hóa tương tự có thể giữ trong hàng triệu năm. Tuy nhiên, độ chính xác của suy luận phụ thuộc vào mức độ chuyển đổi host trong dòng dõi, phạm vi host của virus và mức độ liên quan đến virus với host đã xác định.

3.1. Ưu Điểm và Hạn Chế Của Phân Tích Phylogenetic Truyền Thống

Phân tích phylogenetic là một công cụ hữu ích để dự đoán host của virus, đặc biệt khi có thông tin đầy đủ về các virus liên quan. Tuy nhiên, phương pháp này có thể không chính xác nếu có sự chuyển đổi host thường xuyên hoặc nếu virus rất khác biệt so với bất kỳ virus nào có host đã biết. Ngoài ra, phương pháp này yêu cầu kiến thức trước về một số danh tính host trên dòng dõi virus, thông tin thường không có. Vì vậy, cần phải kết hợp với các phương pháp tính toán khác.

3.2. Machine Learning cho Dự Đoán Tương Tác Virus Host Chính Xác

Các phương pháp machine learning đào tạo các thuật toán bằng cách phân tích nhiều trình tự bộ gen của virus với host đã biết và sau đó áp dụng điều này để dự đoán host trong các trường hợp chưa biết. Các thuật toán như Random Forest, Support Vector Machines (SVM) và deep learning có thể được sử dụng để xây dựng các mô hình dự đoán. Điều này có thể hiệu quả đối với các dòng dõi trong đó nhiều mối quan hệ host đã được biết đến, nhưng nó sẽ không bao giờ dự đoán một host không xảy ra trong dữ liệu đào tạo. Tuy nhiên, các mô hình này có thể phát hiện các mẫu và mối tương quan tinh tế giữa các trình tự virus và các host tương ứng của chúng.

IV. Ứng Dụng Thực Tiễn Của Computational Discovery Cressdnaviricota

Nghiên cứu trên Cressdnaviricota minh họa cách phát hiện dựa trên tính toán có thể tiết lộ các hiểu biết mới về virushost. Các Cressdnaviricota là một ngành virus bao gồm các virus DNA sợi đơn (ssDNA) nhỏ, vòng tròn, với phạm vi host rộng và tiến hóa phức tạp. Nghiên cứu sử dụng phân tích metagenomic và tính toán để khám phá các Cressdnaviricota mới và xác định host của chúng. Những nghiên cứu này đã tiết lộ những mối liên hệ bất ngờ giữa các Cressdnaviricota và các host khác nhau, làm sáng tỏ sự tiến hóa và sinh thái của những virus này.

4.1. Phân Tích Hệ Gene Để Xác Định Nguồn Gốc và Quan Hệ Của Cressdnaviricota

Các nghiên cứu đã sử dụng phân tích bộ gen để xác định nguồn gốc và mối quan hệ của Cressdnaviricota. Các phân tích này đã tiết lộ rằng Cressdnaviricota có nguồn gốc cổ xưa và đã trải qua nhiều sự kiện tái tổ hợp và chuyển giao gen ngang, dẫn đến phạm vi host đa dạng của chúng. Việc nghiên cứu phân tích phylogenetic đã giúp hiểu rõ hơn về sự tiến hóa của các Cressdnaviricota và mối quan hệ của chúng với các virus khác.

4.2. Ví Dụ Về Các Nghiên Cứu Phát Hiện Cressdnaviricota ở Các Host Khác Nhau

Nghiên cứu đã xác định Cressdnaviricota trong nhiều loại host, bao gồm động vật nguyên sinh, nấm và động vật có xương sống. Ví dụ, các Cressdnaviricota đã được tìm thấy trong ký sinh trùng EntamoebaGiardia, nấm gây bệnh và các loài động vật có xương sống khác nhau. Những phát hiện này cho thấy Cressdnaviricota có thể có vai trò trong sinh thái và tiến hóa của các host này. Hơn nữa, các nghiên cứu đã tiết lộ sự hiện diện của các gen có nguồn gốc từ virus khác, ví dụ như poxvirus, được tích hợp trong bộ gen Cressdnaviricota, cho thấy sự chuyển gen ngang và tiềm năng thích ứng với các host mới.

V. Phát Triển Công Cụ Tính Toán Cho Viral Metagenomics Tiên Tiến

Sự phát triển của các công cụ tính toán đã đóng một vai trò quan trọng trong việc khám phá virus và xác định host. Các công cụ này cho phép các nhà nghiên cứu phân tích lượng lớn dữ liệu trình tự được tạo ra bởi viral metagenomicsmetagenomic next-generation sequencing (mNGS). Các công cụ như vậy bao gồm các thuật toán để lắp ráp bộ gen, chú thích bộ gen, phân tích phylogenetic và dự đoán host. Sự có sẵn của các công cụ này đã tạo điều kiện cho việc khám phá nhiều virus mới và hiểu biết sâu sắc hơn về sự tương tác virus-host.

5.1. Các Thuật Toán và Phần Mềm Chính Trong Virus Discovery

Một số thuật toán và phần mềm chính được sử dụng trong virus discovery dựa trên tính toán. Chúng bao gồm các thuật toán để lọc và làm sạch dữ liệu trình tự, lắp ráp các trình tự ngắn thành các bộ gen lớn hơn và chú thích bộ gen bằng cách xác định các gen và các yếu tố chức năng. Ngoài ra, có các công cụ để phân tích phylogenetic, giúp hiểu được mối quan hệ tiến hóa giữa các virus khác nhau. Các thuật toán để dự đoán tương tác protein-protein (PPI) và mô hình cấu trúc cũng hữu ích trong việc hiểu được chức năng của protein virus.

5.2. Tối Ưu Hóa và Tích Hợp Các Công Cụ Tin Sinh Học Hiện Có

Khi dữ liệu metagenomic ngày càng lớn hơn, các công cụ tin sinh học cần phải được tối ưu hóa để có thể xử lý hiệu quả khối lượng dữ liệu khổng lồ. Điều này bao gồm việc phát triển các thuật toán nhanh hơn và hiệu quả hơn, cũng như tích hợp các công cụ khác nhau vào các quy trình công việc hợp lý. Ngoài ra, cần nỗ lực để phát triển các giao diện thân thiện với người dùng và các nền tảng dễ sử dụng cho phép các nhà nghiên cứu không có nền tảng tin sinh học rộng lớn có thể truy cập và sử dụng các công cụ này.

VI. Tương Lai Của Computational Virology Và Các Hướng Nghiên Cứu

Tương lai của computational virology hứa hẹn sẽ phát triển hơn nữa các phương pháp và hiểu biết sâu sắc hơn về thế giới virus. Khi các kỹ thuật giải trình tự và công cụ tính toán tiếp tục cải thiện, chúng ta có thể mong đợi khám phá ra nhiều virus mới hơn và hiểu rõ hơn về sự tiến hóa virus, sinh tháitương tác virus-host. Điều này sẽ đòi hỏi các nỗ lực phối hợp để phát triển các thuật toán và cơ sở dữ liệu mới, cũng như tích hợp dữ liệu từ nhiều nguồn khác nhau.

6.1. Tích Hợp Dữ Liệu Đa Chiều Multi omics và Phân Tích Mạng Lưới

Việc tích hợp dữ liệu đa chiều (multi-omics), chẳng hạn như genomics, transcriptomicsproteomics, hứa hẹn sẽ cung cấp một cái nhìn toàn diện hơn về tương tác virus-host. Bằng cách phân tích đồng thời nhiều loại dữ liệu, có thể xác định các con đường và cơ chế quan trọng trung gian cho nhiễm virus. Phân tích mạng lưới có thể được sử dụng để tích hợp các loại dữ liệu khác nhau này và xác định các yếu tố chính trong tương tác virus-host.

6.2. Dự Đoán Phạm Vi Host Và Phát Triển Thuốc Kháng Virus

Một lĩnh vực quan trọng của nghiên cứu trong tương lai là phát triển các phương pháp tính toán để dự đoán phạm vi host của virus mới nổi. Điều này sẽ cho phép các nhà nghiên cứu đánh giá rủi ro tiềm ẩn đối với sức khỏe con người và động vật và phát triển các biện pháp phòng ngừa. Ngoài ra, computational virology có thể được sử dụng để xác định các mục tiêu thuốc tiềm năng và phát triển các thuốc kháng virus mới. Bằng cách mô phỏng cấu trúc và chức năng của protein virus, có thể thiết kế các loại thuốc nhắm mục tiêu một cách chọn lọc vào virus mà không gây hại cho host.

22/05/2025
Computational discovery of viruses and their hosts

Tài liệu có tiêu đề Khám phá bằng tính toán về virus và vật chủ của chúng: Nghiên cứu toàn diện cung cấp một cái nhìn sâu sắc về mối quan hệ phức tạp giữa virus và vật chủ của chúng thông qua các phương pháp tính toán hiện đại. Nghiên cứu này không chỉ giúp người đọc hiểu rõ hơn về cách thức virus tương tác với vật chủ mà còn mở ra những hướng đi mới trong việc phát triển các phương pháp điều trị và phòng ngừa hiệu quả.

Bằng cách phân tích dữ liệu và mô hình hóa các mối quan hệ, tài liệu này mang lại những lợi ích thiết thực cho các nhà nghiên cứu, bác sĩ và sinh viên trong lĩnh vực y học. Đặc biệt, nó khuyến khích người đọc khám phá thêm các khía cạnh khác của y học dữ liệu, như trong tài liệu Luận văn phát hiện mối quan hệ trong cơ sở dữ liệu và ứng dụng trong y học, nơi mà việc phát hiện và phân tích mối quan hệ trong dữ liệu y học có thể mang lại những hiểu biết quý giá cho việc điều trị bệnh.

Hãy cùng khám phá thêm để mở rộng kiến thức của bạn về các mối quan hệ trong y học và ứng dụng của chúng trong thực tiễn!

Trích đoạn nội dung tài liệu

UvA-DARE (Digital Academic Repository) Computational discovery of viruses and their hosts Kinsella, C. Publication date 2023 Document Version Final published version Link to publication Citation for published version (APA): Kinsella, C. Computational discovery of viruses and their hosts. General rights It is not permitted to download or to forward/distribute the text or part of it without the consent of the author(s) and/or copyright holder(s), other than for strictly personal, individual use, unless the work is under an open content license (like Creative Commons). Disclaimer/Complaints regulations If you believe that digital publication of certain material infringes any of your rights or (privacy) interests, please let the Library know, stating your reasons. In case of a legitimate complaint, the Library will make the material inaccessible and/or remove it from the website. Please Ask the Library: https://uba.nl/en/contact, or a letter to: Library of the University of Amsterdam, Secretariat, Singel 425, 1012 WP Amsterdam, The Netherlands. You will be contacted as soon as possible. UvA-DARE is a service provided by the library of the University of Amsterdam (https://dare.nl) Download date:31 Aug 2023 Computational discovery of viruses and their hosts ? x Cormac M. Kinsella Computational discovery of viruses and their hosts Cormac M. Kinsella ISBN: 978-94-6483-273-0 © 2023 Cormac M. Kinsella Layout and cover design: Cormac M. Kinsella Chapter facing art: Kristel Parv Kinsella, inspired by the works of J. Tolkien Printing: Ridderprint, the Netherlands The research reported in this doctoral thesis received financial assistance from the European Union’s Horizon 2020 research and innovation programme, under the Marie Skłodowska-Curie Actions grant agreement no. Financial support for the printing of this thesis was kindly provided by the Amsterdam UMC. Computational discovery of viruses and their hosts ACADEMISCH PROEFSCHRIFT ter verkrijging van de graad van doctor aan de Universiteit van Amsterdam op gezag van de Rector Magnificus prof. Verbeek ten overstaan van een door het College voor Promoties ingestelde commissie, in het openbaar te verdedigen in de Agnietenkapel op maandag 11 september 2023, te 14.00 uur door Cormac Michael Kinsella geboren te Harrow Promotiecommissie Promotor: dr. van der Hoek AMC-UvA Copromotores: prof. Berkhout AMC-UvA dr. Bart Tergooi Ziekenhuis Overige leden: prof. de Jong AMC-UvA prof. Russell AMC-UvA prof. Koopmans Erasmus Universiteit Rotterdam dr. Krupovic Institut Pasteur dr. Matthijnssens KU Leuven Faculteit der Geneeskunde Table of contents Chapter 1 General introduction and scope of this thesis 7 2 Enhanced bioinformatic profiling of VIDISCA libraries 19 for virus detection and discovery (Virus Research, 2019) 3 Entamoeba and Giardia parasites implicated as hosts of 33 CRESS viruses (Nature Communications, 2020) 4 Host prediction for disease-associated gastrointestinal 57 cressdnaviruses (Virus Evolution, 2022) 5 Vertebrate-tropism of a cressdnavirus lineage implicated 85 by poxvirus gene capture (PNAS, 2023) 6 Human clinical isolates of pathogenic fungi are host to 115 diverse mycoviruses (Microbiology Spectrum, 2022) 7 General discussion 135 Addendum Summary 146 Samenvatting 148 Author affiliations 150 Author contributions 152 About the author 153 PhD portfolio 154 List of publications 158 Acknowledgements 161 Chapter 1 General introduction and scope of this thesis Chapter 1 The discovery of viruses, a distinct class of disease agents ‘Virus’, derived from a Latin word meaning poison, has been used to non-specifically describe infectious disease agents for centuries1. When scientists in the 1800s came to understand that some microbes could cause disease, a flurry of cellular pathogens were isolated in pure culture by growing them on nutrient-rich matrices, allowing their associations to disease to be directly tested under experimental conditions2. An assumption that culturable bacteria, fungi, and protists caused all infectious diseases took root. Usage of the term ‘virus’ remained non-specific into the early 1900s, with apparent oxymorons such as ‘bacterial viruses’ appearing3 – meaning ‘bacterial agents of disease’ – not ‘viruses infecting bacteria’ as we might now understand it. However, in 1898 a key conceptual leap was made that would shape the modern conception of viruses, namely that a category of disease agents distinct from bacteria existed. First, work by Friedrich Loeffler and Paul Frosch showed that the causative agent of foot and mouth disease could pass through filters capable of holding back all known bacterial cells4. They postulated a very small, particulate agent of disease that was capable of replication (i. Secondly, Dutch microbiologist Martinus Beijerinck showed that the agent causing tobacco mosaic disease could also pass filters5. Beijerinck proposed a non-bacterial identity for the agent, though he considered it to be liquid-like, or as he called it: “contagious living fluid”. A new class of agents known as ‘filterable viruses’ were thus recognised, and over the following decades non-specific usage of the terminology faded, until ‘filterable’ was also eventually dropped. What defines a virus? We now understand that viruses are not liquid-like, instead they are made up of infectious particles called virions. The small size of most virions explains why they can pass fine filters, though size does not define them. In fact, so-called ‘giant viruses’ have been found that are larger than the smallest bacteria6,7. More fundamentally, viruses are acellular but require cells to replicate, as they lack some of the necessary machinery for producing further generations. They are thus obligate intracellular parasites of host replication machinery, and must transmit between host cells to gain access to this. Virions represent individual virus units, such that in some cases a single virion can produce a new infection. At the least, virions possess a genome or genome segment of RNA or DNA, and some proteins encoded by that genome. While these features define most known viruses, biological discoveries regularly complicate attempts at an all-encompassing yet restrictive definition. For example, one definition8 splits biological entities into either ribosome- encoding or capsid-encoding forms, i., cellular life and viruses respectively. However, viruses that lack capsids and encode other proteins are now known9, excluding them from this definition, and also from the viroids (virus-like elements that do not encode protein). Dropping the capsid requirement of the definition opens the door to other selfish genetic elements usually considered distinct from viruses, such as some transposons or plasmids. A clean definition is likely elusive, and given that viruses are a polyphyletic group (i., they did not all evolve from a single common ancestor) this should be expected. Individual 8 General introduction and scope of this thesis discoveries should therefore be evaluated in terms of how much their genetic relationships and biological behaviours overlap with those considered typically viral. The development of virus discovery techniques The visible effects of viruses have long been readily apparent to humans10,11, likely since our origin12. Experimentation with viruses also began before their nature was understood, for example Edward Jenner’s work on smallpox vaccination in the 1700s 13. Virus discovery as a field arguably began with Loeffler, Frosch, and Beijerinck’s conclusions regarding filterable viruses4,5. By 1912, application of filtration techniques resulted in the discovery of at least 17 distinct viruses14,15, though detection and study was only possible via the diseases they induced. The subsequent development of virus discovery was tied to technological innovations enabling deeper characterisation and thus categorisation of filterable agents. Key early advances were the 1935 crystallisation of tobacco mosaic virus (TMV)16, the 1937 discovery of viral nucleic acids17, the 1939 electron microscope analysis of TMV18, and the 1941 application of X-ray crystallography techniques19. These enabled analysis of virus biochemistry and morphology. Viruses only replicate in host cells, so early attempts to produce pure virus cultures in nutrient media were unsuccessful. Early propagation was done in whole organisms or eggs, and this had multiple drawbacks including bacterial contamination of stocks20. It was during a negative experiment aiming to grow pure vaccinia virus that Frederick Twort inadvertently established the first virus culture, though it was not vaccinia. Reporting in 191521, Twort noticed that colonies of growing bacterial contaminants were killed off by a filterable, dilutable, infectious agent that could be propagated between colonies. Subsequent work from 1917 by Félix d'Hérelle named the ‘bacteriophages’ and properly established virus culture in bacterial cells, and specifically the plaque assay, as vital tools in virus research and discovery22. As eukaryotic tissue and cell culture techniques developed later in the 1900s, many viruses were discovered by inoculating cultures with infectious material and isolating agents23–25. Cell, tissue, or host tropism could also be tested using panels of different cell cultures25, something that Twort already comprehended in 1915 when testing bacteriophage host tropism21. With advances in immunology, the possibility to characterise isolated viruses by their antigenic or serological properties also developed26, and with this came the ability to test for viruses using immunoassays25,27. While two agents may share similar morphology and cytopathic effects, different responses to antibodies could distinguish ‘serotypes’. By the 1970s scientists already had powerful tools to find and characterise new pathogenic viruses, but a revolution in molecular biology was underway. Restriction enzymes that cut DNA in specific locations had been isolated28, vital components of molecular cloning techniques that enabled amplification of specific nucleic acids29. In 1977 Frederick Sanger refined a technique for DNA sequencing and the first ever virus genome sequence was published, φX17430,31. This would eventually allow determination of comparative virus 9 Chapter 1 relationships, but did not immediately overhaul virus discovery methods, as it required pure input DNA at high copy number, and was therefore limited to viruses established in culture or cloned fragments. In the 1980s the polymerase chain reaction (PCR) method was developed32,33, which enabled amplification of specific DNA sequences via multiple cycles of in vitro reactions. Because PCR utilises ‘primer’ sequences that match sections of a target, it could also be used to detect closely related targets34. Primers designed to target sequences highly conserved across an entire viral lineage have often been used to detect unknown members of the group35. However, detection range is limited by design, and more divergent viruses will not be found. To solve this, advanced molecular biology techniques agnostic to virus sequence were applied. These included shotgun cloning, wherein total DNA from a sample was randomly sheared, and fragments were then cloned and Sanger sequenced 36,37. As this could be applied to mixed samples containing nucleic acids from multiple organisms, it became known as ‘metagenomics’37. Representational difference analysis was another approach38, which disproportionately amplified nucleic acids found in one sample but not another (i., a virus found in a test sample, but not in a control sample). Similarly, techniques such as sequence-independent single primer amplification (SISPA) and virus discovery based on cDNA-amplified fragment length polymorphism (VIDISCA) used restriction enzymes to digest nucleic acids in control and test samples before amplification, with different nucleic acid fragments then visualised by gel electrophoresis39,40. Samples containing a new virus displayed unique nucleic acid fragments, which were then excised from the gel, cloned, and sequenced. Inclusion of a reverse transcription step converting RNA virus genomes to DNA enabled detection of either genome type, and further laboratory techniques could non- specifically enrich virus nucleic acids relative to background. These included centrifugation of samples to remove heavier cell debris, filtration of supernatants to remove other large particles, treatment with nucleases such as DNase to digest naked host chromosomal DNA, and use of selective primers during reverse transcription to reduce host ribosomal RNA levels39–42. Virus discovery with high-throughput sequencing Despite the maturation of virology during the 1900s, key issues remained at the turn of the millennium. One of these, discussed by Twort even in 1915 21, was efficient identification of viruses that do not cause visible disease or cytopathic effect, and relatedly, how to find viruses infecting host species difficult to isolate in cell culture. While molecular techniques offered promising solutions, they remained low-throughput and logistically complex36,38–40. It would be the development of high-throughput sequencing (HTS) platforms in the 2000s43 that precipitated a major leap forward for virus discovery. Also known as massively parallel sequencing or next-generation sequencing, HTS techniques allow simultaneous sequencing of millions of DNA fragments in a processed sample known as a ‘library’. As the fragments overlap in their sequence content, they can be computationally ‘assembled’ together into longer sequences44, including whole virus genomes.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ