Krankmacher-Gene in Virenstämmen auf einen Blick erkennen

Internationales Projekt soll helfen, genetische Auffälligkeiten zu finden

Wenn sich neue Viren oder Bakterien auf Menschen ausbreiten, muss rasch geklärt werden, welche besonderen Merkmale sie haben. Warum ist zum Beispiel das Coronavirus gegen übliche Medikamente resistent? Neue Big-Data-Technologie kann künftig dazu beitragen, die Besonderheiten neuer Viren- und Bakterienstämme in kurzer Zeit zu ermitteln. Dafür vergleicht sie das Erbgut eines einzelnen Organismus mit dem Genom-Bestand aller Stämme einer Spezies. Dieses Verfahren kann auch für höher entwickelte Lebewesen wie Säugetiere genutzt werden.

Das neue Projekt „Pangaia“ an der Universität Bielefeld erforscht, wie sich die dabei verwendeten Datenmassen so ordnen und analysieren lassen, dass sie für die Biomedizin nutzbar sind. Die Universität ist eine von elf Projektpartner*innen aus Europa und Nordamerika. Die EU fördert das Projekt über drei Jahre mit 1,14 Millionen Euro.

Wenn Biomediziner*innen klären wollen, ob das Erbgut eines Lebewesens besondere Abweichungen aufweist, nutzen sie üblicherweise ein Referenzgenom. Dafür werden mehrere Genome so kombiniert, dass sie die typischen Eigenschaften einer ganzen Spezies aufweisen. So können Forschende ein neues Grippevirus mit einem Referenzgenom vergleichen, das typische Merkmale der Vorgänger-Virenstämme zusammenfasst.

„In diesen Fällen vergleichen wir nur zwei Genome miteinander – Unterschiede und Gemeinsamkeiten sind am Computer relativ leicht zu erkennen“, sagt Professor Dr. Jens Stoye von der Technischen Fakultät, der mit seiner Arbeitsgruppe Genominformatik an Pangaia beteiligt ist. „Der neue Ansatz kann die Zahl der Vergleichsgenome bis zum Tausendfachen vergrößern.“ Diese Erforschung des Gen- Repertoires einer Population nennen die Forschenden „Pangenomik“.

„Das Problem an der computergestützten Pangenomik war bisher die Unübersichtlichkeit durch die Masse an Daten“, sagt Professor Dr. Alexander Schönhuth von der Technischen Fakultät, der seit Januar 2020 die Arbeitsgruppe Genom-Datenwissenschaft leitet. Er koordiniert das Bielefelder Teilprojekt von Pangaia. Wie Jens Stoye forscht er mit seiner Gruppe am Centrum für Biotechnologie (CeBiTec) der Universität Bielefeld.

Genetische Daten werden mit den Buchstaben A, C, G und T dargestellt. Sie stehen für die Nukleotide, die Bausteine des Erbguts. Genome bestehen mitunter aus Milliarden dieser Informationseinheiten. Um sie besser zu vergleichen, können sie als „Buchstaben-Ketten“ nebeneinander angezeigt werden. Diese traditionelle sequenzbasierte Darstellung ist heute verbreitet. „Doch bei Hunderten von Vergleichsgenomen kostet es sehr viel Zeit, schrittweise zu analysieren, wie sich das zu untersuchende Genom von jedem der Vergleichsgenome unterscheidet“, sagt Schönhuth.

„Die neue Technologie ermöglicht die gleichzeitige, integrierte Analyse vieler Stämme desselben Organismus. Das können Viren, Bakterien und mitunter auch höhere Lebewesen sein“, erklärt Jens Stoye. „Damit lassen sich Gemeinsamkeiten und Unterschiede der einzelnen Mitglieder hervorheben. Bei Krankheitserregern lassen sich häufig sogar die Abläufe, die bei zur Entstehung besonders infektiöser Stämme geführt haben, verstehen und vorhersagen.“ Die Technologie kommt auch in Frage, um bei Menschen Erbkrankheiten zu erkennen oder um zu ermitteln, welche Mutationen in einem Tumor zum starken, krankhaften Wachstum geführt haben.

„Um die computergestützte Pangenomik schneller und anwendungsfreundlicher zu machen, wollen wir mit unseren Projektpartner*innen in den nächsten Jahren neue Algorithmen und Datenstrukturen entwickeln“, sagt Schönhuth. Ein Ziel sind Algorithmen für Variationsgraphen. Mit diesen Handlungsvorgaben suchen die Computer nach Gemeinsamkeiten und Unterschieden zwischen den Vergleichsgenomen und stellen das Ergebnis grafisch dar: „Variationsgraphen erlauben die schnelle und hochaufgelöste Unterscheidung von krankheitserregenden und ungefährlichen Varianten eines Virus“, sagt Schönhuth. „Insbesondere erlauben sie auch die Identifikation von ganz neuartigen Mutationen, wie sie vermutlich bei der aktuell in China ausgebrochenen Variante des Coronavirus aufgetreten sind und zu Resistenzen gegen die üblichen Medikationen geführt haben.“

Das Projekt Pangaia heißt mit vollem Namen „Pan-genome Graph Algorithms and Data Integration“ (Graph-Algorithmen und Datenintegration für Pangenomik). Es läuft vom Januar 2020 bis Dezember 2023. Die Europäische Union fördert Pangaia über ihr Forschungsrahmenprogramm Horizont 2020. Die Universität Mailand (Italien) koordiniert das Projekt. Weitere Partner*innen außer der Universität Bielefeld sind: die niederländische Wissenschaftsorganisation NWO, die Comenius-Universität Bratislava (Slowakei), die Biotech-Unternehmen Geneton (Slowakei) und Illumina Cambridge (Großbritannien), das Institut Pasteur (Frankreich), die Simon Fraser University (Kanada), die Universität Tokio (Japan), die Cornell University und die Pennsylvania State University (beide USA).

Weitere Informationen:

https://cordis.europa.eu/project/id/872539/de Website des Pangaia-Projekts
https://www.uni-bielefeld.de/(de)/ZiF/AG/2019/09-30-Stoye.html ZiF-Arbeitsgemeinschaft „Computergestützte Pangenomik“