Ein Schlüssel zur Analyse von Millionen Einzelzellen

New Research Findings, Computational Health, ICB

Unser Körper setzt sich aus etwa 75 Milliarden einzelner Zellen zusammen. Doch welcher Funktion geht jede dieser Zellen nach und wie unterscheiden sich die Zellen eines gesunden Menschen von Personen mit einer Erkrankung? Um Rückschlüsse ziehen zu können, müssen riesige Datenmengen analysiert und interpretiert werden. Dafür wird auf Methoden des maschinellen Lernens zurückgegriffen. Forschende von Helmholtz Munich und der Technischen Universität München (TUM) haben nun Selbstüberwachtes Lernen als vielversprechenden Ansatz an über 20 Millionen Zellen getestet.

In den letzten Jahren haben Forschende große Fortschritte in der Einzelzelltechnologie erzielt. Dadurch ist es möglich, Gewebe auf Grundlage einzelner Zellen zu untersuchen und die unterschiedlichen Funktionen einzelner Zelltypen überhaupt zu bestimmten. Diese Analysen können beispielsweise genutzt werden, um durch den Vergleich mit gesunden Zellen festzustellen, wie Rauchen, Lungenkrebs oder eine Covid-Erkrankung einzelne Zellstrukturen in der Lunge verändern.

Gleichzeitig fallen durch die Analysen immer größere Mengen an Daten an. Methoden des maschinellen Lernens sollen dabei unterstützen, Daten aus existierenden Datensätzen neu zu interpretieren, aussagekräftige Informationen aus den Mustern zu erkennen und diese auf andere Bereiche zu übertragen.

Selbstüberwachtes Lernen als neuer Ansatz

Fabian Theis, Professor für die mathematische Modellierung biologischer Systeme, und sein Team haben in einer Studie untersucht, ob sich Selbstüberwachtes Lernen besser für die Analyse von großen Datenmengen eignet als andere Methoden. Die Studie wurde vor Kurzem bei Natur Machine Intelligence veröffentlicht. Diese Form des maschinellen Lernens arbeitet mit unbeschrifteten Daten. Dabei werden im Vorhinein keine klassifizierten Beispieldaten benötigt. Das heißt, die Daten müssen zuvor nicht händisch bestimmten Gruppen zugeordnet werden. Unbeschriftete Daten liegen in großer Anzahl vor und ermöglichen eine robuste Repräsentation großer Datenmengen.

Dem Selbstüberwachten Lernen liegen zwei Methoden zugrunde. Beim sogenannten maskierten Lernen wird ein Teil der Eingabedaten unkenntlich gemacht und das Modell so trainiert, dass es die fehlenden Teile rekonstruieren kann. Die Forschenden wendeten darüber hinaus kontrastives Lernen an, bei dem das Modell lernt, ähnliche Daten zusammenzubringen und unähnliche Daten zu trennen.

Beide Methoden des Selbstüberwachten Lernens testete das Team an über 20 Millionen Einzelzellen und verglich sie mit den Ergebnissen klassischer Lernmethoden. Die Forschenden konzentrierten sich bei der Bewertung der unterschiedlichen Methoden auf Aufgaben wie die Vorhersage von Zelltypen oder die Rekonstruktion der Genexpression.

Chancen für die Entwicklung virtueller Zellen

Die Ergebnisse der Studie zeigen, dass Selbstüberwachtes Lernen insbesondere bei Transfer-Aufgaben einen Mehrwert bietet. Das heißt, bei der Anwendung auf kleinere Datensätze, bei denen Informationen aus größeren Datenbanken übertragen werden. Darüber hinaus sind die Ergebnisse bei Zero-Shot Zellvorhersagen vielversprechend, also bei Aufgaben, die vorher nicht trainiert wurden. Der Vergleich zwischen maskiertem und kontrastivem Lernen zeigt, dass sich maskiertes Lernen besser für große Einzelzell-Datensätze eignet.

Mithilfe der Daten arbeiten die Forschenden daran, sogenannte virtuelle Zellen zu entwickeln, also umfassende Computermodelle, die die Vielfalt von Zellen in verschiedenen Datensätzen abbilden. Diese Modelle sind beispielsweise vielversprechend bei der Analyse von Zellveränderungen, wie es bei Krebserkrankungen der Fall ist. Die Ergebnisse der Studie liefern wertvolle Hinweise, wie solche Modelle effizienter trainiert und weiter verbessert werden können.

Original-Publikation

Richter, Bahrami, Xia, Fischer, et al., 2024: Delineating the effective use of self-supervised learning in single-cell genomics. Nature Machine Intelligence. DOI: 10.1038/s42256-024-00934-3