Datenbestand vom 06. November 2024
Tel: 0175 / 9263392 Mo - Fr, 9 - 12 Uhr
Impressum Fax: 089 / 66060799
aktualisiert am 06. November 2024
978-3-8439-1388-1, Reihe Informatik
Lars Rosenbaum Interpretable Machine Learning Models for Mining Chemical Databases
179 Seiten, Dissertation Eberhard-Karls-Universität Tübingen (2013), Softcover, A5
Die Entwicklung maschineller Lernverfahren für die computergestützte Suche in chemischen Datenbanken stellt ein hochaktuelles Forschungsthema in der Chemoinformatik dar. Bei der Entwicklung neuer Wirkstoffe kann die Anzahl der sonst erforderlichen, teuren experimentellen Analysen erheblich reduziert werden, wenn große Datenspeicher gezielt nach Molekülen mit den jeweils gewünschten Eigenschaften durchsucht werden können.
Für die Optimierung eines Wirkstoffkandidaten ist eine gute Vorhersage bei der Suche nach Molekülen jedoch nicht allein ausreichend. Für den Chemiker sollten idealerweise auch die Gründe ablesbar sein, die zu einer guten Vorhersage geführt haben. Deshalb ist die Interpretierbarkeit eines Verfahrens von großem Interesse.
In dieser Arbeit werden zwei verschiedene Methoden für das Training von interpretierbaren Modellen vorgestellt, sowie auch Techniken zur Visualisierung von in diesen Modellen enthaltenen chemischen Informationen. Die Extraktion sinnvoller Struktur-Wirkungs-Beziehungen wird dadurch erheblich erleichtert.
Die erste Methode basiert auf einer linearen Support-Vektor Maschine (SVM) und chemischen Fingerprints. Für die Visualisierung wird, basierend auf den Gewichten des linearen Modells, den Atomen und Bindungen eines Moleküls jeweils eine Farbe auf einem Farbgradienten zugewiesen. Aufbauend auf der linearen SVM werden dann Multi-Task-Algorithmen adaptiert, damit auch quantitative Struktur-Wirkungs-Beziehungen (QSAR) für mehrere Wirkstoffziele zugleich modelliert werden können. Da Multi-Task-Algorithmen Wissen zwischen ähnlichen Wirkstoffzielen transferieren, führen sie zu einer deutlichen Verbesserung der Qualität der QSAR-Modelle.
Die zweite Methode stellt eine Erweiterung des Optimal-Assignment (OA) Kernels für ligandenbasiertes virtuelles Screening dar. Durch eine Gewichtung der OA-Kanten erhalten die unterschiedlichen Atome eines Suchanfragemoleküls ihre jeweils eigene Wichtigkeit, die dann mit Hilfe von biologisch inspirierten Heuristiken auf einem problemspezifischen Datensatz optimiert werden kann. Die Visualisierung der Wichtigkeit der verschiedenen Atome hilft, den Bindungsmodus eines Moleküls besser nachvollziehen zu können.
Interpretierbare Modelle und deren Visualisierung tragen somit wesentlich dazu bei, experimentelle Analysen in der Optimierung von potentiellen Wirkstoffkandidaten zu reduzieren.