paint-brush
Unsere Datensätze und Ergebnisse unserer Studie: GGL-PPI-Modellevon@mutation
3,129 Lesungen
3,129 Lesungen

Unsere Datensätze und Ergebnisse unserer Studie: GGL-PPI-Modelle

Zu lang; Lesen

In diesem Abschnitt führen wir die Validierung und Bewertung unserer vorgeschlagenen Modelle anhand mehrerer Benchmark-Datensätze durch. Wir entwickeln zwei Arten von GGL-PPI-Modellen: GGL-PPI1 und GGL-PPI2. Das erste Modell, GGL-PPI1, basiert ausschließlich auf den in Abschnitt 3 erläuterten geometrischen Diagrammmerkmalen.
featured image - Unsere Datensätze und Ergebnisse unserer Studie: GGL-PPI-Modelle
The Mutation Publication HackerNoon profile picture

Dieses Dokument ist auf arxiv unter der CC 4.0-Lizenz verfügbar.

Autoren:

(1) Md Masud Rana, Fakultät für Mathematik, University of Kentucky;

(2) Duc Duy Nguyen, Fakultät für Mathematik, University of Kentucky & ducnguyen@uky.edu.

Linktabelle

Zusammenfassung und Einführung

Datensätze und Ergebnisse

Methoden

Fazit, Daten- und Softwareverfügbarkeit, konkurrierende Interessen, Danksagungen und Referenzen

2 Datensätze und Ergebnisse

In diesem Abschnitt führen wir eine Validierung und Bewertung unserer vorgeschlagenen Modelle anhand mehrerer Benchmark-Datensätze durch. Wir entwickeln zwei Arten von GGL-PPI-Modellen: GGL-PPI1 und GGL-PPI2. Das erste Modell, GGL-PPI1, basiert ausschließlich auf den in Abschnitt 3 erläuterten geometrischen Diagrammmerkmalen.


Andererseits umfasst GGL-PPI2 sowohl geometrische Diagrammmerkmale als auch Hilfsmerkmale, wie von Wang et al. [41]. Die Berechnungen des elektrostatischen Potentials für die Hilfskomponenten werden mit der MIBPB-Software durchgeführt [42].

2.1 Validierung

Zur Validierung unserer Modelle berücksichtigen wir hauptsächlich den AB-Bind-Datensatz [25], den SKEMPI 1.0-Datensatz [23] und den SKEMPI 2.0-Datensatz [24]. Wir wenden eine strenge Bewertungsmethodik an, indem wir für jeden Datensatz eine zehnfache Kreuzvalidierung (CV) durchführen. Als Bewertungsmaßstäbe dienen der mittlere Pearson-Korrelationskoeffizient (R p ) und der quadratische Mittelfehler (RMSE).


Beim Vergleich der CV-Leistung unserer vorgeschlagenen Modelle mit anderen vorhandenen Methoden bewerten wir insbesondere TopNetTree [41], Hom-ML-V2 [43] und Hom-ML-V1 [43]. Sowohl TopNetTree als auch Hom-ML-V2 enthalten Zusatzfunktionen in Verbindung mit ihren topologiebasierten bzw. Hom-komplexbasierten Funktionen. Andererseits verlässt sich Hom-ML-V1 ausschließlich auf Hom-Komplex-basierte Funktionen, ohne irgendwelche Zusatzfunktionen zu nutzen.


Abbildung 2: Leistung unseres GGL-PPI2-Modells bei verschiedenen Validierungsdatensätzen unter Verwendung einer 10-fachen 10-fachen Kreuzvalidierung. (a) Im AB-Bind S645-Datensatz erreicht unser Modell einen Pearson-Korrelationskoeffizienten (Rp) von 0,58 und einen quadratischen mittleren Fehler (RMSE) von 1,61 kcal/mol. (b) Auf dem S645-Datensatz, ohne 27


Validierung des AB-Bind S645-Datensatzes Der AB-Bind-Datensatz enthält 1.101 Mutationsdatenpunkte für 32 Antikörper-Antigen-Komplexe und liefert experimentell bestimmte Bindungsaffinitätsänderungen bei Mutationen. Pires et al. kuratierte eine Untergruppe namens AB-Bind S645 [44], bestehend aus 645 Einzelpunktmutationen, die in 29 Antikörper-Antigen-Komplexen beobachtet wurden. Der Datensatz umfasst eine Mischung aus stabilisierenden (20 %) und destabilisierenden (80 %) Mutationen.


Darüber hinaus enthält der Datensatz 27 Nicht-Binder, die innerhalb des Empfindlichkeitsbereichs des Assays keine Bindung zeigen. Für diese Nichtbindemittel wurden die Änderungen der freien Bindungsenergie einheitlich auf einen Wert von 8 kcal/mol eingestellt. Es ist wichtig, diese Nicht-Binder während der Modellentwicklung und -bewertung als Ausreißer zu berücksichtigen, um die Genauigkeit und Robustheit des Modells sicherzustellen.


Unser GGL-PPI2 erreichte einen Rp von 0,58 im AB-Bind S645-Datensatz, wie in Abbildung 2a dargestellt. Die Vergleichsergebnisse in Tabelle 1 zeigen, dass unser Modell mit Hom-ML-V2 43 den zweiten Platz belegte, während TopNetTree [41] den Spitzenplatz belegte.


Wenn wir jedoch die 27 Nichtbinder aus dem Datensatz ausschließen, übertrifft unser Modell alle anderen vorhandenen Modelle. Insbesondere steigt der Rp-Wert nach dem Entfernen der Nichtbinder von 0,58 auf 0,74 (Abbildung 2b).


Darüber hinaus zeigte GGL-PI1, unser rein geometrisches, graphbasiertes Merkmalsmodell, eine wettbewerbsfähige Leistung mit einem Rp von 0,57 im AB-Bind S645-Datensatz. Interessanterweise übertraf GGL-PPI1 bei Ausschluss der Nichtbinder alle anderen Modelle mit einem verbesserten Rp von 0,73.


Diese Leistungen zeigen, dass unsere mehrskaligen gewichteten farbigen geometrischen Diagramme das breite Spektrum an Wechselwirkungen in biomolekularen Komplexen effektiv charakterisieren können.


Validierung am SKEMPI 1.0 S1131-Datensatz Der SKEMPI 1.0-Datensatz besteht aus einer Sammlung von 3.047 Mutationen von 158 Komplexen, die aus Literaturquellen stammen, wobei die Komplexe experimentell bestimmte Strukturen aufweisen [23]. Der Datensatz umfasst sowohl Einzelpunktmutationen als auch Mehrpunktmutationen.


Konkret gibt es 2.317 Einträge im Datensatz, die Einzelpunktmutationen darstellen, die zusammen als SKEMPI S2317-Satz bezeichnet werden. Darüber hinaus wurde eine Teilmenge von 1.131 nicht-redundanten Schnittstellen-Einzelpunktmutationen aus dem SKEMPI S2317-Satz ausgewählt und als SKEMPI S1131-Satz bezeichnet [45]. Diese Untergruppe konzentriert sich auf die Untersuchung der Auswirkungen von Einzelpunktmutationen auf Protein-Protein-Wechselwirkungen.


Tabelle 1: Leistungsvergleich verschiedener Methoden hinsichtlich der Pearson-Korrelationskoeffizienten (Rp) für den AB-Bind-Datensatz (S645).



Abbildung 2c zeigt, dass unser Modell GGL-PPI2 einen Rp von 0,873 und einen RMSE von 1,21 kcal/mol im 10-fachen CV im S1131-Datensatz erreicht. Tabelle 2 zeigt den Leistungsvergleich verschiedener Methoden für den S1131-Datensatz, einschließlich unserer vorgeschlagenen Modelle GGL-PPI1 und GGL-PPI2.


Unter ihnen erzielte unser Modell, GGL-PPI2, die höchste Leistung und unterstreicht seine Überlegenheit bei der Vorhersage von Bindungsaffinitätsänderungen aufgrund von Mutationen.


Bemerkenswert ist, dass unser GGL-PPI1 auch ohne Zusatzfunktionen sowohl die TopNetTree- als auch die Hom-ML-V2-Methode übertraf, die Zusatzfunktionen nutzen. Dies unterstreicht erneut die Wirksamkeit unserer auf geometrischen Graphen basierenden molekularen Darstellung.


Tabelle 2: Leistungsvergleich verschiedener Methoden hinsichtlich der Pearson-Korrelationskoeffizienten (Rp) für die Einzelpunktmutationen im SKEMPI 1.0 (S1131)-Datensatz.



Validierung der SKEMPI 2.0 S4169- und S8338-Datensätze. Der SKEMPI 2.0-Datensatz ist eine aktualisierte und erweiterte Version des ursprünglichen SKEMPI-Datensatzes, der neue Mutationen aus verschiedenen Quellen enthält [24].


Nach der Veröffentlichung im Jahr 2018 nahm die Größe deutlich zu und umfasst nun insgesamt 7.085 Einträge, darunter sowohl Einzelpunkt- als auch Mehrpunktmutationen. Die Daten wurden durch Zusammenführen mehrerer Datenbanken erhalten, darunter SKEMPI 1.0 [23], AB-Bind [25], PROXiMATE27 und dbMPIKT46.


Darüber hinaus wurden neue Daten aus der Literatur manuell kuratiert und dem Datensatz hinzugefügt. Die Mutationen decken ein breites Spektrum an Proteinkomplexen ab, beispielsweise Protease-Inhibitor-, Antikörper-Antigen- und TRCpMHC-Komplexe. Unter den Mutationen sind etwa 3.000 Einzelpunkt-Alanin-Mutationen, 2.000 Einzelpunkt-Nicht-Alanin-Mutationen und weitere 2.000 beinhalten Mehrfachmutationen.


Bemerkenswerterweise haben die Autoren der mCSM-PPI2-Methode [8] die Einzelpunktmutationen gefiltert und einen S4169-Satz erhalten, der 4.169 Varianten in 139 verschiedenen Komplexen umfasst. Der von S4169 abgeleitete S8338-Satz stellt hypothetische Energieänderungen der umgekehrten Mutation mit negativen Werten dar. Dieser umfassende Datensatz dient als wertvolle Ressource für die Untersuchung von Proteininteraktionen und ihren thermodynamischen Eigenschaften.


In Bezug auf die Leistung weist unser GGL-PPI2-Modell einen Rp von 0,81 mit einem RMSE von 1,03 kcal/mol für den S4169-Datensatz auf, wie in Abbildung 2d dargestellt, und übertrifft damit alle bestehenden Modelle (Tabelle 3). Es ist bemerkenswert, dass unser GGL-PPI1-Modell, das ausschließlich auf auf geometrischen Diagrammen basierenden Merkmalen basiert, eine mit GGL-PPI2 vergleichbare Leistung zeigte und TopNetTree und mCSM-PPI2 mit einem Rp von 0,80 und einem RMSE von 1,06 kcal/mol übertraf.


Im Fall des S8338-Datensatzes haben wir einen geschichteten Kreuzvalidierungsansatz ähnlich dem mCSM-PPI2 angewendet. Wir stellten sicher, dass hypothetische Rückmutationen während der Datensatzaufteilung konsistent entweder in den Trainings- oder Testsätzen platziert wurden, wobei ihre Beziehung zu den entsprechenden Originalmutationen während des gesamten Kreuzvalidierungsprozesses intakt blieb.


GGL-PPI2 erreichte einen Rp von 0,85 mit einem RMSE von 1,07 kcal/mol, wie in Abbildung 2e dargestellt, und GGL-PPI1 folgte dicht dahinter und erreichte einen Rp von 0,84 mit dem gleichen RMSE-Wert. Wie Tabelle 3 zeigt, liegt unser GGL-PPI2 auf Augenhöhe mit TopNetTree und übertrifft mCSM-PPI2 im S8338-Datensatz.


Tabelle 3: Leistungsvergleich verschiedener Methoden hinsichtlich der Pearson-Korrelationskoeffizienten (Rp) für die Einzelpunktmutationen im SKEMPI 2.0-Datensatz (S4169 und S8338).


2.2 Bewertung

Um unser vorgeschlagenes Modell zur Vorhersage von Änderungen der freien Bindungsenergie (BFE) von Protein-Protein-Wechselwirkungen zu bewerten, berücksichtigen wir zwei Datensätze aus der ProTherm-Datenbank [22].


Der erste Datensatz, sorgfältig ausgewählt von Pucci et al. [36], benannter S[sym]-Datensatz. Diese Daten umfassen 684 Mutationen aus dem ProTherm, darunter 342 direkte Mutationen und ihre entsprechenden Rückmutationen, was zu einem ausgewogenen Datensatz führt.


Der Datensatz konzentriert sich speziell auf Mutationen in fünfzehn Proteinketten mit gelösten 3D-Strukturen und gewährleistet hochauflösende Daten mit einer Auflösung von mindestens 2,5˚A.


Durch die Bereitstellung experimentell gemessener ∆∆G-Werte und einer ausgewogenen Darstellung stabilisierender und destabilisierender Mutationen dient der S[sym]-Datensatz als wertvolle Ressource für die Bewertung von Vorhersageverzerrungen im Zusammenhang mit der Vorhersage mutationsinduzierter Bindungsaffinitätsänderungen.


Um das Problem der Datenlecks anzugehen und die Generalisierungsfähigkeit unserer Methode zu verbessern, verwendeten wir den Datensatz Q1744 [47]. Quan et al. [48] stellten den Q3421-Datensatz von ProTherm zusammen, der aus 3421 Einzelpunktmutationen in 150 Proteinen mit verfügbaren PDB-Strukturen besteht. Das Vorhandensein homologer Proteine sowohl im Trainings- als auch im Testsatz kann jedoch zu voneinander abhängigen Auswirkungen von Mutationen führen und die Leistung des Modells beeinträchtigen.


Um dies zu mildern, haben Li et al. [47] erstellten den Q1744-Datensatz, der durch den Ausschluss überlappender Datenpunkte und die Verfeinerung der Homologie auf Proteinebene zwischen Q3421- und S[sym]-Datensätzen abgeleitet wurde, was zu 1744 unterschiedlichen Mutationen führte.


Darüber hinaus wurde der Q3488-Datensatz durch die Erweiterung der Rückmutationen im Q1744-Datensatz erstellt. Wir haben den Q3488-Datensatz als Trainingssatz verwendet und dadurch die Fähigkeit unseres ∆∆G-Prädiktors verbessert, BFE-Änderungen in PPIs genau vorherzusagen.


Wir führen eine Evaluierung unseres Modells anhand des Blindtestsatzes S[sym] durch, wobei der Schwerpunkt sowohl auf direkten als auch auf umgekehrten Mutationen liegt. Um die Leistung zu bewerten, verwenden wir den Pearson-Korrelationskoeffizienten und den quadratischen Mittelfehler als unsere primären Metriken. Um etwaige Vorhersageverzerrungen zu erkennen, haben wir außerdem zwei statistische Maße einbezogen: Rpdir−rev und δ.


Ersteres berechnet die Pearson-Korrelation zwischen Vorhersagen für direkte und umgekehrte Mutationen, während letzteres die Summe der vorhergesagten ∆∆G-Werte für beide Arten von Mutationen darstellt. Die Hypothese ist, dass ein unverzerrter Prädiktor Rpdir−rev = −1 und einen durchschnittlichen δ ( ¯δ) von 0 kcal/mol ergeben würde.


Unser Hauptaugenmerk liegt darauf, die Wirksamkeit unseres Modells GGL-PPI2 hervorzuheben, insbesondere seine robuste, auf geometrischen Graphen basierende molekulare Featurisierung. GGL-PPI2 hat eine außergewöhnliche Vorhersagegenauigkeit gezeigt und die Konsistenz sowohl für direkte als auch für umgekehrte Mutationen gewahrt. Wie in den Abbildungen 3a und 3b dargestellt, erreicht unser Modell konsistente Rp-Werte von 0,57 und einen RMSE von 1,28 kcal/mol, was auf seine Effizienz gegen eine Überanpassung an direkte Mutationen hinweist.


Darüber hinaus zeigt die Analyse, dass ein erheblicher Anteil der Mutationen innerhalb eines Vorhersagefehlers von 0,5 kcal/mol und 1,0 kcal/mol liegt, wobei 34,6 % und 65,8 % für direkte Mutationen und 35,1 % und 66,0 % für umgekehrte Mutationen gelten, wie in Abbildung dargestellt 3d und 3e.


Darüber hinaus zeigt Abbildung 3c, dass GGL-PPI2 die Vorhersageverzerrung effektiv bekämpft, indem es einen nahezu perfekten Rpdir-rev-Wert von -0,999 und einen extrem niedrigen durchschnittlichen ¯δ von 0,006 kcal/mol erreicht. Schließlich zeigt das Verteilungsdiagramm in Abbildung 3f, dass 99,4 % der Mutationen einen Vorhersagefehler von unter 0,05 kcal/mol aufweisen.


In Tabelle 4 präsentieren wir die Vorhersageergebnisse unserer Modelle und führen einen umfassenden Vergleich mit anderen ∆∆G-Prädiktoren durch. Wir stellen fest, dass unser GGL-PPI2-Modell ThermoNet [47], das ebenfalls auf dem homologiereduzierten Satz Q3488 trainiert wurde, bei allen Bewertungsmaßnahmen übertrifft. Es übertrifft ThermoNet um 21,3 % bei direkten Mutationen und 18,7 % bei umgekehrten Mutationen.


Darüber hinaus schneidet das GGL-PPI1-Modell, das nur auf geometrischen Diagrammen basierende Merkmale verwendet, sowohl bei direkten als auch bei umgekehrten Vorhersageaufgaben besser ab als ThermoNet. Dies unterstreicht die Wirksamkeit unseres geometrischen Graphenansatzes weiter.


Abbildung 3: Ergebnisse unseres GGL-PPI2-Modells für den Ssym-Datensatz. In (a) werden direkte Mutationen aufgetragen, während (b) die Ergebnisse für umgekehrte Mutationen präsentiert. Das Farbspektrum, das von Blau bis Rot reicht, stellt die entsprechende Vorhersagegenauigkeit dar – wobei Blau für eine höhere Genauigkeit und Rot für eine geringere Genauigkeit steht. A


Für einen breiteren Vergleich mit anderen ∆∆G-Prädiktoren führen wir das GGL-PPI2∗-Modell ein, das auf dem Q6428-Satz trainiert wurde, der vor der Homologiereduktion des Satzes Q3421 erstellt wurde [47]. Wie in Tabelle 4 dargestellt, übertrifft GGL-PPI2∗ andere Methoden bei der Vorhersage umgekehrter Mutationen.


Es ist bemerkenswert, dass einige Methoden zwar GGL-PPI2∗ für direkte Mutationen übertreffen, sie jedoch häufig eine erhebliche Tendenz zu Rückmutationen aufweisen.