paint-brush
Nuestros conjuntos de datos y resultados de nuestro estudio: modelos GGL-PPIpor@mutation
3,129 lecturas
3,129 lecturas

Nuestros conjuntos de datos y resultados de nuestro estudio: modelos GGL-PPI

Demasiado Largo; Para Leer

En esta sección, realizamos la validación y evaluación de nuestros modelos propuestos en varios conjuntos de datos de referencia. Desarrollamos dos tipos de modelos GGL-PPI: GGL-PPI1 y GGL-PPI2. El primer modelo, GGL-PPI1, se basa únicamente en las características de gráficos geométricos analizadas en la Sección 3.
featured image - Nuestros conjuntos de datos y resultados de nuestro estudio: modelos GGL-PPI
The Mutation Publication HackerNoon profile picture

Este documento está disponible en arxiv bajo licencia CC 4.0.

Autores:

(1) Md. Masud Rana, Departamento de Matemáticas, Universidad de Kentucky;

(2) Duc Duy Nguyen, Departamento de Matemáticas, Universidad de Kentucky y ducnguyen@uky.edu.

Tabla de enlaces

Resumen e introducción

Conjuntos de datos y resultados

Métodos

Conclusión, disponibilidad de datos y software, intereses en competencia, reconocimientos y referencias

2 conjuntos de datos y resultados

En esta sección, realizamos la validación y evaluación de nuestros modelos propuestos en varios conjuntos de datos de referencia. Desarrollamos dos tipos de modelos GGL-PPI: GGL-PPI1 y GGL-PPI2. El primer modelo, GGL-PPI1, se basa únicamente en las características de gráficos geométricos analizadas en la Sección 3.


Por otro lado, GGL-PPI2 incorpora características de gráficos geométricos y características auxiliares, como detallan Wang et al. [41]. Los cálculos del potencial electrostático para los componentes auxiliares se realizan utilizando el software MIBPB [42].

2.1 Validación

Para validar nuestros modelos, consideramos principalmente el conjunto de datos AB-Bind [25], el conjunto de datos SKEMPI 1.0 [23] y el conjunto de datos SKEMPI 2.0 [24]. Empleamos una metodología de evaluación rigurosa mediante la realización de una validación cruzada (CV) 10 veces 10 veces mayor en cada conjunto de datos. El coeficiente de correlación medio de Pearson (R p ) y el error cuadrático medio (RMSE) sirven como nuestras métricas de evaluación.


Al comparar el rendimiento CV de nuestros modelos propuestos con otros métodos existentes, evaluamos específicamente TopNetTree [41], Hom-ML-V2 [43] y Hom-ML-V1 [43]. Tanto TopNetTree como Hom-ML-V2 incorporan funciones auxiliares junto con sus funciones basadas en topología y Hom-complex, respectivamente. Por otro lado, Hom-ML-V1 se basa únicamente en funciones basadas en el complejo Hom sin utilizar ninguna función auxiliar.


Figura 2: Rendimiento de nuestro modelo GGL-PPI2 en varios conjuntos de datos de validación utilizando una validación cruzada 10 veces 10 veces mayor. (a) En el conjunto de datos AB-Bind S645, nuestro modelo logra un coeficiente de correlación de Pearson (Rp) de 0,58 y un error cuadrático medio (RMSE) de 1,61 kcal/mol. (b) En el conjunto de datos S645, excluyendo los 27


Validación del conjunto de datos AB-Bind S645 El conjunto de datos AB-Bind contiene 1101 puntos de datos mutacionales para 32 complejos anticuerpo-antígeno, lo que proporciona cambios en la afinidad de unión determinados experimentalmente tras las mutaciones. Pires et al. Seleccionó un subconjunto conocido como AB-Bind S645 [44], que consta de 645 mutaciones de un solo punto observadas en 29 complejos anticuerpo-antígeno. El conjunto de datos comprende una combinación de mutaciones estabilizadoras (20%) y desestabilizadoras (80%).


Además, el conjunto de datos incluye 27 no aglutinantes que no muestran ninguna unión dentro del rango de sensibilidad del ensayo. Para estos no aglutinantes, los cambios de energía libre de unión se han fijado uniformemente en un valor de 8 kcal/mol. Es crucial considerar estos no vinculantes como valores atípicos durante el desarrollo y la evaluación del modelo para garantizar la precisión y solidez del modelo.


Nuestro GGL-PPI2 logró un Rp de 0,58 en el conjunto de datos AB-Bind S645, como se muestra en la Figura 2a. Los resultados de la comparación en la Tabla 1 indican que nuestro modelo empató en el segundo lugar con Hom-ML-V2 43, mientras que TopNetTree [41] obtuvo la primera posición.


Sin embargo, cuando excluimos a los 27 no vinculantes del conjunto de datos, nuestro modelo supera a todos los demás modelos existentes. Específicamente, el valor de Rp aumenta a 0,74 desde 0,58 después de eliminar los no aglutinantes (Figura 2b).


Además, GGL-PI1, nuestro modelo de características basado en gráficos puramente geométricos, demostró un rendimiento competitivo con un Rp de 0,57 en el conjunto de datos AB-Bind S645. Curiosamente, al excluir los no aglutinantes, GGL-PPI1 superó a todos los demás modelos con una Rp mejorada de 0,73.


Estos resultados revelan que nuestros gráficos geométricos coloreados ponderados multiescala pueden caracterizar eficazmente una amplia gama de interacciones en complejos biomoleculares.


Validación del conjunto de datos SKEMPI 1.0 S1131 El conjunto de datos SKEMPI 1.0 consta de una colección de 3.047 mutaciones de 158 complejos obtenidos de fuentes bibliográficas, donde los complejos tienen estructuras determinadas experimentalmente [23]. El conjunto de datos incluye tanto mutaciones de un solo punto como mutaciones de múltiples puntos.


Específicamente, hay 2317 entradas en el conjunto de datos que representan mutaciones de un solo punto, que se conocen colectivamente como conjunto SKEMPI S2317. Además, se seleccionó un subconjunto de 1131 mutaciones de punto único de interfaz no redundantes del conjunto SKEMPI S2317 y se etiquetó como conjunto SKEMPI S1131 [45]. Este subconjunto se centra en estudiar el impacto de las mutaciones de un solo punto en las interacciones proteína-proteína.


Tabla 1: Comparación de rendimiento de diferentes métodos en términos de coeficientes de correlación de Pearson (Rp) para el conjunto de datos AB-Bind (S645).



La Figura 2c muestra que nuestro modelo GGL-PPI2 logra un Rp de 0,873 y un RMSE de 1,21 kcal/mol en un CV 10 veces mayor en el conjunto de datos S1131. La Tabla 2 presenta la comparación de rendimiento de varios métodos en el conjunto de datos S1131, incluidos nuestros modelos propuestos, GGL-PPI1 y GGL-PPI2.


Entre ellos, nuestro modelo, GGL-PPI2, logró el rendimiento más alto, lo que subraya su superioridad en la predicción de cambios en la afinidad de unión debidos a mutaciones.


En particular, incluso sin funciones auxiliares, nuestro GGL-PPI1 superó a los métodos TopNetTree y Hom-ML-V2 que aprovechan las funciones auxiliares. Esto nuevamente resalta la eficacia de nuestra representación molecular basada en gráficos geométricos.


Tabla 2: Comparación de rendimiento de diferentes métodos en términos de coeficientes de correlación de Pearson (Rp) para las mutaciones de un solo punto en el conjunto de datos SKEMPI 1.0 (S1131).



Validación de los conjuntos de datos SKEMPI 2.0 S4169 y S8338 El conjunto de datos SKEMPI 2.0 es una versión actualizada y ampliada del conjunto de datos SKEMPI original, que incorpora nuevas mutaciones recopiladas de diversas fuentes [24].


Lanzado en 2018, aumentó significativamente de tamaño y ahora contiene un total de 7.085 entradas, incluidas mutaciones de un solo punto y de múltiples puntos. Los datos se obtuvieron fusionando varias bases de datos, incluidas SKEMPI 1.0 [23], AB-Bind [25], PROXiMATE27 y dbMPIKT46.


Además, se seleccionaron manualmente nuevos datos de la literatura y se agregaron al conjunto de datos. Las mutaciones cubren una amplia gama de complejos proteicos, como los complejos inhibidor de proteasa, anticuerpo-antígeno y TRCpMHC. Entre las mutaciones, aproximadamente 3000 son mutaciones de alanina de un solo punto, 2000 son mutaciones de un solo punto no alanina y otras 2000 implican mutaciones múltiples.


En particular, los autores del método mCSM-PPI2 [8] filtraron las mutaciones de un solo punto, produciendo el conjunto S4169, que comprende 4.169 variantes en 139 complejos diferentes. El conjunto S8338, derivado de S4169, representa hipotéticos cambios de energía de mutación inversa con valores negativos. Este conjunto de datos completo sirve como un recurso valioso para estudiar las interacciones de las proteínas y sus propiedades termodinámicas.


En cuanto a las perforaciones, nuestro modelo GGL-PPI2 registra un Rp de 0,81 con un RMSE de 1,03 kcal/mol para el conjunto de datos S4169, como se muestra en la Figura 2d, superando a todos los modelos existentes (Tabla 3). Cabe destacar que nuestro modelo GGL-PPI1, que se basa únicamente en características basadas en gráficos geométricos, demostró un rendimiento comparable al de GGL-PPI2, superando a TopNetTree y mCSM-PPI2 con un Rp de 0,80 y un RMSE de 1,06 kcal/mol.


En el caso del conjunto de datos S8338, aplicamos un enfoque de validación cruzada estratificada similar al mCSM-PPI2. Nos aseguramos de que las mutaciones inversas hipotéticas se colocaran consistentemente en los conjuntos de entrenamiento o de prueba durante las divisiones del conjunto de datos, manteniendo intacta su relación con las mutaciones originales correspondientes durante todo el proceso de validación cruzada.


GGL-PPI2 logró un Rp de 0,85 con un RMSE de 1,07 kcal/mol como se muestra en la Figura 2e, y GGL-PPI1 lo siguió de cerca, alcanzando un Rp de 0,84 con el mismo valor de RMSE. Como lo demuestra la Tabla 3, nuestro GGL-PPI2 está a la par con TopNetTree y supera a mCSM-PPI2 en el conjunto de datos S8338.


Tabla 3: Comparación de rendimiento de diferentes métodos en términos de coeficientes de correlación de Pearson (Rp) para las mutaciones de un solo punto en el conjunto de datos SKEMPI 2.0 (S4169 y S8338).


2.2 Evaluación

Para evaluar nuestro modelo propuesto para predecir los cambios de energía libre de unión (BFE) de las interacciones proteína-proteína, consideramos dos conjuntos de datos obtenidos de la base de datos ProTherm [22].


El primer conjunto de datos, cuidadosamente seleccionado por Pucci et al. [36], denominado conjunto de datos S[sym]. Estos datos reúnen 684 mutaciones de ProTherm, que comprenden 342 mutaciones directas y sus correspondientes mutaciones inversas, lo que da como resultado un conjunto de datos equilibrado.


El conjunto de datos se centra específicamente en mutaciones en quince cadenas de proteínas con estructuras 3D resueltas, lo que garantiza datos de alta resolución con una resolución de al menos 2,5˚A.


Al proporcionar valores de ∆∆G medidos experimentalmente y una representación equilibrada de mutaciones estabilizadoras y desestabilizadoras, el conjunto de datos S[sym] sirve como un recurso valioso para evaluar los sesgos de predicción en el contexto de la predicción de cambios de afinidad de unión inducidos por mutaciones.


Para abordar el problema de la fuga de datos y mejorar la capacidad de generalización de nuestro método, empleamos el conjunto de datos Q1744 [47]. Quan et al. [48] compilaron el conjunto de datos Q3421 de ProTherm, que consta de 3421 mutaciones de un solo punto en 150 proteínas con estructuras PDB disponibles. Sin embargo, la presencia de proteínas homólogas tanto en el conjunto de entrenamiento como en el de prueba puede provocar efectos interdependientes de las mutaciones, comprometiendo el rendimiento del modelo.


Para mitigar esto, Li et al. [47] crearon el conjunto de datos Q1744, derivado de la exclusión de puntos de datos superpuestos y el refinamiento de la homología a nivel de proteína entre los conjuntos de datos Q3421 y S[sym], lo que resultó en 1744 mutaciones distintas.


Además, el conjunto de datos Q3488 se creó aumentando las mutaciones inversas en el conjunto Q1744. Utilizamos el conjunto de datos Q3488 como nuestro conjunto de entrenamiento, mejorando así la capacidad de nuestro predictor ∆∆G para predecir con precisión los cambios de BFE en los PPI.


Realizamos una evaluación de nuestro modelo en el conjunto de pruebas ciegas S[sym], con un enfoque distintivo en mutaciones directas e inversas. Para evaluar el rendimiento, utilizamos el coeficiente de correlación de Pearson y el error cuadrático medio como nuestras métricas principales. Además, para discernir cualquier sesgo de predicción, incorporamos dos medidas estadísticas: Rpdir−rev y δ.


El primero calcula la correlación de Pearson entre predicciones para mutaciones directas e inversas, mientras que el segundo representa la suma de los valores ∆∆G predichos para ambos tipos de mutaciones. La hipótesis es que un predictor insesgado produciría Rpdir−rev = −1 y un δ (¯δ) promedio de 0 kcal/mol.


Nuestro enfoque principal es resaltar la efectividad de nuestro modelo, GGL-PPI2, enfatizando particularmente su robusta caracterización molecular basada en gráficos geométricos. GGL-PPI2 ha demostrado una precisión de predicción excepcional, manteniendo la coherencia tanto para mutaciones directas como inversas. Como se muestra en las Figuras 3a y 3b, nuestro modelo logra valores de Rp consistentes de 0,57 y un RMSE de 1,28 kcal/mol, lo que indica su eficiencia contra el sobreajuste a mutaciones directas.


Además, el análisis revela que una proporción significativa de mutaciones caen dentro de un error de predicción de 0,5 kcal/mol y 1,0 kcal/mol, con 34,6 % y 65,8 % para mutaciones directas y 35,1 % y 66,0 % para mutaciones inversas, como se muestra en la Figura 3d y 3e.


Además, la Figura 3c demuestra que GGL-PPI2 aborda eficazmente el sesgo de predicción al lograr un valor Rpdir-rev casi perfecto de -0,999 y un ¯δ promedio extremadamente bajo de 0,006 kcal/mol. Finalmente, el gráfico de distribución en la Figura 3f ilustra que el 99,4% de las mutaciones exhiben un sesgo de predicción inferior a 0,05 kcal/mol.


En la Tabla 4, presentamos los resultados de predicción de nuestros modelos y realizamos una comparación exhaustiva con otros predictores de ∆∆G. Observamos que nuestro modelo GGL-PPI2 supera a ThermoNet [47], que también fue entrenado en el conjunto Q3488 de homología reducida, en todas las medidas de evaluación. Supera a ThermoNet en un 21,3% en mutaciones directas y en un 18,7% en mutaciones inversas.


Además, el modelo GGL-PPI1, que solo utiliza características basadas en gráficos geométricos, también funciona mejor que ThermoNet en tareas de predicción directa e inversa. Esto enfatiza aún más la efectividad de nuestro enfoque de gráficos geométricos.


Figura 3: Resultados de nuestro modelo GGL-PPI2 para el conjunto de datos Ssym. En (a), se representan las mutaciones directas, mientras que (b) presenta los resultados de las mutaciones inversas. El espectro de colores, que va del azul al rojo, representa la precisión de predicción correspondiente, donde el azul significa mayor precisión y el rojo indica menor precisión. A


Para una comparación más amplia con otros predictores de ∆∆G, presentamos el modelo GGL-PPI2∗, entrenado en el conjunto Q6428 construido antes de la reducción de homología del conjunto Q3421 [47]. Como se ilustra en la Tabla 4, GGL-PPI2∗ sobresale sobre otros métodos en predicciones de mutación inversa.


Es de destacar que, si bien algunos métodos superan a GGL-PPI2∗ para mutaciones directas, con frecuencia exhiben un sesgo significativo hacia mutaciones inversas.