Этот документ доступен на arxiv под лицензией CC 4.0.
Авторы:
(1) доктор Масуд Рана, факультет математики, Университет Кентукки;
(2) Дык Дуй Нгуен, факультет математики, Университет Кентукки, ducnguyen@uky.edu.
В этом разделе мы проводим проверку и оценку предлагаемых нами моделей на нескольких эталонных наборах данных. Мы разрабатываем два типа моделей GGL-PPI: GGL-PPI1 и GGL-PPI2. Первая модель, GGL-PPI1, построена исключительно на основе особенностей геометрического графа, обсуждавшихся в разделе 3.
С другой стороны, GGL-PPI2 включает в себя как функции геометрического графика, так и вспомогательные функции, как подробно описано Wang et al. [41]. Расчеты электростатического потенциала вспомогательных компонентов проводятся с использованием программного обеспечения MIBPB [42].
Для проверки наших моделей мы в первую очередь рассматриваем набор данных AB-Bind [25], набор данных SKEMPI 1.0 [23] и набор данных SKEMPI 2.0 [24]. Мы используем строгую методологию оценки, проводя 10-кратную перекрестную проверку (CV) для каждого набора данных. В качестве показателей оценки служат средний коэффициент корреляции Пирсона (R p ) и среднеквадратическая ошибка (RMSE).
Сравнивая производительность CV предложенных нами моделей с другими существующими методами, мы специально оцениваем TopNetTree [41], Hom-ML-V2 [43] и Hom-ML-V1 [43]. И TopNetTree, и Hom-ML-V2 включают вспомогательные функции в сочетании с функциями, основанными на топологии и Hom-комплексе, соответственно. С другой стороны, Hom-ML-V1 опирается исключительно на функции Hom-комплекса без использования каких-либо вспомогательных функций.
Проверка набора данных AB-Bind S645 Набор данных AB-Bind содержит 1101 точку данных о мутациях для 32 комплексов антитело-антиген, что обеспечивает экспериментально определенные изменения аффинности связывания при мутациях. Пирес и др. курировал подмножество, известное как AB-Bind S645 [44], состоящее из 645 одноточечных мутаций, наблюдаемых в 29 комплексах антитело-антиген. Набор данных включает смесь стабилизирующих (20%) и дестабилизирующих (80%) мутаций.
Кроме того, набор данных включает 27 несвязывающих веществ, которые не обнаруживают никакого связывания в диапазоне чувствительности анализа. Для этих несвязывающих веществ изменения свободной энергии связывания были единообразно установлены на уровне 8 ккал/моль. Крайне важно учитывать эти несвязывающие факторы как выбросы во время разработки и оценки модели, чтобы обеспечить точность и надежность модели.
Наш GGL-PPI2 достиг Rp 0,58 в наборе данных AB-Bind S645, как показано на рисунке 2a. Результаты сравнения в таблице 1 показывают, что наша модель разделила второе место с Hom-ML-V2 43, а TopNetTree [41] заняла первое место.
Однако когда мы исключаем из набора данных 27 несвязывающих веществ, наша модель превосходит все другие существующие модели. В частности, значение Rp увеличивается до 0,74 с 0,58 после удаления несвязывающих веществ (рис. 2б).
Кроме того, GGL-PI1, наша чисто геометрическая модель функций на основе графов, продемонстрировала конкурентоспособную производительность с Rp 0,57 в наборе данных AB-Bind S645. Любопытно, что при исключении несвязывающих веществ GGL-PPI1 превзошел все другие модели с улучшенным Rp 0,73.
Эти результаты показывают, что наши многомасштабные взвешенные цветные геометрические графики могут эффективно характеризовать широкий спектр взаимодействий в биомолекулярных комплексах.
Проверка набора данных SKEMPI 1.0 S1131 Набор данных SKEMPI 1.0 состоит из коллекции 3047 мутаций 158 комплексов, полученных из литературных источников, где комплексы имеют экспериментально определенную структуру [23]. Набор данных включает как одноточечные, так и многоточечные мутации.
В частности, в наборе данных имеется 2317 записей, представляющих одноточечные мутации, которые вместе известны как набор SKEMPI S2317. Кроме того, из набора SKEMPI S2317 было выбрано подмножество из 1131 неизбыточных одноточечных мутаций интерфейса и обозначено как набор SKEMPI S1131 [45]. Это подмножество фокусируется на изучении влияния одноточечных мутаций на белок-белковые взаимодействия.
Таблица 1: Сравнение производительности различных методов с точки зрения коэффициентов корреляции Пирсона (Rp) для набора данных AB-Bind (S645).
Рисунок 2c показывает, что наша модель GGL-PPI2 достигает Rp 0,873 и RMSE 1,21 ккал/моль в 10-кратном CV в наборе данных S1131. В таблице 2 представлено сравнение производительности различных методов на наборе данных S1131, включая предложенные нами модели GGL-PPI1 и GGL-PPI2.
Среди них наша модель GGL-PPI2 достигла наивысшей производительности, что подчеркивает ее превосходство в прогнозировании изменений аффинности связывания из-за мутации.
Примечательно, что даже без вспомогательных функций наш GGL-PPI1 превзошел методы TopNetTree и Hom-ML-V2, которые используют вспомогательные функции. Это еще раз подчеркивает эффективность нашего молекулярного представления на основе геометрических графов.
Таблица 2: Сравнение эффективности различных методов с точки зрения коэффициентов корреляции Пирсона (Rp) для одноточечных мутаций в наборе данных SKEMPI 1.0 (S1131).
Проверка наборов данных SKEMPI 2.0 S4169 и S8338. Набор данных SKEMPI 2.0 представляет собой обновленную и расширенную версию исходного набора данных SKEMPI, включающую новые мутации, собранные из различных источников [24].
Выпущенный в 2018 году, он значительно увеличился в размерах и теперь содержит в общей сложности 7085 записей, включая как одноточечные, так и многоточечные мутации. Данные были получены путем объединения нескольких баз данных, включая SKEMPI 1.0 [23], AB-Bind [25], PROXiMATE27 и dbMPIKT46.
Кроме того, новые данные из литературы были вручную отобраны и добавлены в набор данных. Мутации охватывают широкий спектр белковых комплексов, таких как комплексы ингибитор протеазы, антитело-антиген и комплексы TRCpMHC. Среди мутаций примерно 3000 являются одноточечными мутациями аланина, 2000 — одноточечными неаланиновыми мутациями и еще 2000 включают множественные мутации.
Примечательно, что авторы метода mCSM-PPI2 [8] отфильтровали одноточечные мутации, получив набор S4169, включающий 4169 вариантов в 139 различных комплексах. Набор S8338, полученный из S4169, представляет собой гипотетические обратные изменения энергии мутаций с отрицательными значениями. Этот обширный набор данных служит ценным ресурсом для изучения взаимодействий белков и их термодинамических свойств.
С точки зрения производительности наша модель GGL-PPI2 демонстрирует Rp 0,81 со среднеквадратическим значением 1,03 ккал/моль для набора данных S4169, как показано на рисунке 2d, опережая все существующие модели (таблица 3). Примечательно, что наша модель GGL-PPI1, которая опирается исключительно на функции, основанные на геометрических графах, продемонстрировала производительность, сравнимую с GGL-PPI2, превосходя TopNetTree и mCSM-PPI2 с Rp 0,80 и RMSE 1,06 ккал/моль.
В случае набора данных S8338 мы применили подход стратифицированной перекрестной проверки, аналогичный mCSM-PPI2. Мы гарантировали, что гипотетические обратные мутации последовательно помещались либо в обучающие, либо в тестовые наборы во время разделения наборов данных, сохраняя их связь с соответствующими исходными мутациями неизменными на протяжении всего процесса перекрестной проверки.
GGL-PPI2 достиг Rp 0,85 со RMSE 1,07 ккал/моль, как показано на рисунке 2e, а GGL-PPI1 внимательно следил за ним, достигнув Rp 0,84 с тем же значением RMSE. Как видно из таблицы 3, наш GGL-PPI2 находится на одном уровне с TopNetTree и превосходит mCSM-PPI2 в наборе данных S8338.
Таблица 3: Сравнение эффективности различных методов с точки зрения коэффициентов корреляции Пирсона (Rp) для одноточечных мутаций в наборе данных SKEMPI 2.0 (S4169 и S8338).
Чтобы оценить предложенную нами модель для прогнозирования изменений свободной энергии связывания (BFE) белок-белковых взаимодействий, мы рассматриваем два набора данных, полученных из базы данных ProTherm [22].
Первый набор данных, тщательно отобранный Pucci et al. [36], названный набором данных S[sym]. Эти данные объединяют 684 мутации из ProTherm, включая 342 прямые мутации и соответствующие им обратные мутации, в результате чего получается сбалансированный набор данных.
Набор данных специально ориентирован на мутации в пятнадцати белковых цепях с решенными трехмерными структурами, обеспечивая получение данных высокого разрешения с разрешением не менее 2,5 ˚A.
Предоставляя экспериментально измеренные значения ∆∆G и сбалансированное представление стабилизирующих и дестабилизирующих мутаций, набор данных S[sym] служит ценным ресурсом для оценки ошибок прогнозирования в контексте прогнозирования изменений аффинности связывания, вызванных мутациями.
Чтобы решить проблему утечки данных и повысить возможности обобщения нашего метода, мы использовали набор данных Q1744 [47]. Цюань и др. [48] собрали набор данных Q3421 от ProTherm, состоящий из 3421 одноточечной мутации в 150 белках с доступными структурами PDB. Однако присутствие гомологичных белков как в обучающем, так и в тестовом наборе может привести к взаимозависимым эффектам мутаций, ставящим под угрозу производительность модели.
Чтобы смягчить это, Li et al. [47] создали набор данных Q1744, полученный путем исключения перекрывающихся точек данных и уточнения гомологии на уровне белка между наборами данных Q3421 и S[sym], что привело к 1744 различным мутациям.
Кроме того, набор данных Q3488 был создан путем дополнения обратных мутаций в наборе Q1744. Мы использовали набор данных Q3488 в качестве обучающего набора, тем самым расширив возможности нашего предиктора ∆∆G точно предсказывать изменения BFE в PPI.
Мы проводим оценку нашей модели на слепом тестовом наборе S[sym], уделяя особое внимание как прямым, так и обратным мутациям. Для оценки производительности мы используем коэффициент корреляции Пирсона и среднеквадратическую ошибку в качестве основных показателей. Кроме того, чтобы выявить любую предвзятость прогноза, мы включили два статистических показателя: Rpdir-rev и δ.
Первый вычисляет корреляцию Пирсона между предсказаниями прямых и обратных мутаций, а второй представляет собой сумму предсказанных значений ∆∆G для обоих типов мутаций. Гипотеза состоит в том, что несмещенный предиктор даст Rpdir-rev = -1 и среднее значение δ ( ¯δ) 0 ккал/моль.
Наша главная цель — подчеркнуть эффективность нашей модели GGL-PPI2, особенно подчеркивая ее надежную молекулярную характеристику на основе геометрических графов. GGL-PPI2 продемонстрировал исключительную точность прогнозирования, сохраняя согласованность как для прямых, так и для обратных мутаций. Как показано на рисунках 3a и 3b, наша модель достигает стабильных значений Rp 0,57 и RMSE 1,28 ккал/моль, что указывает на ее эффективность против переобучения для прямых мутаций.
Кроме того, анализ показывает, что значительная часть мутаций попадает в пределы ошибки прогнозирования 0,5 ккал/моль и 1,0 ккал/моль: 34,6% и 65,8% для прямых мутаций и 35,1% и 66,0% для обратных мутаций, как показано на рисунке. 3д и 3е.
Кроме того, рисунок 3c демонстрирует, что GGL-PPI2 эффективно устраняет ошибку прогнозирования, достигая почти идеального значения Rpdir-rev -0,999 и чрезвычайно низкого среднего значения ¯δ, равного 0,006 ккал/моль. Наконец, график распределения на рисунке 3f показывает, что 99,4% мутаций демонстрируют погрешность прогнозирования менее 0,05 ккал/моль.
В таблице 4 мы представляем результаты прогнозирования наших моделей и проводим всестороннее сравнение с другими предикторами ∆∆G. Мы наблюдаем, что наша модель GGL-PPI2 превосходит ThermoNet [47], которая также была обучена на наборе Q3488 со сниженной гомологией, по всем показателям оценки. Он превосходит ThermoNet на 21,3% по прямым мутациям и на 18,7% по обратным мутациям.
Более того, модель GGL-PPI1, которая использует только функции на основе геометрических графиков, также работает лучше, чем ThermoNet, как в задачах прямого, так и обратного прогнозирования. Это еще раз подчеркивает эффективность нашего подхода, основанного на геометрических графах.
Для более широкого сравнения с другими предикторами ∆∆G мы вводим модель GGL-PPI2∗, обученную на наборе Q6428, созданном до уменьшения гомологии набора Q3421 [47]. Как показано в таблице 4, GGL-PPI2* превосходит другие методы в прогнозировании обратных мутаций.
Примечательно, что, хотя некоторые методы превосходят GGL-PPI2* по прямым мутациям, они часто демонстрируют значительную предвзятость в сторону обратных мутаций.