本文可在 CC 4.0 许可下在 arxiv 上获取。
作者:
(1) Md Masud Rana,肯塔基大学数学系;
(2) Duc Duy Nguyen,肯塔基大学数学系,邮箱:ducnguyen@uky.edu。
在本节中,我们在几个基准数据集上对我们提出的模型进行验证和评估。我们开发了两种类型的 GGL-PPI 模型:GGL-PPI1 和 GGL-PPI2。第一个模型 GGL-PPI1 仅基于第 3 节中讨论的几何图特征构建。
另一方面,GGL-PPI2 结合了几何图形特征和辅助特征,如 Wang 等人详细介绍的。 [41]。辅助组件的静电势计算是使用 MIBPB 软件进行的[42]。
为了验证我们的模型,我们主要考虑 AB-Bind 数据集 [25]、SKEMPI 1.0 数据集 [23] 和 SKEMPI 2.0 数据集 [24]。我们采用严格的评估方法,对每个数据集进行 10 倍 10 倍交叉验证 (CV)。平均皮尔逊相关系数 (R p ) 和均方根误差 (RMSE) 作为我们的评估指标。
在将我们提出的模型与其他现有方法的 CV 性能进行比较时,我们专门评估了 TopNetTree [41]、Hom-ML-V2 [43] 和 Hom-ML-V1 [43]。 TopNetTree 和 Hom-ML-V2 都分别将辅助功能与其基于拓扑和基于 Hom 复合体的功能结合起来。另一方面,Hom-ML-V1 仅依赖于基于 Hom 复合体的特征,而不使用任何辅助特征。
AB-Bind S645 数据集验证 AB-Bind 数据集包含 32 个抗体-抗原复合物的 1,101 个突变数据点,提供通过实验确定的突变时的结合亲和力变化。皮雷等人。策划了一个称为 AB-Bind S645 的子集 [44],由在 29 个抗体-抗原复合物中观察到的 645 个单点突变组成。该数据集包含稳定突变(20%)和不稳定突变(80%)的混合。
此外,数据集还包括 27 种非结合剂,它们在测定的灵敏度范围内未显示出任何结合。对于这些非结合剂,结合自由能变化已统一设置为 8 kcal/mol 的值。在模型开发和评估过程中将这些非绑定者视为异常值以确保模型的准确性和稳健性至关重要。
我们的 GGL-PPI2 在 AB-Bind S645 数据集上的 Rp 为 0.58,如图 2a 所示。表 1 中的比较结果表明,我们的模型与 Hom-ML-V2 43 并列第二,而 TopNetTree [41] 占据首位。
然而,当我们从数据集中排除 27 个非绑定者时,我们的模型优于所有其他现有模型。具体来说,去除非粘合剂后,Rp 值从 0.58 增加到 0.74(图 2b)。
此外,我们的纯粹基于几何图的特征模型 GGL-PI1 在 AB-Bind S645 数据集上展示了具有竞争力的性能,Rp 为 0.57。有趣的是,当排除非粘合剂时,GGL-PPI1 的 Rp 提高了 0.73,超过了所有其他模型。
这些性能表明,我们的多尺度加权彩色几何图可以有效地表征生物分子复合物中广泛的相互作用。
SKEMPI 1.0 S1131 数据集的验证 SKEMPI 1.0 数据集包含从文献来源获得的 158 个复合物的 3,047 个突变的集合,其中复合物具有通过实验确定的结构 [23]。该数据集包括单点突变和多点突变。
具体来说,数据集中有 2,317 个代表单点突变的条目,统称为 SKEMPI S2317 集。此外,从 SKEMPI S2317 集中选择了 1,131 个非冗余界面单点突变的子集,并标记为 SKEMPI S1131 集 [45]。该子集重点研究单点突变对蛋白质-蛋白质相互作用的影响。
表 1:AB-Bind (S645) 数据集的皮尔逊相关系数 (Rp) 方面不同方法的性能比较。
图 2c 显示我们的模型 GGL-PPI2 在 S1131 数据集上的 10 倍 CV 中实现了 0.873 的 Rp 和 1.21 kcal/mol 的 RMSE。表 2 显示了 S1131 数据集上各种方法的性能比较,包括我们提出的模型 GGL-PPI1 和 GGL-PPI2。
其中,我们的模型 GGL-PPI2 取得了最高的性能,突显了其在预测突变引起的结合亲和力变化方面的优越性。
值得注意的是,即使没有辅助特征,我们的 GGL-PPI1 也优于利用辅助特征的 TopNetTree 和 Hom-ML-V2 方法。这再次凸显了我们基于几何图的分子表示的有效性。
表 2:SKEMPI 1.0 (S1131) 数据集中单点突变的皮尔逊相关系数 (Rp) 方面不同方法的性能比较。
SKEMPI 2.0 S4169 和 S8338 数据集的验证 SKEMPI 2.0 数据集是原始 SKEMPI 数据集的更新和扩展版本,纳入了从各种来源收集的新突变 [24]。
它于 2018 年发布,其大小显着增加,目前总共包含 7,085 个条目,包括单点和多点突变。数据是通过合并多个数据库获得的,包括 SKEMPI 1.0 [23]、AB-Bind [25]、PROXiMATE27 和 dbMPIKT46。
此外,文献中的新数据是手动整理并添加到数据集中的。这些突变涵盖了多种蛋白质复合物,例如蛋白酶抑制剂、抗体-抗原和 TRCpMHC 复合物。其中,约3000个是单点丙氨酸突变,2000个是单点非丙氨酸突变,另外2000个涉及多点突变。
值得注意的是,mCSM-PPI2 [8] 方法的作者过滤了单点突变,产生了 S4169 集,包含 139 个不同复合物中的 4,169 个变体/S8338 集源自 S4169,代表假设的反向突变能量变化为负值。这个综合数据集是研究蛋白质相互作用及其热力学性质的宝贵资源。
在性能方面,我们的 GGL-PPI2 模型在 S4169 数据集上的 Rp 为 0.81,RMSE 为 1.03 kcal/mol,如图 2d 所示,超过了所有现有模型(表 3)。值得注意的是,我们的 GGL-PPI1 模型仅依赖于基于几何图的特征,表现出与 GGL-PPI2 相当的性能,优于 TopNetTree 和 mCSM-PPI2,Rp 为 0.80,RMSE 为 1.06 kcal/mol。
对于 S8338 数据集,我们应用了类似于 mCSM-PPI2 的分层交叉验证方法。我们确保在数据集分割期间将假设的反向突变一致地放置在训练或测试集中,从而在整个交叉验证过程中保持它们与相应原始突变的关系完好无损。
如图 2e 所示,GGL-PPI2 的 Rp 为 0.85,RMSE 为 1.07 kcal/mol,GGL-PPI1 紧随其后,在相同的 RMSE 值下达到 0.84 的 Rp。正如表 3 所证明的,我们的 GGL-PPI2 在 S8338 数据集上与 TopNetTree 相当,并且优于 mCSM-PPI2。
表 3:SKEMPI 2.0(S4169 和 S8338)数据集中单点突变的 Pearson 相关系数 (Rp) 方面不同方法的性能比较。
为了评估我们提出的预测蛋白质-蛋白质相互作用的结合自由能 (BFE) 变化的模型,我们考虑来自 ProTherm 数据库的两个数据集 [22]。
第一个数据集,由 Pucci 等人精心挑选。 [36],命名为S[sym]数据集。该数据汇集了来自 ProTherm 的 684 个突变,其中包括 342 个直接突变及其相应的反向突变,从而形成了一个平衡的数据集。
该数据集特别关注具有已解决的 3D 结构的 15 条蛋白质链的突变,确保高分辨率数据的分辨率至少为 2.5°A。
通过提供实验测量的 ΔΔG 值以及稳定和不稳定突变的平衡表示,S[sym] 数据集可作为评估预测突变引起的结合亲和力变化的预测偏差的宝贵资源。
为了解决数据泄漏问题并增强我们方法的泛化能力,我们采用了 Q1744 数据集 [47]。全等人。 [48] 编译了 ProTherm 的 Q3421 数据集,其中包含 150 个具有可用 PDB 结构的蛋白质的 3421 个单点突变。然而,训练和测试集中同源蛋白的存在可能会导致突变的相互依赖效应,从而损害模型的性能。
为了缓解这种情况,Li 等人。 [47] 创建了 Q1744 数据集,该数据集是通过排除重叠数据点并精炼 Q3421 和 S[sym] 数据集之间的蛋白质水平同源性而得出的,从而产生了 1744 个不同的突变。
此外,Q3488 数据集是通过增加 Q1744 集中的反向突变而创建的。我们利用 Q3488 数据集作为训练集,从而增强了 ΔΔG 预测器准确预测 PPI 中 BFE 变化的能力。
我们在盲测试集 S[sym] 上对我们的模型进行了评估,重点关注直接突变和反向突变。为了评估性能,我们利用皮尔逊相关系数和均方根误差作为主要指标。此外,为了辨别任何预测偏差,我们结合了两个统计指标:Rpdir−rev 和 δ。
前者计算直接突变和反向突变预测之间的 Pearson 相关性,而后者表示两种突变类型的预测 ΔΔG 值之和。假设无偏预测变量将产生 Rpdir−rev = −1 和平均 δ ( ˉδ) 为 0 kcal/mol。
我们的主要重点是强调我们的模型 GGL-PPI2 的有效性,特别强调其强大的基于几何图的分子特征化。 GGL-PPI2 表现出卓越的预测准确性,保持了直接突变和反向突变的一致性。如图 3a 和 3b 所示,我们的模型实现了一致的 Rp 值 0.57 和 RMSE 1.28 kcal/mol,表明其对抗直接突变过度拟合的效率。
此外,分析显示很大一部分突变落在 0.5 kcal/mol 和 1.0 kcal/mol 的预测误差范围内,其中直接突变为 34.6% 和 65.8%,反向突变为 35.1% 和 66.0%,如图所示3d 和 3e。
此外,图 3c 表明,GGL-PPI2 通过实现近乎完美的 Rpdir−rev 值 -0.999 和极低的平均 δ 0.006 kcal/mol,有效解决了预测偏差。最后,图 3f 中的分布图表明 99.4% 的突变表现出低于 0.05 kcal/mol 的预测偏差。
在表 4 中,我们展示了我们的模型的预测结果,并与其他 ΔΔG 预测器进行了全面比较。我们观察到,我们的 GGL-PPI2 模型在所有评估指标上都优于 ThermoNet [47],后者也在同源约简集 Q3488 上进行了训练。它在直接突变方面优于 ThermoNet 21.3%,在反向突变方面优于 ThermoNet 18.7%。
此外,仅使用基于几何图的特征的GGL-PPI1模型在直接和反向预测任务中也比ThermoNet表现更好。这进一步强调了我们几何图方法的有效性。
为了与其他 ΔΔG 预测变量进行更广泛的比较,我们引入了 GGL-PPI2* 模型,该模型在 Q3421 集同源性约简之前构建的 Q6428 集上进行训练[47]。如表 4 所示,GGL-PPI2* 在回复突变预测方面优于其他方法。
值得注意的是,虽然一些方法在直接突变方面超过了 GGL-PPI2*,但它们经常表现出对反向突变的显着偏差。