paint-brush
私たちのデータセットと研究結果: GGL-PPI モデル@mutation
3,129 測定値
3,129 測定値

私たちのデータセットと研究結果: GGL-PPI モデル

長すぎる; 読むには

このセクションでは、いくつかのベンチマーク データセットで提案されたモデルの検証と評価を実行します。当社では、GGL-PPI1 と GGL-PPI2 の 2 種類の GGL-PPI モデルを開発しています。最初のモデルである GGL-PPI1 は、セクション 3 で説明した幾何学的グラフの特徴のみに基づいて構築されています。
featured image - 私たちのデータセットと研究結果: GGL-PPI モデル
The Mutation Publication HackerNoon profile picture

この論文は、CC 4.0 ライセンスに基づいて arxiv で入手できます。

著者:

(1) ケンタッキー大学数学学部、マスド・ラナ博士。

(2) ケンタッキー大学数学部 Duc Duy Nguyen および ducnguyen@uky.edu。

リンク表

要約と紹介

データセットと結果

メソッド

結論、データとソフトウェアの可用性、競合する利益、謝辞と参考文献

2 データセットと結果

このセクションでは、いくつかのベンチマーク データセットで提案されたモデルの検証と評価を実行します。当社では、GGL-PPI1 と GGL-PPI2 の 2 種類の GGL-PPI モデルを開発しています。最初のモデルである GGL-PPI1 は、セクション 3 で説明した幾何学的グラフの特徴のみに基づいて構築されています。


一方、GGL-PPI2 には、Wang らによって詳しく説明されているように、幾何学的グラフ機能と補助機能の両方が組み込まれています。 [41]。補助コンポーネントの静電位の計算は、MIBPB ソフトウェア [42] を使用して実行されます。

2.1 検証

モデルを検証するために、主に AB-Bind データセット [25]、SKEMPI 1.0 データセット [23]、および SKEMPI 2.0 データセット [24] を考慮します。各データセットに対して 10 回の 10 分割交差検証 (CV) を実行することにより、厳密な評価方法を採用しています。平均ピアソン相関係数 (R p ) と二乗平均平方根誤差 (RMSE) が評価指標として機能します。


私たちが提案したモデルの CV パフォーマンスを他の既存の方法と比較する際に、特に TopNetTree [41]、Hom-ML-V2 [43]、および Hom-ML-V1 [43] を評価します。 TopNetTree と Hom-ML-V2 はどちらも、それぞれトポロジ ベースの機能と Hom コンプレックス ベースの機能と組み合わせて補助機能を組み込んでいます。一方、Hom-ML-V1 は補助機能を一切利用せず、Hom-complex ベースの機能のみに依存します。


図 2: 10 倍 10 分割相互検証を使用したさまざまな検証データセットにおける GGL-PPI2 モデルのパフォーマンス。 (a) AB-Bind S645 データセットでは、私たちのモデルは 0.58 のピアソン相関係数 (Rp) と 1.61 kcal/mol の二乗平均平方根誤差 (RMSE) を達成しました。 (b) S645 データセット上 (27 を除く)


AB-Bind S645 データセットの検証 AB-Bind データセットには、32 の抗体抗原複合体に対する 1,101 の変異データ ポイントが含まれており、変異による結合親和性の変化が実験的に決定されています。ピレスら。は、29 の抗体-抗原複合体で観察された 645 個の単一点変異からなる、AB-Bind S645 [44] として知られるサブセットを厳選しました。データセットには、安定化変異 (20%) と不安定化変異 (80%) の混合が含まれています。


さらに、データセットには、アッセイの感度範囲内で結合を示さない 27 個の非結合剤が含まれています。これらの非結合剤の場合、結合自由エネルギーの変化は一律に 8 kcal/mol の値に設定されています。モデルの精度と堅牢性を確保するには、モデルの開発および評価中にこれらの非結合因子を外れ値として考慮することが重要です。


図 2a に示すように、GGL-PPI2 は AB-Bind S645 データセットで 0.58 の Rp を達成しました。表 1 の比較結果は、私たちのモデルが Hom-ML-V2 43 と同率 2 位であり、TopNetTree [41] がトップの座を獲得したことを示しています。


ただし、データセットから 27 の非バインダーを除外すると、私たちのモデルは他の既存のすべてのモデルよりも優れたパフォーマンスを発揮します。具体的には、非結合剤を除去した後の Rp 値は 0.58 から 0.74 に増加します (図 2b)。


さらに、純粋に幾何学的なグラフベースの特徴モデルである GGL-PI1 は、AB-Bind S645 データセットで Rp 0.57 という競争力のあるパフォーマンスを実証しました。興味深いことに、非結合剤を除くと、GGL-PPI1 は他のすべてのモデルを上回り、Rp が 0.73 向上しました。


これらのパフォーマンスは、マルチスケール加重色幾何グラフが生体分子複合体における広範囲の相互作用を効果的に特徴付けることができることを明らかにしています。


SKEMPI 1.0 S1131 データセットの検証 SKEMPI 1.0 データセットは、文献情報源から得られた 158 個の複合体の 3,047 個の変異のコレクションで構成されており、複合体は実験的に構造が決定されています [23]。データセットには、単一点突然変異と多点突然変異の両方が含まれています。


具体的には、データセットには単一点突然変異を表す 2,317 のエントリがあり、これらは総称して SKEMPI S2317 セットとして知られています。さらに、1,131 個の非重複インターフェース単一点変異のサブセットが SKEMPI S2317 セットから選択され、SKEMPI S1131 セットとしてラベル付けされています [45]。このサブセットは、単一点突然変異がタンパク質間相互作用に及ぼす影響の研究に焦点を当てています。


表 1: AB-Bind (S645) データセットのピアソン相関係数 (Rp) に関するさまざまなメソッドのパフォーマンスの比較。



図 2c は、モデル GGL-PPI2 が S1131 データセットの 10 倍 CV で 0.873 の Rp および 1.21 kcal/mol の RMSE を達成していることを示しています。表 2 は、私たちが提案するモデル、GGL-PPI1 および GGL-PPI2 を含む、S1131 データセットに対するさまざまな手法のパフォーマンスの比較を示しています。


その中でも、当社モデル GGL-PPI2 は最高の性能を達成し、変異による結合親和性変化の予測における優位性を強調しました。


特に、補助機能がない場合でも、GGL-PPI1 は補助機能を活用する TopNetTree メソッドと Hom-ML-V2 メソッドの両方を上回りました。これは、幾何学的なグラフに基づく分子表現の有効性を再度強調しています。


表 2: SKEMPI 1.0 (S1131) データセットにおける単一点変異のピアソン相関係数 (Rp) に関するさまざまなメソッドのパフォーマンスの比較。



SKEMPI 2.0 S4169 および S8338 データセットでの検証 SKEMPI 2.0 データセットは、元の SKEMPI データセットの更新および拡張バージョンであり、さまざまなソースから収集された新しい突然変異が組み込まれています [24]。


2018 年にリリースされてからサイズが大幅に増加し、現在では単一点変異と多点変異の両方を含む合計 7,085 のエントリが含まれています。データは、SKEMPI 1.0 [23]、AB-Bind [25]、PROXiMATE27、dbMPIKT46 などのいくつかのデータベースを結合することによって取得されました。


さらに、文献からの新しいデータが手動で厳選され、データセットに追加されました。この変異は、プロテアーゼ阻害剤、抗体抗原、TRCpMHC 複合体など、広範囲のタンパク質複合体をカバーしています。変異のうち、約 3,000 はアラニン一点変異、2,000 は非アラニン一点変異、さらに 2,000 は複数の変異を伴います。


注目すべきことに、mCSM-PPI2 [8] メソッドの著者らは単一点突然変異をフィルタリングし、139 の異なる複合体に 4,169 個の変異体を含む S4169 セットを生成しました。S4169 から派生した S8338 セットは、負の値で仮想的な復帰突然変異エネルギー変化を表します。この包括的なデータセットは、タンパク質の相互作用とその熱力学特性を研究するための貴重なリソースとして機能します。


性能の点では、図 2d に示すように、S4169 データセットの GGL-PPI2 モデルは Rp 0.81、RMSE 1.03 kcal/mol を示し、既存のすべてのモデルを上回っています (表 3)。幾何学的なグラフベースの特徴のみに依存する当社の GGL-PPI1 モデルが、Rp 0.80 および RMSE 1.06 kcal/mol で、TopNetTree および mCSM-PPI2 を上回る、GGL-PPI2 と同等のパフォーマンスを示したことは注目に値します。


S8338 データセットの場合、mCSM-PPI2 と同様の層別相互検証アプローチを適用しました。データセットの分割中に仮説的な復帰突然変異がトレーニング セットまたはテスト セットのいずれかに一貫して配置され、対応する元の突然変異との関係が相互検証プロセス全体を通じてそのまま維持されることを保証しました。


図2eに示すように、GGL-PPI2は1.07kcal/molのRMSEでRp0.85を達成し、GGL-PPI1はこれにほぼ続き、同じRMSE値でRp0.84を達成しました。表 3 が証明するように、当社の GGL-PPI2 は TopNetTree と同等であり、S8338 データセットでは mCSM-PPI2 を上回っています。


表 3: SKEMPI 2.0 (S4169 および S8338) データセットの単一点変異のピアソン相関係数 (Rp) に関するさまざまなメソッドのパフォーマンスの比較。


2.2 評価

タンパク質間相互作用の結合自由エネルギー (BFE) 変化を予測するために提案したモデルを評価するために、ProTherm データベース [22] をソースとする 2 つのデータセットを検討します。


Pucci らによって慎重に選択された最初のデータセット。 [36]、S[sym] データセットと名付けられました。このデータは、ProTherm からの 684 の突然変異を集めたもので、342 の直接突然変異とそれに対応する逆突然変異で構成され、バランスの取れたデータセットが得られます。


このデータセットは、3D 構造が解明された 15 個のタンパク質鎖の変異に特に焦点を当てており、少なくとも 2.5˚A の分解能を持つ高解像度データを保証します。


S[sym] データセットは、実験的に測定された ΔΔG 値と安定化変異と不安定化変異のバランスのとれた表現を提供することにより、変異誘発性の結合親和性変化の予測という文脈で予測バイアスを評価するための貴重なリソースとして機能します。


データ漏洩の問題に対処し、私たちの手法の一般化機能を強化するために、Q1744 データセット [47] を採用しました。クアンら。 [48] は、利用可能な PDB 構造を持つ 150 タンパク質にわたる 3421 個の単一点突然変異からなる ProTherm からの Q3421 データセットを編集しました。ただし、トレーニング セットとテスト セットの両方に相同なタンパク質が存在すると、突然変異の相互依存的な影響が生じ、モデルのパフォーマンスが損なわれる可能性があります。


これを軽減するために、Li et al. [47] は、重複するデータ点を除外し、Q3421 と S[sym] データセット間のタンパク質レベルの相同性を精緻化することによって導出された Q1744 データセットを作成し、その結果 1744 個の異なる変異が生じました。


さらに、Q3488 データセットは、Q1744 セットの復帰突然変異を増強することによって作成されました。 Q3488 データセットをトレーニング セットとして利用することで、PPI の BFE 変化を正確に予測するための ΔΔG 予測器の機能が強化されました。


私たちは、直接突然変異と逆突然変異の両方に明確に焦点を当てて、ブラインド テスト セット S[sym] でモデルの評価を実行します。パフォーマンスを評価するために、ピアソン相関係数と二乗平均平方根誤差を主要な指標として利用します。さらに、予測の偏りを識別するために、Rpdir-rev と δ という 2 つの統計的尺度を組み込みました。


前者は直接変異と逆変異の予測間のピアソン相関を計算し、後者は両方の種類の変異の予測 ΔΔG 値の合計を表します。仮説は、不偏予測子により Rpdir−rev = −1 および 0 kcal/mol の平均 δ (  ̄δ) が得られるというものです。


私たちの主な焦点は、モデル GGL-PPI2 の有効性を強調することであり、特にその堅牢な幾何学的グラフに基づく分子特徴付けを強調することです。 GGL-PPI2 は、直接突然変異と逆突然変異の両方で一貫性を維持し、優れた予測精度を実証しました。図 3a および 3b に示すように、私たちのモデルは、0.57 の一貫した Rp 値と 1.28 kcal/mol の RMSE を達成しており、直接変異へのオーバーフィッティングに対するその効率を示しています。


さらに、分析により、図に示すように、かなりの割合の突然変異が 0.5 kcal/mol および 1.0 kcal/mol の予測誤差内に収まり、直接突然変異では 34.6% と 65.8%、逆突然変異では 35.1% と 66.0% であることが明らかになりました。 3Dと3E。


さらに、図3cは、GGL-PPI2が-0.999のほぼ完璧なRpdir-rev値と0.006 kcal/molの非常に低い平均 ̄δを達成することにより、予測バイアスに効果的に対処していることを示しています。最後に、図 3f の分布プロットは、変異の 99.4% が 0.05 kcal/mol 未満の予測バイアスを示すことを示しています。


表 4 では、モデルの予測結果を示し、他の ΔΔG 予測子との包括的な比較を行っています。私たちの GGL-PPI2 モデルは、すべての評価尺度にわたって、やはり相同性低減セット Q3488 でトレーニングされた ThermoNet [47] よりも優れていることがわかります。直接突然変異では ThermoNet を 21.3%、逆突然変異では 18.7% 上回ります。


さらに、幾何グラフベースの特徴のみを使用する GGL-PPI1 モデルも、直接予測タスクと逆予測タスクの両方で ThermoNet よりも優れたパフォーマンスを発揮します。これは、幾何学的グラフのアプローチの有効性をさらに強調します。


図 3: Ssym データセットの GGL-PPI2 モデルの結果。 (a) では直接突然変異がプロットされており、(b) では逆突然変異の結果が示されています。青から赤の範囲の色のスペクトルは、対応する予測精度を表します。青は精度が高いことを示し、赤は精度が低いことを示します。あ


他の ∆ΔG 予測子との広範な比較のために、セット Q3421 の相同性削減前に構築された Q6428 セットでトレーニングされた GGL-PPI2∗ モデルを導入します [47]。表 4 に示すように、GGL-PPI2* は復帰突然変異予測において他の方法よりも優れています。


一部の方法は直接突然変異に関しては GGL-PPI2∗ を上回りますが、復帰突然変異に対しては重大な偏りを示すことが多いことは注目に値します。