paint-brush
Bộ dữ liệu và kết quả từ nghiên cứu của chúng tôi: Mô hình GGL-PPItừ tác giả@mutation
3,129 lượt đọc
3,129 lượt đọc

Bộ dữ liệu và kết quả từ nghiên cứu của chúng tôi: Mô hình GGL-PPI

từ tác giả The Mutation Publication8m2024/03/19
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

Trong phần này, chúng tôi thực hiện xác nhận và đánh giá các mô hình được đề xuất của chúng tôi trên một số bộ dữ liệu chuẩn. Chúng tôi phát triển hai loại mô hình GGL-PPI: GGL-PPI1 và GGL-PPI2. Mô hình đầu tiên, GGL-PPI1, được xây dựng hoàn toàn dựa trên các đặc điểm đồ thị hình học được thảo luận trong Phần 3.
featured image - Bộ dữ liệu và kết quả từ nghiên cứu của chúng tôi: Mô hình GGL-PPI
The Mutation Publication HackerNoon profile picture

Bài viết này có sẵn trên arxiv theo giấy phép CC 4.0.

tác giả:

(1) Md Masud Rana, Khoa Toán, Đại học Kentucky;

(2) Đức Duy Nguyễn, Khoa Toán, Đại học Kentucky & ducnguyen@uky.edu.

Bảng liên kết

Tóm tắt & Giới thiệu

Bộ dữ liệu và kết quả

phương pháp

Kết luận, Tính sẵn có của Dữ liệu và Phần mềm, Lợi ích cạnh tranh, Lời cảm ơn & Tài liệu tham khảo

2 bộ dữ liệu và kết quả

Trong phần này, chúng tôi thực hiện xác nhận và đánh giá các mô hình được đề xuất của chúng tôi trên một số bộ dữ liệu chuẩn. Chúng tôi phát triển hai loại mô hình GGL-PPI: GGL-PPI1 và GGL-PPI2. Mô hình đầu tiên, GGL-PPI1, được xây dựng hoàn toàn dựa trên các đặc điểm đồ thị hình học được thảo luận trong Phần 3.


Mặt khác, GGL-PPI2 kết hợp cả các tính năng đồ thị hình học và các tính năng phụ trợ, như chi tiết của Wang et al. [41]. Việc tính toán thế năng tĩnh điện cho các bộ phận phụ trợ được thực hiện bằng phần mềm MIBPB [42].

2.1 Xác nhận

Để xác thực các mô hình của chúng tôi, chúng tôi chủ yếu xem xét tập dữ liệu AB-Bind [25], tập dữ liệu SKEMPI 1.0 [23] và tập dữ liệu SKEMPI 2.0 [24]. Chúng tôi sử dụng phương pháp đánh giá nghiêm ngặt bằng cách tiến hành xác thực chéo (CV) 10 lần 10 lần trên mỗi tập dữ liệu. Hệ số tương quan Pearson trung bình (R p ) và sai số bình phương trung bình gốc (RMSE) đóng vai trò là thước đo đánh giá của chúng tôi.


Khi so sánh hiệu suất CV của các mô hình được đề xuất của chúng tôi với các phương pháp hiện có khác, chúng tôi đánh giá cụ thể TopNetTree [41], Hom-ML-V2 [43] và Hom-ML-V1 [43]. Cả TopNetTree và Hom-ML-V2 đều kết hợp các tính năng phụ trợ tương ứng với các tính năng dựa trên cấu trúc liên kết và dựa trên phức hợp Hom của chúng. Mặt khác, Hom-ML-V1 chỉ dựa vào các tính năng dựa trên phức hợp Hom mà không sử dụng bất kỳ tính năng phụ trợ nào.


Hình 2: Hiệu suất của mô hình GGL-PPI2 của chúng tôi trên các tập dữ liệu xác thực khác nhau bằng cách sử dụng xác thực chéo 10 lần 10 lần. (a) Trên tập dữ liệu AB-Bind S645, mô hình của chúng tôi đạt được hệ số tương quan Pearson (Rp) là 0,58 và Sai số bình phương trung bình gốc (RMSE) là 1,61 kcal/mol. (b) Trên tập dữ liệu S645, ngoại trừ 27


Xác thực trên Bộ dữ liệu AB-Bind S645 Bộ dữ liệu AB-Bind chứa 1.101 điểm dữ liệu đột biến cho 32 phức hợp kháng thể-kháng nguyên, cung cấp những thay đổi về ái lực liên kết được xác định bằng thực nghiệm khi có đột biến. Pires và cộng sự. đã tuyển chọn một tập hợp con được gọi là AB-Bind S645 [44], bao gồm 645 đột biến điểm đơn được quan sát thấy trong 29 phức hợp kháng thể-kháng thể. Bộ dữ liệu bao gồm sự kết hợp của các đột biến ổn định (20%) và gây bất ổn (80%).


Ngoài ra, tập dữ liệu bao gồm 27 chất không liên kết không hiển thị bất kỳ ràng buộc nào trong phạm vi độ nhạy của xét nghiệm. Đối với những chất không kết dính này, sự thay đổi năng lượng tự do liên kết được đặt thống nhất ở giá trị 8 kcal/mol. Điều quan trọng là phải coi những chất không kết dính này là các ngoại lệ trong quá trình phát triển và đánh giá mô hình để đảm bảo độ chính xác và độ tin cậy của mô hình.


GGL-PPI2 của chúng tôi đã đạt được Rp là 0,58 trên tập dữ liệu AB-Bind S645, như trong Hình 2a. Kết quả so sánh trong Bảng 1 chỉ ra rằng mô hình của chúng tôi đứng ở vị trí thứ hai với Hom-ML-V2 43, trong khi TopNetTree [41] chiếm vị trí hàng đầu.


Tuy nhiên, khi chúng tôi loại trừ 27 chất không liên kết khỏi tập dữ liệu, mô hình của chúng tôi hoạt động tốt hơn tất cả các mô hình hiện có khác. Cụ thể, giá trị Rp tăng lên 0,74 từ 0,58 sau khi loại bỏ chất không kết dính (Hình 2b).


Hơn nữa, GGL-PI1, mô hình tính năng dựa trên biểu đồ hình học thuần túy của chúng tôi, đã thể hiện hiệu suất cạnh tranh với Rp là 0,57 trên tập dữ liệu AB-Bind S645. Điều thú vị là, khi loại trừ các chất không kết dính, GGL-PPI1 đã vượt qua tất cả các mẫu khác với Rp được cải thiện là 0,73.


Những màn trình diễn này tiết lộ rằng các biểu đồ hình học màu có trọng số đa tỷ lệ của chúng tôi có thể mô tả một cách hiệu quả phạm vi tương tác rộng rãi trong các phức hợp phân tử sinh học.


Xác thực trên Tập dữ liệu SKEMPI 1.0 S1131 Bộ dữ liệu SKEMPI 1.0 bao gồm một tập hợp gồm 3.047 đột biến của 158 phức hợp thu được từ các nguồn tài liệu, trong đó các phức hợp có cấu trúc được xác định bằng thực nghiệm [23]. Bộ dữ liệu bao gồm cả đột biến điểm đơn và đột biến đa điểm.


Cụ thể, có 2.317 mục trong tập dữ liệu đại diện cho các đột biến điểm đơn, được gọi chung là bộ SKEMPI S2317. Ngoài ra, một tập hợp con gồm 1.131 đột biến điểm đơn giao diện không dự phòng đã được chọn từ bộ SKEMPI S2317 và được gắn nhãn là bộ SKEMPI S1131 [45]. Tập hợp con này tập trung vào nghiên cứu tác động của đột biến điểm đơn lên tương tác protein-protein.


Bảng 1: So sánh hiệu suất của các phương pháp khác nhau về hệ số tương quan Pearson (Rp) cho bộ dữ liệu AB-Bind (S645).



Hình 2c cho thấy mô hình GGL-PPI2 của chúng tôi đạt được Rp là 0,873 và RMSE là 1,21 kcal/mol trong CV 10 lần trên tập dữ liệu S1131. Bảng 2 trình bày so sánh hiệu suất của các phương pháp khác nhau trên tập dữ liệu S1131, bao gồm các mô hình được đề xuất của chúng tôi, GGL-PPI1 và GGL-PPI2.


Trong số đó, mô hình của chúng tôi, GGL-PPI2, đã đạt được hiệu suất cao nhất, nhấn mạnh tính ưu việt của nó trong việc dự đoán những thay đổi về ái lực ràng buộc do đột biến.


Đáng chú ý, ngay cả khi không có các tính năng phụ trợ, GGL-PPI1 của chúng tôi vẫn hoạt động tốt hơn cả hai phương pháp TopNetTree và Hom-ML-V2 tận dụng các tính năng phụ trợ. Điều này một lần nữa nhấn mạnh tính hiệu quả của việc biểu diễn phân tử dựa trên biểu đồ hình học của chúng tôi.


Bảng 2: So sánh hiệu suất của các phương pháp khác nhau về hệ số tương quan Pearson (Rp) đối với các đột biến điểm đơn trong bộ dữ liệu SKEMPI 1.0 (S1131).



Xác thực trên Bộ dữ liệu SKEMPI 2.0 S4169 và S8338 Bộ dữ liệu SKEMPI 2.0 là phiên bản cập nhật và mở rộng của bộ dữ liệu SKEMPI ban đầu, kết hợp các đột biến mới được thu thập từ nhiều nguồn khác nhau [24].


Được phát hành vào năm 2018, nó đã tăng kích thước đáng kể, hiện chứa tổng cộng 7.085 mục, bao gồm cả đột biến điểm đơn và đa điểm. Dữ liệu thu được bằng cách hợp nhất một số cơ sở dữ liệu, bao gồm SKEMPI 1.0 [23], AB-Bind [25], PROXiMATE27 và dbMPIKT46.


Ngoài ra, dữ liệu mới từ tài liệu đã được quản lý thủ công và thêm vào tập dữ liệu. Các đột biến bao gồm một loạt các phức hợp protein, chẳng hạn như chất ức chế protease, kháng nguyên kháng thể và phức hợp TRCpMHC. Trong số các đột biến, khoảng 3.000 đột biến là đột biến alanine đơn điểm, 2.000 đột biến là đột biến một điểm không phải alanine và 2.000 đột biến khác liên quan đến nhiều đột biến.


Đáng chú ý, các tác giả của phương pháp mCSM-PPI2 [8] đã lọc các đột biến điểm đơn, thu được bộ S4169, bao gồm 4.169 biến thể trong 139 phức hợp khác nhau/Bộ S8338, bắt nguồn từ S4169, biểu thị sự thay đổi năng lượng đột biến ngược giả thuyết với các giá trị âm. Bộ dữ liệu toàn diện này đóng vai trò là nguồn tài nguyên quý giá để nghiên cứu các tương tác protein và các đặc tính nhiệt động của chúng.


Về hiệu suất, mô hình GGL-PPI2 của chúng tôi đăng Rp là 0,81 với RMSE là 1,03 kcal/mol cho tập dữ liệu S4169 như trong Hình 2d, vượt xa tất cả các mô hình hiện có (Bảng 3). Đáng chú ý là mô hình GGL-PPI1 của chúng tôi, chỉ dựa trên các tính năng dựa trên biểu đồ hình học, đã chứng minh hiệu suất tương đương với GGL-PPI2, vượt trội so với TopNetTree và mCSM-PPI2 với Rp là 0,80 và RMSE là 1,06 kcal/mol.


Trong trường hợp tập dữ liệu S8338, chúng tôi đã áp dụng phương pháp xác thực chéo phân tầng tương tự như mCSM-PPI2. Chúng tôi đảm bảo rằng các đột biến ngược giả định được đặt nhất quán trong tập huấn luyện hoặc tập kiểm tra trong quá trình phân chia tập dữ liệu, duy trì mối quan hệ của chúng với các đột biến ban đầu tương ứng nguyên vẹn trong suốt quá trình xác thực chéo.


GGL-PPI2 đạt được Rp là 0,85 với RMSE là 1,07 kcal/mol như được mô tả trong Hình 2e, và GGL-PPI1 theo sát, đạt được Rp là 0,84 với cùng giá trị RMSE. Như Bảng 3 chứng thực, GGL-PPI2 của chúng tôi ngang bằng với TopNetTree và vượt trội hơn mCSM-PPI2 trên tập dữ liệu S8338.


Bảng 3: So sánh hiệu suất của các phương pháp khác nhau về hệ số tương quan Pearson (Rp) đối với các đột biến điểm đơn trong bộ dữ liệu SKEMPI 2.0 (S4169 và S8338).


2.2 Đánh giá

Để đánh giá mô hình đề xuất của chúng tôi nhằm dự đoán sự thay đổi năng lượng tự do liên kết (BFE) của tương tác protein-protein, chúng tôi xem xét hai bộ dữ liệu có nguồn gốc từ cơ sở dữ liệu ProTherm [22].


Tập dữ liệu đầu tiên được Pucci et al lựa chọn cẩn thận. [36], được đặt tên là tập dữ liệu S[sym]. Dữ liệu này tập hợp 684 đột biến từ ProTherm, bao gồm 342 đột biến trực tiếp và đột biến ngược tương ứng của chúng, tạo thành một tập dữ liệu cân bằng.


Bộ dữ liệu đặc biệt tập trung vào các đột biến ở 15 chuỗi protein có cấu trúc 3D đã được giải quyết, đảm bảo dữ liệu có độ phân giải cao với độ phân giải ít nhất là 2,5˚A.


Bằng cách cung cấp các giá trị ∆∆G được đo bằng thực nghiệm và biểu diễn cân bằng các đột biến ổn định và gây mất ổn định, tập dữ liệu S[sym] đóng vai trò là nguồn tài nguyên quý giá để đánh giá các sai lệch dự đoán trong bối cảnh dự đoán những thay đổi về ái lực liên kết do đột biến gây ra.


Để giải quyết vấn đề rò rỉ dữ liệu và nâng cao khả năng khái quát hóa của phương pháp, chúng tôi đã sử dụng bộ dữ liệu Q1744 [47]. Quân và cộng sự. [48] đã biên soạn bộ dữ liệu Q3421 từ ProTherm, bao gồm 3421 đột biến điểm đơn trên 150 protein có cấu trúc PDB có sẵn. Tuy nhiên, sự hiện diện của các protein tương đồng trong cả tập huấn luyện và tập kiểm tra có thể dẫn đến những tác động phụ thuộc lẫn nhau của các đột biến, ảnh hưởng đến hiệu suất của mô hình.


Để giảm thiểu điều này, Li et al. [47] đã tạo ra tập dữ liệu Q1744, thu được bằng cách loại trừ các điểm dữ liệu chồng chéo và tinh chỉnh sự tương đồng ở mức độ protein giữa các tập dữ liệu Q3421 và S[sym], dẫn đến 1744 đột biến khác biệt.


Hơn nữa, bộ dữ liệu Q3488 được tạo bằng cách tăng cường các đột biến ngược trong bộ Q1744. Chúng tôi đã sử dụng tập dữ liệu Q3488 làm tập huấn luyện, từ đó nâng cao khả năng của bộ dự đoán ∆∆G để dự đoán chính xác những thay đổi BFE trong PPI.


Chúng tôi tiến hành đánh giá mô hình của mình trên tập thử nghiệm mù S[sym], tập trung rõ ràng vào cả đột biến trực tiếp và đột biến ngược. Để đánh giá hiệu suất, chúng tôi sử dụng hệ số tương quan Pearson và sai số bình phương trung bình gốc làm số liệu chính. Ngoài ra, để phân biệt bất kỳ sai lệch dự đoán nào, chúng tôi đã kết hợp hai thước đo thống kê: Rpdir−rev và δ.


Cái trước tính toán mối tương quan Pearson giữa các dự đoán về đột biến trực tiếp và đột biến ngược, trong khi cái sau biểu thị tổng giá trị ∆∆G được dự đoán cho cả hai loại đột biến. Giả thuyết là một yếu tố dự đoán không thiên vị sẽ mang lại Rpdir−rev = −1 và trung bình δ ( ¯δ) là 0 kcal/mol.


Trọng tâm chính của chúng tôi là làm nổi bật tính hiệu quả của mô hình của chúng tôi, GGL-PPI2, đặc biệt nhấn mạnh tính năng phân tử dựa trên biểu đồ hình học mạnh mẽ của nó. GGL-PPI2 đã chứng minh độ chính xác dự đoán đặc biệt, duy trì tính nhất quán cho cả đột biến trực tiếp và đột biến ngược. Như được mô tả trong Hình 3a và 3b, mô hình của chúng tôi đạt được các giá trị Rp nhất quán là 0,57 và RMSE là 1,28 kcal/mol, cho thấy hiệu quả của nó trong việc chống lại việc trang bị quá mức cho các đột biến trực tiếp.


Ngoài ra, phân tích cho thấy một tỷ lệ đáng kể các đột biến nằm trong sai số dự đoán là 0,5 kcal/mol và 1,0 kcal/mol, với 34,6% và 65,8% đối với đột biến trực tiếp và 35,1% và 66,0% đối với đột biến ngược, như được mô tả trong Hình. 3d và 3e.


Hơn nữa, Hình 3c chứng minh rằng GGL-PPI2 giải quyết hiệu quả sai lệch dự đoán bằng cách đạt được giá trị Rpdir−rev gần như hoàn hảo là -0,999 và mức trung bình cực kỳ thấp ¯δ là 0,006 kcal/mol. Cuối cùng, biểu đồ phân phối trong Hình 3f minh họa rằng 99,4% đột biến thể hiện độ lệch dự đoán dưới 0,05 kcal/mol.


Trong Bảng 4, chúng tôi trình bày kết quả dự đoán của các mô hình của mình và tiến hành so sánh toàn diện với các yếu tố dự đoán ∆∆G khác. Chúng tôi quan sát thấy rằng mô hình GGL-PPI2 của chúng tôi hoạt động tốt hơn ThermoNet [47], mô hình này cũng đã được đào tạo về bộ giảm tương đồng Q3488, trên tất cả các biện pháp đánh giá. Nó vượt trội hơn ThermoNet 21,3% đối với đột biến trực tiếp và 18,7% đối với đột biến ngược.


Hơn nữa, mô hình GGL-PPI1 chỉ sử dụng các tính năng dựa trên biểu đồ hình học cũng hoạt động tốt hơn ThermoNet trong cả nhiệm vụ dự đoán trực tiếp và ngược lại. Điều này nhấn mạnh hơn nữa tính hiệu quả của phương pháp tiếp cận đồ thị hình học của chúng tôi.


Hình 3: Kết quả của mô hình GGL-PPI2 của chúng tôi cho tập dữ liệu Ssym. Trong (a), các đột biến trực tiếp được vẽ, trong khi (b) trình bày kết quả cho các đột biến ngược. Phổ màu, từ xanh lam đến đỏ, biểu thị độ chính xác dự đoán tương ứng—trong đó màu xanh lam biểu thị độ chính xác cao hơn và màu đỏ biểu thị độ chính xác thấp hơn. MỘT


Để so sánh rộng hơn với các bộ dự đoán ∆∆G khác, chúng tôi giới thiệu mô hình GGL-PPI2∗, được đào tạo trên bộ Q6428 được xây dựng trước khi giảm tính tương đồng của bộ Q3421 [47]. Như được minh họa trong Bảng 4, GGL-PPI2∗ vượt trội hơn các phương pháp khác trong việc dự đoán đột biến ngược.


Đáng chú ý là trong khi một số phương pháp vượt qua GGL-PPI2∗ về đột biến trực tiếp, chúng thường thể hiện sự thiên vị đáng kể đối với các đột biến ngược.