学院新闻
BMC Biology | 李婷婷课题组基于深度学习预测E3泛素连接酶识别位点
真核细胞内蛋白质的降解依赖于自噬及泛素-蛋白酶体系统(2004年诺贝尔化学奖)。其中,泛素-蛋白酶体系统负责降解细胞内超过80%的蛋白,该系统的关键酶为E3泛素连接酶,负责识别要被降解的底物蛋白并将其泛素化。人体内表达600余种E3,这些E3以特定规则结合不同底物蛋白,从而实现降解过程的特异性。底物上的E3识别位点被称为degron[1],degron是长度5-8个氨基酸的短肽,通过disorder-to-order转换的方式与E3结合,使得底物被泛素化修饰进而被降解。因此,系统分析蛋白底物上的degron对于研究蛋白质的降解过程以及蛋白降解异常在疾病中的作用非常重要。
近日,北京大学JDB电子官方网站李婷婷课题组在BMC Biology杂志上在线发表文章“Systematic Prediction of Degrons and E3 Ubiquitin Ligase Binding via Deep Learning”,开发了degron预测工具Degpred(http://degron.phasep.pro/)。
在该工作中,作者构建了基于BERT预训练模型的深度学习预测工具(图1左),该预训练模型为蛋白质上每个氨基酸输出一个768维的特征向量。随后,根据特征向量,作者利用长短时记忆网络及全连接层来对每个氨基酸的degron可能性打分。
首先,作者收集了ELM数据库及其他文献中报道的有实验依据的303个degron。由于不同E3结合的degron有不同的一级序列偏好,作者将degron基于一级序列分为五组(图1右),以四组为训练集,一组为测试集的方式来探究不同序列模式的degron是否具有更高级别序列性质的相似性。在测试过程中作者发现,虽然训练集和测试集的degron具有不同的一级序列特征,但模型在测试集上取得了较好的预测效果。这说明不同E3识别的degron具有相似的高级别序列性质。作者整合了五次训练的模型,构建得到最终的degron预测模型—Degpred,并利用Degpred在人类蛋白质组上预测了46,000余个degron。
图1 左:模型框架;右:基于序列相似性将degron分为五组。
以往研究发现degron趋向于定位在蛋白质无序区域(disorder region),并且是一类molecular recognition feature[2]。通过分析Degpred模型在人类蛋白质组上预测得到degron的相关属性,作者发现预测得到的degron具有较高的无序序列特征、molecular recognition feature打分以及表面可及性等特征打分(图2上)。此外,作者发现预测得到的degron相邻蛋白序列富集赖氨酸以及泛素化修饰(图2下),这说明预测得到的degron能够促进相邻赖氨酸的泛素化,这一发现与degron功能相符合。
图2 在人类蛋白组上比较利用Degpred以及其他工具预测的degron相关特征差异
实现degron预测之后,作者基于Degpred以及从文献中收集的E3底物相互作用网络计算得到一系列E3 motif,并基于此构建了人类蛋白降解调控网络(motif计算方法及网络构建过程可参考原文)。为检验预测结果的可靠性,作者在CBX6上进行了实验验证。CBX6的第269-273位氨基酸(DARSS)被预测为E3酶SPOP识别的degron,但此degron并不属于已知的SPOP motif。实验发现,突变该degron显著增加了CBX6的表达量,延长了CBX6的半衰期,并且减弱了CBX6与SPOP的结合(图3)。这一实验证明了Degpred模型预测结果的可靠性。
图3 CBX6上预测的SPOP结合degron验证实验
最后,作者分析了degron在TCGA肿瘤患者中的突变情况。分析发现,肿瘤中的突变趋向于发生在degron及附近位置(图4a),且degron相关突变往往有更高的发生频率(图4b)。作者进一步分析了不同肿瘤中degron突变比例,发现CTNNB1、NFE2L2、RXRA、EPAS1等上百个蛋白的突变趋向于发生在degron上(图4d),degron突变可能导致这些蛋白高表达,进而导致相关通路激活而导致肿瘤。
此外,基于多种预测肿瘤驱动(cancer driver)突变的方法,作者发现degron相关突变的肿瘤驱动突变比例更高(图4e)。由于degron调控蛋白质降解,作者推测degron突变对短半衰期(short-lived)蛋白影响更大。为此,作者分析了来源于不同数据的短半衰期蛋白,发现这些蛋白上的degron突变更趋向于导致肿瘤(图4f)。
图4 degron突变分析
综上,作者利用迁移学习预测蛋白底物上的degron,并基于计算得到的E3 motif分析 每个degron所结合的E3。进一步,作者从性质分析以及实验等方面证明了预测结果的可靠性,并在肿瘤数据中发现短半衰期蛋白的degron突变更趋向于导致肿瘤。本工作中收集的数据以及预测得到的数据(degron,E3底物关系)可从http://degron.phasep.pro/查询(图5)。
图5 网站蛋白预测界面示意图
北京大学JDB电子官方网站李婷婷副教授为本文通讯作者,JDB电子官方网站八年制博士生侯超为本文第一作者。JDB电子官方网站博士生李雨轩和北京大学生命科学院博士王梦瑶负责了本文章中的实验验证部分,北京大学生命科学院吴虹教授为本课题提供了重要指导。李婷婷课题组致力于通过生物信息学手段研究相分离及蛋白质修饰过程,相关工作可以通过http://BioinfoLilab.phasep.pro/访问。
原文链接:https://bmcbiol.biomedcentral.com/articles/10.1186/s12915-022-01364-6
1. Meszaros B, Kumar M, Gibson TJ, Uyar B, Dosztanyi Z: Degrons in cancer. Sci Signal 2017, 10(470).
2. Guharoy M, Bhowmick P, Sallam M, Tompa P: Tripartite degrons confer diversity and specificity on regulated protein degradation in the ubiquitin-proteasome system. Nat Commun 2016, 7:10239.
(北京大学JDB电子官方网站)