蛋白质网络建模及预测
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

1.3 关键蛋白质

不同的蛋白质在生物体的生命活动中发挥着不同的作用,并且有不同程度的重要性。有一类蛋白质对维持生物体生命活动是必不可少的,没有了它们生物体将不能存活或生长[54, 55],因而被称为关键蛋白质。关键蛋白质的研究有助于其他方面的研究。例如,确定一个最简单生命体的最小关键基因的集合是合成生物学的基础研究[56, 57]。在耐药性和毒性研究领域,研究细菌和病毒内部的关键蛋白质可以帮助设计新的抗菌药物,因为移除、破坏它们的关键蛋白质,所以这些细菌和病毒可能会死亡[58]

关键蛋白质可以通过生物实验来识别,比如单基因敲除[59]、RNA干扰[60]以及条件敲除[61]。但是这些生物实验不仅费时而且效率低,只能在极少数的物种上进行。因此,用高可靠、高效率的计算方法来识别关键蛋白质变得非常重要。

在酵母的蛋白质网络中,连接度高的蛋白质更倾向于是由关键基因编码的,从而更可能是关键蛋白质[62]。从拓扑的角度来说,高度连接的蛋白质可以维持蛋白质网络的基本结构,如果移除这些蛋白质,整个网络将会崩塌。这种现象称为生物网络中的“中心-致死性”法则[63]。因此,一些中心性方法被用来衡量蛋白质的关键性,比如,度中心性(Degree Centrality,DC)[62]、介数中心性(Betweenness Centrality,BC)[64]、接近中心性(Closeness Centrality,CC)[65]、子图中心性(Subgraph Centrality,SC)[66]、特征值中心性(Eigenvector Centrality,EC)[67],以及信息中心性(Information Centrality,IC)[68]。随后,通过观察关键蛋白质邻居的拓扑特性,研究者相继提出了一些其他中心性方法。

由于蛋白质相互作用数据一方面还不是很完善,另一方面不可避免地包含假阳性数据,影响了基于网络拓扑特性的关键蛋白质识别方法的准确性。高通量实验提供大量的其他生物信息,不仅可以用来减小假阳性数据带来的影响,还可以从不同角度刻画关键蛋白质的特性。因此,将其他生物信息融合到蛋白质网络中以提高关键蛋白质预测的准确性已经成为一种趋势。另外,一些机器学习的方法也用来识别关键蛋白质。