3.1 动态蛋白质网络的构建方法
3.1.1 3-sigma准则
标准方差是用来描述样本数据围绕均值波动的情况,3倍标准方差(3-sigma,3σ)是一个统计值。对正态分布而言,如图3-1所示,1倍标准方差范围内包含大约68%的观察数据,两倍标准方差范围内包含大约95%的观察数据,3-sigma范围内包含大于99%的观察数据。Walter Shewhart认为3-sigma是区分正常可预测事件和不正常不可预测事件的分界点[61]。
图3-1 正态分布
3.1.2 活性蛋白质的识别
当蛋白质处在其活性状态时,才能与其他活性蛋白质相互作用执行功能。蛋白质的活性不仅受它所处环境的影响,也能通过它在细胞中的数量和寿命进行调控。我们主要基于后者来推导蛋白质的活性。基因到蛋白质的信息流可以实现对蛋白质活性的调控。简单来说,蛋白质的数量由转录水平决定,而转录水平由增强子的强度或转录因子(抑制子或活跃子)的行为控制。转录以后,通过变化RNA的降解速率可以调节mRNA的水平。在蛋白质层次,蛋白质的生命影响蛋白质数量,而蛋白质的生命由蛋白质的降解速度决定。不同的蛋白质降解速度不同。因此每种蛋白质都有各自的活性周期,我们认为当基因表达量处于最大值时,基因产物(蛋白质)是活性的。因为,蛋白质必须在其活性状态下行使功能,当蛋白质完成了它的功能后,会产生反馈使得蛋白质的表达量下降,而蛋白质的降解速度是恒定的。最简单的方法是将基因表达水平最高的时刻作为对应蛋白质的活性时间点(即蛋白质在该时刻处于活性状态)。但是,由于基因表达数据中存在噪声,最高值附近的时刻也可合理地被认为是蛋白质的活性时间点。
我们用3-sigma准则来区分在一个细胞周期内蛋白质在哪些时刻处于活性状态。我们根据每个基因的表达曲线为其设计活性阈值。不同的基因有着不同的基因表达曲线。有些表达曲线比较平坦,方差小,意味着对应的蛋白质在大多数时刻是处于活性状态的。有些表达曲线波动很剧烈,方差大,这意味着对应的蛋白质只在某些时刻处于活性状态。根据这些情况,我们基于每个基因的均值与方差,利用3-sigma准则设计一个公式来计算每个蛋白质的活性阈值。
对于每个基因p, EVi(p)表示p在i时刻的表达值,1≤i≤n。u(p)为基因p在时刻1~n的表达值的平均值,σ(p)为它的标准差。
F(p)反映基因p表达曲线的波动性,显而易见,标准差越大,F越小。F的取值范围为[0, 1]。
当蛋白质在某些时刻的表达值大于或等于它的活性阈值时,认为在这些时刻该蛋白质是活性的。对于蛋白质p,它的活性阈值用3-sigma方法计算如下:
Active_Th(p)=S1(p)×F(p)+S2(p)×(1-F(p)) (3-4)
其中,S1(p)=u(p),S2(p)=u(p)+3σ(p)。
Active_Th(p)是蛋白质p的活性阈值,由其对应的基因p的表达平均值、3-sigma以及F决定。当F(p)趋近于0时,活性阈值主要由S2(p)决定;反之,S1(p)对活性阈值起主要作用。
若对整个基因表达数据采用一个全局阈值,则在整个细胞周期表达量都很低的那些蛋白质将会被过滤掉,而实际上这些蛋白质很可能在一些时间点上处于活性状态。基于基因表达曲线的3-sigma准则能够有效识别这些蛋白质的活性时间点。
3.1.3 动态蛋白质网络的构建
真实的蛋白质网络是不断变化的,相互作用的动态变化导致蛋白质网络的动态变化。蛋白质必须在活性状态下才能与其他蛋白质相互作用,因此蛋白质网络中相互作用的蛋白质对应该都处于活性状态。蛋白质相互作用随着蛋白质活性的动态性而变化。以图3-2为例,蛋白质A在时刻点1、3、4、5、7和8处于活性状态,蛋白质B在时刻点1、3、4和12处于活性状态。那么蛋白质A与B在时刻1、3和4存在相互作用。蛋白质E在时刻1和10处于活性状态,而蛋白质F在时刻6和7处于活性状态。因为蛋白质E、F不同时处于活性状态,从而它们在静态网络的相互作用不能出现在动态蛋白质网络中。
动态蛋白质网络(APIN)由活性蛋白质以及它们之间的相互作用组成。用图G=(V, E)表示静态蛋白质网络,其中V表示蛋白质,E表示相互作用。用GA=(VA, EA)表示APIN,VA-表示活性蛋白质,每条边e(vi,vj)都有一个由vi和vj的公共活性时刻点组成的集合,其中e(vi,vj)∈EA。Active(v)表示蛋白质v活性时刻点集合。如果蛋白质v在时刻t的表达值不小于Active_ Th(v),那么t∈Active(v)。用Active-E(vi, vj)表示vi和vj的公共活性时刻点集合,Active-E(vi, vj)=Active(vi)∩Active(vj)。如果在静态网络中,vi和vj存在边,而Active-E(vi, vj)=∅,那么这条边不会出现在APIN中。图3-2(a)给出了每个蛋白质的活性时刻点,静态网络如图3-2(b)所示,图3-2(c)所示的APIN是基于静态网络和蛋白质的活性时刻点构建的。
图3-2 活性网络构造示例
该动态网络构建方法的时间复杂度为提取活性时刻点的时间复杂度与构造动态网络的时间复杂度之和,即O(N·k+e)。提取活性时刻点时,需要扫描每个基因k个时刻点的表达值,计算其阈值,再重新将k个时刻点的表达值与其活性阈值比较,时间复杂度为O(N·k),其中N为基因个数,k为基因表达中时刻点个数。构造动态网络时需要对每条边扫描,检查两个顶点是否有公共的活性时刻点,时间复杂度为O(e)。