基于蛋白质相互作用网络的关键蛋白质识别方法综述

(整期优先)网络出版时间:2022-09-21
/ 4

基于蛋白质相互作用网络的关键蛋白质识别方法综述

张志宏

长沙学院,计算机科学与工程学院,湖南长沙,410022

摘要:关键蛋白质是这样的蛋白质:如果被删除,就会导致细胞死亡或不育。关键蛋白质的识别对于理解维持生命的基本要求是非常重要的。此外,对关键蛋白的全面分析有助于深入理解基因突变与人类疾病之间的关系,从而揭示人类疾病的一般规律。实验方法预测关键蛋白质不仅价格不菲,而且很耗时。已经提出了多种基于蛋白质相互作用网络识别关键蛋白质的计算方法。本文概述了关键蛋白质的研究现状,并进行了展望。首先分类介绍了现有的关键蛋白质识别方法,然后介绍了与关键蛋白质识别有关的数据集。最后,对关键蛋白质识别面临的挑战和未来研究进行了展望。

关键词:蛋白质相互作用;关键蛋白质;中心性;基因表达

关键基因及其产物(关键蛋白质)是生物体生存所必需的,因此人们认为它们的功能是生命的基础。关键蛋白质的识别能够帮助我们理解维持生命形式的基本需求[1]。此外,它还在合成生物学的新兴领域发挥着重要作用,该领域的目标是创造一个具有最小基因组的细胞[2]。关键蛋白质的研究也因为一些实际原因吸引了研究人员的注意。由于对细菌细胞的存活必不可少,细菌的关键蛋白质成为新型抗生素的具有吸引力的药物靶点。一些跨越多个物种的保守关键蛋白质被提出作为最有可能的药物靶点。大量研究和实验分析显示,关键基因或蛋白质一般都是致病基因识别关键基因或蛋白质能够为生物学、医学等学科提供重要的参考信息[3]此外,关键基因或蛋白质识别在疾病诊断和药物设计等领域有广阔的应用前景。目前,已经提出了多种通过生物实验方法识别关键基因或蛋白质的方法,如单基因敲除法、RNA干扰、反义RNA和转座子突变。然而,这些实验方法有造价高、耗时等一些局限性。尽管大规模的识别关键蛋白质的实验技术得到了极大地改进,然而,基于计算方法的关键基因或蛋白质检测方法研究与基因组序列的研究还存在较大差距。与此同时,研究人员使用的实验条件和检测标准对确定一种蛋白质是否是关键蛋白质有一定的影响。最后,这些实验技术仅限于少数物种。例如,由于技术上的困难,尚未在小白鼠身上进行大规模的蛋白质或基因的关键特性研究。由此可见,提高计算方法识别关键蛋白质的预测准确率已经非常迫切了。

近年来,人们提出了很多计算方法来识别关键蛋白质。这些方法依赖于不同的思想和技术。这篇综述的目的是总结这些不同的方法,并且试图去帮助读者跟上该领域最近重要的发展。论文组织如下。首先我们将分类型地介绍现有的基于计算的关键蛋白质识别方法,然后介绍了与关键蛋白质预测相关的数据集。最后,我们将会讨论未来研究的挑战和方向。

1. 关键蛋白质预测方法

关键蛋白质的预测可以表示为二元分类问题,其主要任务是根据他们是否具有某些属性将给定的对象组成员分为两组。可以通过与实验测定的基准关键蛋白质集合比较,根据匹配数量评估预测准确率。作为对比的基准关键蛋白质数据可以从数据库DEC获得,或者也可以通过是实验验证的其他生物机体中的关键基因的同源性映射产生的数据。目前关键蛋白质识别的计算方法大致可以分为四类:基于有监督的机器学习方法,无监督的基于特征选择的方法、基于蛋白质互作网络的方法和融合多源生物信息的方法。

1.1基于特征选择的方法

根据关键蛋白质的特征,人们提出可许多计算方法来识别关键蛋白质。通常,这些特征可以大致分为两类:基于序列的特征和基于拓扑的特征。

基于序列的特征是由基因组的序列来决定,是单个蛋白质的内在特征。在进行基因测序实验后,通过计算方法可以很容易获得这些特征的大部分,为新研究的生物体的研究提供有利条件。保守性是关键基因或蛋白质的最重要的特征之一。关键基因或蛋白质比非关键基因或蛋白质进化慢。。

关键基因或蛋白质与mRNA表达水平也存在紧密联系。在细菌中,mRNA表达水平越高,序列的进化速度越慢[4]。有研究表明,真核生物中的蛋白质序列差异、蛋白质关键性和表达水平存在一定的相关性。因此,人们认为关键基因表达的水平比非关键基因表达的要高。

细胞内的基因或蛋白质并非孤立存在。它们相互作用并且构建生物网络以完成细胞的生物功能。为了更好理解蛋白质在生物网络中的重要性,一组研究人员致力于研究蛋白质在生物网络中的关键性和拓扑性质之间的关系。通常,拓扑特征可以分为六个类:度特征、紧密特征、中心特征、特征向量特征、子图特征、邻居特征。

1.2基于机器学习的方法

基于机器的方法是根据已知的关键蛋白质和非关键蛋白质的特征,训练分类器识别关键基因或蛋白质,在同一生物体中和不同生物体中测试该分类器。训练分类器最具代表性的有支持向量机、决策树、神经网络等。这些算法中的大多数都可以通过现有的软件包实现,如LIBSVM 2.4WEKASNNS 4.2 R package (http://www.r-project.org)Orange (http://www.ailab.si/orange/)

WEKA软件包可以用于支持向量机、决策树、朴素贝叶斯分类器、逻辑回归模型、随机森林、zeroR法则和Adaboost算法;R packageLIBSVM 2.4则主要用于支持向量机;Orange可用于决策树、朴素贝叶斯分类器和逻辑回归模型

Seringhaus等人[5]利用特性良好的酵母数据,学习了14个可能与关键性有关的序列特征,然后根据这些特征对决策树、朴素贝叶斯和符号逻辑回归模型进行训练和测试。结合这些不同分类器的输出,得到了最佳的关键性分类器。最后,采用最佳的分类器对与酵母进化距离最近的芽殖酵母中关键蛋白质进行预。Kim等构建了一个新的名为CENT-ING-GO[6]的特征空间,包括各种中心性测度和GO条目。在此基础上使用各种机器学习技术(七种决策树算法,一种支持向量机算法和一种神经网络算法)预测关键蛋白质。该方法使用了八种中心性方法作为特征,包括:DCBCCCSCECSoECC(Sum of Edge Clustering CoefficientCentrality)LAC(Local Average Connectivity)MC(Motif Centrality)Cheng[7]提出了一种基于特征的加权朴素贝叶斯模型(feature-basedweightedNaïveBayesmodel, FWM)预测关键基因。结合网络拓扑特征和序列特征为学习特征,FWM方法能够可靠地在不同物种间识别关键蛋白质。2014年他们建立了一个基于15个特征的跨有机体的预测模型[8]这些特征源于结构域属性、PPI网络、基因组序列、同源属性、种类基因和基因表达信息。基于网络拓扑的特征包括:DCBCCCo。该模型用于相互地预测21个微生物中的关键蛋白质。Ning[9]设计了一种仅使用组成特征的基于支持向量机的方法预测细菌基因组的关键蛋白质。这些特征都来源于原始序列,包括氨基酸使用、3个密码子位置的核苷酸使用、二核苷酸使用、CodonW特征

这类方法面临的挑战是如何根据已知的关键蛋白质训练分类器并应用于其他未知物种。许多研究者仅依靠已知关键蛋白质的同源映射。然而,同源映射的直系同源物种只有少部分关键蛋白质。

1.3 基于网络的方法

无监督方法直接根据关键蛋白质的某些特征来识别关键蛋白质。研究人员主要关注基因-基因相互作用网络、蛋白质-蛋白质相互作用(PPI)网络、代谢网络、基因调控网络、结构域-结构域网络等生物网络中的拓扑特性。这些生物网络有小世界、无标度和模块化等重要拓扑特征。研究发现,在酵母、果蝇等物种中,PPI网络中具有大量相互作用的蛋白质,移除可能是致命的,这叫做中心性-致命性规则[10]。近年来,基于蛋白质相互作用网络拓扑特征来预测蛋白质的中心性方法越来越多。这些方法计算这些蛋白质的排序分数,并使用排序分数来判断一个蛋白质是否是关键蛋白质。

Wang[11]提出基于边聚集系数的中心性方法NC预测关键蛋白质。与以往的中心性度量不同,NC既考虑节点的中心性,又考虑节点与其相邻节点之间的关系。对于网络中的每个交互作用,计算其边聚集系数。节点的重要性是由节点与其相邻节点之间相互作用的边聚集系数之和决定。Qi[12]基于局部相互作用稠密度,提出拓扑中心性方法LIDLID是根据蛋白质之间相互作用的密度来描述蛋白质的关键性,它不同于其他的局部中心性方法,如SoECCLAC后者主要研究蛋白质与其邻体之间的相互作用关系。该方法将蛋白质的邻居节点分为两部分:一部分是这些邻居节点与其他邻居进行交互,其余部分仅与源节点进行交互。因此,LID可以识别与其相邻的具有相互作用的关键蛋白质。

虽然这种类型的方法可以在没有已知关键蛋白质的条件下直接识别关键蛋。但是这些方法还存在一定的局限性。首先,现有的PPI数据是不完整的,存在大量的假阳性和假阴性,影响了关键蛋白质的准确性。因此,这些方法仅在酵母、大肠杆菌等相互作用数据相对完整、可靠的物种中实现关键性预测。其次,这些方法大多数只利用网络的拓扑性质而忽视了关键蛋白质的其他属性。

1.4 基于多源数据融合的方法

为了弥补蛋白质相互作用网络不完整的局限性,近年来许多研究小组将PPI网络和其他生物信息相结合,从而提高关键蛋白质识别的准确率。近年来,蛋白质结构域信息和亚细胞定位信息也被融入到关键蛋白质识别算法之中,并且有效地提高了预测的准确率。

Fan等结合PPI网络、基因表达信息和亚细胞定位信息提出名为SCP[13]的关键蛋白质识别方法。该方法中,蛋白质的得分由两部分加权获得。一部分根据亚细胞定位信息改进的PageRank算法计算得到;另一部分则是根据基因表达信息计算的皮尔逊相关系数PCC计算得到。 Li等通过整合亚细胞定位信息,提出一种基于子网划分和优先级排序的关键蛋白质识别方法SPP[14]

。该方法的基本思想是,一种蛋白只有存在于相同的亚细胞间隔中,才能与另一个蛋白发生相互作用。因此原始的PPI网络可以分为多个网络,从而有效地减少了蛋白质的相互作用

3挑战和未来研究

识别关键蛋白质对生物知识的发现具有重要意义,因为关键蛋白质是维持有机体活着的基本要求。然而,基因组序列数据与实验的关键蛋白质数据存在较大差距。为了解决这个问题,研究人员设计了多种基于计算的方法识别关键蛋白质。在这篇文章中,我们分类介绍了计算方法在识别关键蛋白质方面的最新进展。然而,这些方法还需要进一步的研究来完善。

参考文献

[1] Zhang R, Lin Y, DEG 5.0, a database of essential genes in both prokaryotes and eukaryotes. Nucleic Acids Res 2009, 37:D455-D458.

[2] Glass JI, Hutchison CA, 3rd, Smith HO, Venter JC, A systems biology tour de force for a near-minimal bacterium. Mol Syst Biol 2009, 5:330.

[3] Parrish J R, Yu J, Liu G, et al. A proteome-wide protein interaction map for Campylobacter jejuni[J]. Genome biology, 2007, 8(7): R130.

[4] Rocha EPC, Danchin A, An Analysis of Determinants of Amino Acids Substitution Rates in Bacterial Proteins. Mol Biol Evol 2004, 21:108-116.

[5] Seringhaus M, Paccanaro A, Borneman A, Snyder M, et al, Predicting essential genes in fungal genomes. Genome Res 2006, 16:1126-1135.

[6] Kim W. Prediction of essential proteins using topological properties in GO-pruned PPI network based on machine learning methods. Tsinghua Science and Technology, 2012, 17(6): 645-658.

[7] Cheng J, Wu W, Zhang Y, et al. A new computational strategy for predicting essential genes. BMC genomics, 2013, 14(1): 910.

[8] Cheng J, Xu Z, Wu W, et al. Training set selection for the prediction of essential genes. PloS one, 2014, 9(1): e86805.

[9] Ning L W, Lin H, Ding H, et al. Predicting bacterial essential genes using only sequence composition information. Genet. Mol. Res, 2014, 13: 4564-4572.

[10] Jeong H, Mason SP, Barabasi AL, Oltvai ZN, Lethality and centrality in protein networks. Nature 2001, 411:41-42.

[11] Wang J, Li M, Wang H, et al. Identification of essential proteins based on edge clustering coefficient. IEEE/ACM Transactions on Computational Biology and Bioinformatics (TCBB), 2012, 9(4): 1070-1080.

[12] Qi Y, Luo J. Prediction of Essential Proteins Based on Local Interaction Density. IEEE/ACM Trans. Comput. Biology Bioinform., 2016, 13(6): 1170-1182.

[13] Fan Y, Tang X, Hu X, et al. Prediction of essential proteins based on subcellular localization and gene expression correlation. BMC bioinformatics, 2017, 18(13): 470

[14] Li M, Li W, Wu F X, et al. Identifying essential proteins based on sub-network partition and prioritization by integrating subcellular localization information. Journal of theoretical biology, 2018, 447: 65-73.

1