关于长链非编码RNA与疾病的关联预测研究综述

(整期优先)网络出版时间:2021-08-23
/ 3

关于长链非编码 RNA与疾病的关联预测研究综述

贾凤娇

湖南师范大学 湖南省长沙市 410000

摘要

大量的研究表明lncRNA的异常调控与复杂疾病的发生有着密切的联系,识别与疾病相关的lncRNA将有助于我们了解疾病的病因、研制新药物、制定个性化方案。传统的生物实验的方法不仅试验周期长而且还需耗费大量的金钱,因此越来越多的研究人员希望通过计算的方法来识别与疾病相关的lncRNA,为生物人员的实验提供方向和指导。本文归纳了近年来对于lncRNA与疾病关联预测的相关数据以及计算模型,对目前存在的问题进行了分析,为之后的研究提供了一些思路。

关键词:lncRNAs;疾病;lncRNA-疾病关联;计算模型

0 引言

随着生物信息学以及高通量测序技术的快速发展,大量的生物数据以及相关数据库的公开,为研究人员提供计算的方法来挖掘lncRNA与疾病之间的关联关系提供了强有力的数据支撑。lncRNA是一种长度超过200个核苷酸的非编码RNA,由于其不具备编码蛋白质的功能,一开始被认为的转录的“噪声”[1],没有引起科学家们的重视。然而,越来越多的研究表明,lncRNA在生物中的生理以及病理的过程中发挥着重要的调控作用,例如细胞的增殖、分化、表观遗传调控、染色质重构、基因转录以及蛋白质的转运等[2]。此外,lncRNA的突变和紊乱还被证实与乳腺癌、胃癌、结直肠癌、宫颈癌、自身免疫疾病等多种疾病的发生有关系[3]。目前,已有一些实验证明了少量的lncRNA与疾病之间的关系,与传统的生物临床实验的方法相比,基于计算模型的方法在预测疾病相关的lncRNA方面具有周期短、准确率高、成本低等优势。因此,越来越多的研究致力于通过计算模型的方法来开发出高效的预测lncRNA-疾病关联关系的模型。

本文主要综述了近年来出现的一些与疾病相关的lncRNA预测的计算模型的算法,分析了模型的性能以及进展。计算模型的预测方法主要分为两类:基于生物网络的方法和基于机器学习的方法。本文重点讨论了其中一些经典的方法并对当前模型中的关键问题以及未来的研究方向进行了总结。

  1. 算法和工具

1.1基于生物网络的方法

基于功能相似的lncRNA可能与表型相似的疾病相关的假设,大量的研究人员开发了基于生物网络的方法来预测lncRNA-疾病的关联。

Fan[4]等人设计了一种基于网络的预测方法(IDHI-MIRW),利用带重启的随机游走和正点互信息来构建大规模的异构网络来预测lncRNA-疾病的关联。该模型整合了lncRNA表达谱、lncRNA-miRNA相互作用、lncRNA-蛋白质相互作用以及lncRNA的相似性网络,计算了疾病本体、疾病与miRNA之间的关联以及疾病与基因关联所涉及的所有疾病相似性。与现有的大多方法不同的是,该模型整合了多种lncRNA相关和疾病相关的信息来提高预测的精度。此方法能够用于预测新的关联关系,在于其整合了miRNA和蛋白质的信息以及与lncRNA和疾病的关联。

Yu[5]等人开发了一个双向随机游走模型(BRWLDA)来预测lncRNA-疾病的关联,该模型借助lncRNA-miRNA关联、miRNA-疾病关联、lncRNA-基因关联来得到lncRNA-lncRNA之间的关系,随后通过GO得到疾病网络,在网络中执行双向随机游走来获得预测结果。然而,该模型对于噪声以及稀疏数据的处理能力还有待加强。

Chen[6]等人考虑到随机游走模型的局限性提出了一个基于改进的带重启的随机游走的模型IRWRLDA,该模型可以应用于没有任何已知相关的lncRNA的疾病,通过集成lncRNA功能相似性、lncRNA的表达谱相似性、lncRNA高斯相互作用属性核相似性、疾病病语义相似性和已知的lncRNA-疾病的关联来预测新的lncRNA-疾病。然而,该方法也存在一些局限性,如何更好的结合lncRNA的功能相似性和lncRNA高斯相互作用属性核相似性来形成集成的相似性还有待进一步提升。

zhang[7]等人开发了一个全局网络的框架LncRDNetFlow来考虑与疾病相关的lncRNA,基于lncRNA的相似性,lncRNA与疾病的关联,蛋白质-蛋白质相互作用以及疾病的相似性来整合多个网络,在构建网络的过程中对节点的个数进行了相应的删减。网络构建完成后使用流传播算法,定义网络内部和网络间的传播过程。该方法受限于数据整合的过程不够完善,并且通过迭代计算lncRNA-疾病关联的排序结果,十分耗时。

Ping[8]等人构建了一个二分网络,仅基于已知的lncRNA-疾病关联来预测潜在的相互作用,基于如果两个节点有公共邻居或者连接到相似的节点,则两个节点之间是相似的假设。结果表明,该模型能够可行且有效的预测lncRNA-疾病关联。不过,目前没有有效的方法来选择参数

6123303496df3_html_a44916b5f0bf7116.gif 的最佳值以实现最佳的预测性能,此外,该方法仅考虑了已知的lncRNA-疾病相关性,考虑更多的已知关联模型的预测性能可能会更高。

2.1基于机器学习的方法

fu[9]等人通过整合6中实体类型(如lncRNA、miRNAs、基因、基因本体、疾病本体和药物)之间的关系,设计了一个基于矩阵分解的lncRNA-疾病关联关系预测模型(MFLDA)。该模型给数据源分配不同的权重来选择和整合数据源,通过矩阵三因子分解将异构数据源的高维矩阵分解为低秩矩阵,来探索和利用内在的共享结构,然后使用优化的低秩矩阵重建lncRNA-疾病的关联矩阵,从而识别潜在的关联。然而, MFLDA只能预测在训练集中已知疾病关联的lncRNA,而不能够预测新的lncRNA以及新的疾病。

Lu[10]等人基于几何矩阵补全设计了一种新的方法来推断lncRNA-疾病的关联(GMCLDA)。GMCLDA利用功能相似的lncRNA与表型相似的疾病之间的关联模式,利用嵌入在关联矩阵的内在结构,整合了疾病的语义相似性、lncRNA的序列相似性,通过预先填充新的lncRNA相互作用属性来实现矩阵补全。此外,限制预测值的范围会使结果正则化,从而提高鲁棒性和精度。在未来,可以通过增加多种生物分子之间的相关性,融合更多的异质基因组数据来提高模型的精度。

Xuan[11]等人考虑到之前的模型没有深入整合异构网络中的拓扑信息,提出了一种基于图卷积神经网络和深度神经网络的算法GCNLDA,主要是通过在框架的左侧,使用图的自动编码器来得到网络中节点的特征嵌入向量,并且为了更好的提取节点的特征,加入了节点级的注意力机制,框架的右侧使用卷积神经网络来学习lncRNA-疾病对的局部表示,最后采用了联合策略来获得lncRNA-疾病的相似值。但在神经网络中有很多的参数需要调整,并且参数的设置很大程度上会对模型的性能产生影响,而且模型构建比较复杂。

Wu[12]等人提出了一种基于图的自动编码器和随机森林的方法来预测lncRNA-疾病的关联预测模型(GAERF),该模型整合了lncRNA、miRNA、疾病的关系构建了一个异质网络,利用GAE中的编码器来从异构网络当中提取节点的低维嵌入表示,提取到的节点能够表示原始数据的主要成分,将嵌入向量通过GAE中内置的解码器实现图的重构,最后使用RF分类器来预测lncRNA和疾病之间潜在的关联。然而,该方法在网络中添加新的节点是不灵活的,需要重新构建网络以及仅考虑了lncRNA的功能相似性来构建LMD异构网络,会使得模型更偏向于计算已知的lncRNA和疾病。

3 结束语









参考文献:


[1] Constructing lncRNA functional similarity network based on lncRNA-disease associations and disease semantic similarity [J]. 2015, 5: 11338.

[2] GEISLER S, COLLER J J N R M C B. RNA in unexpected places: long non-coding RNA functions in perse cellular contexts [J]. 2013, 14(11): 699-712.

[3] MOHAMMADREZA, HAJJARI, ABBAS, et al. HOTAIR:an oncogenic long non-coding RNA in different cancers [J]. 2015, 01(v.12): 5-13.

[4] FAN X N, ZHANG S W, ZHANG S Y, et al. Prediction of lncRNA-disease associations by integrating perse heterogeneous information sources with RWR algorithm and positive pointwise mutual information [J]. 2019, 20(1).

[5] YU G, FU G, LU C, et al. BRWLDA: bi-random walks for predicting lncRNA-disease associations [J]. 2017, 8(36): 60429-60446.

[6] XING C, YOU Z H, YAN G Y, et al. IRWRLDA: improved random walk with restart for lncRNA-disease association prediction [J]. 2016, 7(36): 57919-57931.

[7] ZHANG J, ZHANG Z, CHEN Z, et al. Integrating Multiple Heterogeneous Networks for Novel LncRNA-disease Association Inference [J]. 2017: 396-406.

[8] PING P, LEI W, KUANG L, et al. A Novel Method for LncRNA-Disease Association Prediction Based on an lncRNA-disease Association Network [J]. 2018, PP(99): 688-693.

[9] FU G, WANG J, CARLOTTA D, et al. Matrix Factorization Based Data Fusion for the Prediction of lncRNA-disease Associations [J]. (9): 1529–1537.

[10] LU C, YANG M, LI M, et al. Predicting Human lncRNA-Disease Associations Based on Geometric Matrix Completion [J]. 2019, 24(8).

[11] XUAN, PAN, ZHANG, et al. Graph Convolutional Network and Convolutional Neural Network Based Method for Predicting lncRNA-Disease Associations [J]. 2019, 8(9): 1012-1028.

[12] WU Q W, XIA J F, NI J C, et al. GAERF: predicting lncRNA-disease associations by graph auto-encoder and random forest [J]. 2021, (2).