机器学习与生物信息

生物信息学发展至今,显然已经和机器学习密不可分,例如回归分析、随机森林、支持向量机等算法,其实在生物信息学上已经得到比较成熟的应用了。


1. 生物信息学数据

生物信息学数据的研究数据类型,可以根据技术手段分为基因型数据、表达量数据等。例如通过WGS、WES、基因型芯片数据,可获得基因型数据(GenoType Data)。

1.1 基因型数据的内部关联性

基因型数据可以将数据理解为{0,1,2}(分别表示:野生型纯合、杂合、突变型纯合)。这些数据间存在一定的关联性,由遗传学第三定律中连锁定律造成。位点之间如果充分杂交(换到医学研究中,则是经过经历多世代),会达到连锁平衡状态。但是事实上,由于人口分层和其他因素,不存在完全独立的位点。位点间存在着连锁不平衡现象(LD)。

某类疾病本质上是由于DNA突变造成了蛋白结构发生了改变,这类突变可能随机发生在一个基因区间上。某两个突变虽然没有遗传学上的联系,可能造成同一后果。因此可以以基因为单位作为观察对象,例如负荷检验(SNP Burden Test)

对于RNA分子转录水平、蛋白表达量、代谢相关分子的定量等,也因为生物体本身的代谢调控的复杂性,造成变量内部会存在一定的相关性。例如某一转录调控因子基因转录水平增高,会引起一系列相关基因的转录水平升高。

1.2 高通量性

高通量技术(如高通量测序、高通量质谱技术等)使得全基因组、蛋白组、代谢组水平的检测得到可能。但是位点信息动辄百万级,基因表达量也是万级别的,虽然初衷是对遗传和分子水平认知更为清晰,但是同时造成了无关变量的激增。

由于无关变量占比非常高,因此在数据分析时首要面对的问题就是如何将变量数量进行减少。


1.GWAS与突变危害评分

1.1 GWAS 简介

一般意义上,对于位点和表型之间的关联,经常采用全基因组关联分析(GWAS Genome-Wide Association Study) 进行,其本质是不同的表型——例如正常样本和患病样本——与基因型的线性回归模型,对位点与表型之间的相关性给出评估。

目前随着基因组数据(如基因芯片数据、高通量测序数据)的不断积累,GWAS在表型关联性研究上已经取得了很多的结果。而人口分层分析(Population Structure Analysis)结果和其他协变量,可以通过广义线性模型引入GWAS分析,也使得模型更加精致。

但从结果上看,GWAS还是不足以完全解释基因型对表型的影响。而目前已有的GWAS分析工具,也对表型选择也存在较大的限制(目前只支持连续变量或二分类变量)。


1.2 理解GWAS结果——PRS

GWAS的结果只反应了位点与形状之间的关联程度,而如何评价某个个体是否具有该形状,则可以通过PRS来进行评价。Polygenic risk scores(PRS) 估计常用的三种方式,这三种方式基本上都强烈依赖于GWAS的结果。本质上就是对GWAS结果的系数赋权重之后加和。

  • BLUP (最佳线性无偏预测; 通用工具 gcta 提供了相应功能实例,也有不少独立工具可以使用)
  • BayesA
  • LDpred (其使用可以参考该站点)

PRS可以理解为通过GWAS结果给出的评价模型,该评价以数值型表征患病风险。实际上Polygenic risk scores也可以是分类结果(例如推断该样本是否患病)。


2. 机器学习算法与基因型-表型数据

2.1 机器学习算法在基因型数据分析中的问题

  • 基因型数据的位点(即Feature数量)与样本数量相比过于庞大——基因型数据的位点数量通常M级别的,因此如果模型拿来就用,通常会出现过拟合现象,从而使得模型失去实际意义。
  • 其次,采用神经网络模型,难以对结果中哪些位点起到决定作用给出明确的判断。这对一般以找出显著影响因素的目的的基因组学研究来说,造成了困扰。
  • 目前应用机器学习算法,分析基因型-表型之间的关联依然处于起步阶段,因此方法众多,但依然处于公说公有理,婆说婆有理的阶段,这与传统的GWAS关联分析有较大区别。

2.2 目前已有的减少特征方案

对于神经网络模型而言,常见方式有:

WARNING: 上述方法都存在过高估计上位突变(epistasis);同时低估效力较小的突变

  • 通过特征嵌入(Feature Embedding)方式进行特征选择,由于将数据集进行转置,因此大大减小了训练计算量 (Romero et al. 2016)。

  • 通过隐含因果模型 (implicit causal model) 来识别位点间相关性,同时再逐步增加变量 (Tran and Blei 2017 )。

除了神经网络之外,线性模型也有一些变量筛选方式,例如:

上述所有的方法,核心都是解决数据集Feature数量过多的问题。

Powered by XTAO TechnologyLast Modified On:2021 2023-03-24 09:05:26

results matching ""

    No results matching ""