GATK4 最佳实践
GATK是目前二代测序数据分析领域最为普遍使用的变异检测(Variant Calling)工具。目前,该工具已发展到4.0.4版本。GATK4的最佳实践,目前通过WDL脚本进行发布。
Broad Institute 官方版本
用户可以通过下载对应的WDL 脚本进行运行。 需要注意的是,GATK4的最佳实践流程分为几个部分:
部分流程功能 | WDL 代码链接 |
---|---|
fastq 转化为未比对的bam 文件 | https://github.com/gatk-workflows/seq-format-conversion |
bam 文件变异检测前准备 | https://github.com/gatk-workflows/gatk4-data-processing |
胚系全外显子突变HaplotypeCaller 检测 | https://github.com/gatk-workflows/gatk4-exome-analysis-pipeline |
肿瘤体细胞突变Mutect2 检测 | https://github.com/gatk-workflows/gatk4-somatic-snvs-indels |
对用户而言,需要依次运行上述模块进行分析。并且,涉及的参数也比较多。
极道科技简化版(Fastq to VCF)
人、小鼠胚系单核苷酸突变(Germline SNP Mutations)检测流程
Broad Institue 官方WDL 脚本参数较多,极道科技为用户提供了简化版本,并实现一次任务提交运行多样本的功能。 用户可以通过下载页面 进行下载。用户在使用过程中,可以对流程进行相关修改。
[!TIP|style:flat]
本流程中涉及的参考基因组以及已知位点等数据,用户可以根据自身具体需求进行调整,也可以通过下载资料进行相应的下载。
肿瘤变异检测流程
GATK4 中肿瘤检测流程Mutect2 也是其应用的重要领域之一。极道科技为用户提供了相应的简化版流程,可供用户较为轻松地在自己所在的计算环境下,运行相应的流程。
[!TIP|style:flat]
后续,极道科技将根据TCGA项目中涉及的分析方法,提供相应的镜像资源和分析流程。
其他非模式生物群体变异检测流程
GATK流程主要针对人类和小鼠数据进行开发,因此在也提供针对非模式动植物的GATK4 变异检测流程版本。 对于菲模式生物而言,GATK4 流程最大的问题在于缺少突变真集。一般解决方案为采用缺少BQSR步骤的流程先对样本群进行变异检测,而后对变异结果进行硬过滤,将此结果作为真集,对样本比对结果进行矫正,再进行变异检测。