GATK使用方法详解-plob最详尽说明书(4)

2018-12-09 23:57

通过GATK网站上提供的最佳方案可以看出,GATK是推荐使用VASR的,但使用VQSR数据量一定要达到要求,数据量太小无法使用高斯模型。还有,在使用VAQR时,indel和snp要分别进行。 VQSR原理介绍:

这个模型是根据已有的真实变异位点(人类基因组一般使用HapMap3中的位点,以及这些位点在Omni 2.5M SNP芯片中出现的多态位点)来训练,最后得到一个训练好的能够很好的评估真伪的错误评估模型,可以叫他适应性错误评估模型。这个适应性的错误评估模型可 以应用到call出来的原始变异集合中已知的变异位点和新发现的变异位点,进而去评估每一个变异位点发生错误的概率,最终会给出一个得分。这个得分最后会 被写入vcf文件的INFO信息里,叫做VQSLOD,就是在训练好的混合高斯模型下,一个位点是真实的概率比上这个位点可能是假阳性的概率的log odds ratio(对数差异比),因此,可以定性的认为,这个值越大就越好。

VQSR主要分两个步骤,这两个步骤会使用两个不同的工具:VariantRecalibrator和ApplyRecalibration。 i) VariantRecalibrator

VariantRecalibrator:通过大量的高质量的已知变异集合的各个注释(包括很多种,后面介绍)的值来创建一个高斯混合模型,然后用于评估所有的变异位点。这个文件最后将生成一个recalibration文件。

原理简单介绍: 这个模型首先要拿到真实变异数据集和上一步骤中得到的原始变异数据集的交集,然后对这些SNP值相对于具体注释信息的分布情况进行模拟,将这些变异位点进 行聚类,最后根据聚类结果赋予所有变异位点相应的VQSLOD值。越接近聚类核心的变异位点得到的VQSLOD值越高。 ii) ApplyRecalibration

ApplyRecalibration:这一步将模型的各个参数应用于原始vcf文件中的每一个变异位点,这时,每一个变异位点的注释信息列中都会出现一个VQSLOD值,然后模型会根据这个值对变异位点进行过滤,过滤后的信息会写在vcf文件的filter一列中。 原理简单介绍: 在VariantRecalibrator这一步中,每个变异位点已经得到了一个VQSLOD值了,同时,这些LOD值在训练集里也进行了排序。当你在这 一步中设置一个tranche sensitivity 的阈值(这个阈值一般是一个百分数,如设置成99%),那么,如果LOD值从大到小排序的话,这个程序就会认为在这个训练集中,LOD值在前99%的是可 信的,当这个值低于这个阈值,就认为是错误

的。最后,程序就会用这个标准来过滤上一步call出来的原始变异集合。如果LOD值超过这个阈值,在 filter那一列就会显示PASS,如果低于这个值就会被过滤掉,但是这些位点仍然会显示在结果里面,只不过会在filter那一列标示出他所属于的 tranche sensitivity 的名称。在设置tranche sensitivity 的阈值时,要兼顾敏感度和质量值。

初步分析

这一步主要是对上面所得到的最终vcf中的结果进行一些初步的分析,比如计算这些变异位点在dbsnp中的比例、Ti/Tv的比例、每个样本中的 snp数量……。此外,还可以对变异位点的同义/非同义突变进行统计,识别是否为CpG位点以及氨基酸的简并信息等。这一步主要是利用GATK中的VariantEval来完成。 需要注意的是,有些计算内容不能同时进行,例如AlleleCount和VariantSummary或者Sample和VariantSummary。如果选择了这样的组合方式,程序就会报错。但是GATK并没有告诉我们到底哪些不能同时运行,所以当选择计算内容的时候可以先做一下测试。 e.g.

java -jar GenomeAnalysisTK.jar -R hg19.fa -T VariantEval

--eval hg19.snp.filter.t97.Q10_13.both.vcf -D dbsnp_137.hg19.vcf

-o hg19.PASS.Eval_15_Final.gatkreport 主要参数解释:

--eval 输入要进行summary的文件,也就是hg19.snp.filter.t97.Q10_13.both.vcf。 -EV 选择模块计算相应的分析内容,。 --list 列出可供选择的计算模块。

-noEV 不是用默认的模块,只计算用-EV选定的模块。


GATK使用方法详解-plob最详尽说明书(4).doc 将本文的Word文档下载到电脑 下载失败或者文档不完整,请联系客服人员解决!

下一篇:理力典型习题

相关阅读
本类排行
× 注册会员免费下载(下载后可以自由复制和排版)

马上注册会员

注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: