VCF GATK文件格式是一种文件格式,维持遗传分离。

以容器的GATK VCF。,下面这人文件只表现了独一未受损伤的vcf文件的前专其中的一部分SNP。

发表稍许的复杂,过后把它分红两比率。,一号比率把他整理为独一文件。,执意每一列最前面有2个#表示的那些的列所提到的执意为相识的人说下面“版本”INFO列中可能性要呈现的许多的tags和和FORMAT列中对遗传型的表现。秒比率可分为以下几类:

#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA12878
chr1 873762 . T G PASS AC=1;AF=0.50;AN=2;DP=315;Dels=0.00;HRun=2;HaplotypeScore=15.11;MQ=91.05;MQ0=15;QD=16.61;SB=-1533.02;VQSLOD=-1.5473 GT:海报:DP:GQ:PL 0/1:173,141:282:99:255,0,255
chr1 877664 rs3828047 A G PASS AC=2;AF=1.00;AN=2;DB;DP=105;Dels=0.00;HRun=1;HaplotypeScore=1.59;MQ=92.52;MQ0=4;QD=37.44;SB=-1152.13;VQSLOD= 0.1185 GT:海报:DP:GQ:PL 1/1:0,105:94:99:255,255,0
chr1 899282 rs28548431 C T PASS AC=1;AF=0.50;AN=2;DB;DP=4;Dels=0.00;HRun=0;HaplotypeScore=0.00;MQ=99.00;MQ0=0;QD=17.94;SB=-46.55;VQSLOD=-1.9148 GT:海报:DP:GQ:PL 0/1:1,3:4:
chr1 974165 rs9442391 T C 29.84 LowQual AC=1;AF=0.50;AN=2;DB;DP=18;Dels=0.00;HRun=1;HaplotypeScore=0.16;MQ=95.26;MQ0=0;QD=1.66;SB=-0.98 GT:海报:DP:GQ:PL 0/1:14,4:14:60.91:61,0,255

CHROM: 阐明该序列是急变位点 从给打电话,也许这是所其中的一部分人类的染色体组,这是CHR1…chr22,chrX,Y,M了。

POS: 与介绍人染色体组座位互插的分离位点的座位,也许这是个,是第独一基础座位。。

ID: 也许SNP的呼叫中在的dbSNP数据库,在中肯的的数据库的遥感数将显示。

判断力和判断力: 在该位点的分离,与染色体组做成某事染色体组和中肯的的BA绝对应的基。

QUAL: 可以拘押为所call暴露的分离位点的集中值。Q=-10lgP,Q说的集中使付出努力;p表现该地点出错的概率。。去,也许你想使误码率超越90%,p的级限的为1/10。,那lg(1/10)=-1,Q=(-10)*(-1)=10。同样地,当Q=20时,把持误码率。

FILTER: 抱负位置下,引起的使付出努力必须做的事与所其中的一部分偏离塑造计算。,这人值可以代表合适的的分离位点。,但真理是,这是不克不及相信的性的事。。去,还需求对原始分离位点做额外的的过滤。不顾你用什么方法来滤去急变位点,过滤后,在滤去器列空军将领保持新过滤记载。,也许是经过过滤投机,过后这些过滤柱,经过投机将不克不及良好的急变位点,也许缺席过滤,在这人列的滤去器中,不计递送静止通讯。也许这人列是。,这述语缺席停止过滤。。

到现时,咱们可以解说下面的范本。:

chr1:873762是一种重要技术成就的t/G急变。,它有很高的信誉(集中。
chr1:877664是已知的a/g变量。 SNP位点,名字rs3828047,它有很高的信誉(集中。
chr1:899282是独一已知的分离为C/TSNP位点,名字rs28548431,但较低(集中信誉。
chr1:974165是独一已知的分离为T/CSNP位点,名字rs9442391,不管怎样这人网站的集中很低。,被标
成了“LowQual”,可以在后续剖析中过滤掉。。

VCF文件发表很复杂,独一惊人的的模型,但他们做成某事聚集都是称呼,这些称呼大体上是在VASR应用的滤去,最好是相识的人每个称呼的感觉,也许你不拘押它,你就不用去把持它。。真理上,最重要的通讯是几列。:

chr1 873762 . T G [剪] GT:海报:DP:GQ:PL 0/1:173,141:282:99:255,0,255
chr1 877664 rs3828047 A G [剪] GT:海报:DP:GQ:PL 1/1:0,105:94:99:255,255,0
chr1 899282 rs28548431 C T [剪] GT:海报:DP:GQ:PL 0/1:1,3:4:

两列在中肯的的前面。,与独一或一组值绝对应的每个手势。,如:

chr1:873762,gt对应于0/1;海报相当于173,141;与282 DP绝对应;GQ对应99;PL对应于255,0,255。

GT: 代表范本的遗传型,二倍体生物,GT值是范本在这人地点上输送的两个对偶遗传物质。。0是判断力相似的;1代表与ALT两者都的方法。;2二ALT。当独一无二的独一ALT 对偶遗传物质的时辰,0 / 0是垂直地的和分歧的介绍人;0/1异型结合性表达,两个对偶遗传物质,独一是ALT,独一是REF。;1/1述语纯和有ALT;

AD: 用逗号隔开的两个值,这两个值表现援用和alt基的读取次数。,维持REF和维持alt的排序吃水。

DP: 总额的读取掩蔽这人网站,这人位点的吃水(批评什么价钱个读取数字),它是将什么价钱,可能性是用必然集中的使付出努力需要量。。

PL: 用逗号断裂的3个值,这三个值指示遗传物质座的遗传型为0/0个。,0/1,缺席事前的投机教育活动攀登的可能性性(L)1/1。也许转变为维持遗传型的概率(P),鉴于L = – 10lgp,这么P=10^(-L/10),去,l值为0时,P=10^0=1。去,这人值越小,维持概率越大,也执意说,遗传型的可能性性越大。。

GQ: 以为遗传型最有可能性的使付出努力。表达的意思是两者都的集中。

举个范本阐明一下:

chr1 899282 rs28548431 C T [剪] GT:海报:DP:GQ:PL 0/1:1,3:4:

在这人网站,GT=0/1,也执意说,这人位点的遗传型是C/T。;GQ=,使付出努力气质不高。,It's probably because the reads number of cover to this site is too little,DP=4,依其申述独一无二的4本书维持本地的换衣。;AD=1,3,也执意说,有独一维持REF的读,alt有3个维持;在PL,该位点遗传型的半信半疑更为明显。,PL值为0 0/1。,虽有0/1的概率很高。;但1/1只独一无二的26只。,也执意说,10的可能性性是1/1。;但这近乎不克不及相信的性是0/0,鉴于维持0/0的概率独一无二的10 ^()= 5×10-11。