VCF是用來看基因變異的資料格式,在這篇文章中會和大家分享如何閱讀VCF。
以下是VCF的範例,我們可以將資料分為兩部分閱讀:
紅線以上的部分為Meta-information;紅線以下的部分則為存有Genotype訊息的Data。

Meta-information
以##為開頭,告訴我們這份資料基本的訊息,像是第1列顯示的是VCF的版本 (此版本為VCFv4.2),其他列則告訴我們一些簡寫所代表的意思,如第7列告訴我們NS是指"Number of Samples With Data",了解這些簡寫也方便我們閱讀後續的資料。
Data
是我們主要要看的資訊,以下為各個簡寫代表的意義。
CHROM: 代表第幾條染色體
POS: 在哪個位置
ID: 參考序列的ID (Reference SNP)
REF: 參考鹼基
ALT: 替換的鹼基
QUAL: 變異品質分數,評估變異的可靠性
FILTER: 是否通過篩選條件
INFO: 額外的訊息

現在我們可以試著閱讀第一筆資料,從這筆資料中我們可以看到這是位在
第20條染色體,14370的位置,參考序列為rs6054257,參考鹼基為G,ALT為A,QUAL為29,並通過了FILTER。
在INFO中比較重要的資訊,NS = 3 表示有3個samples,DP為Combined depth across samples,AF為Allele frequency。
Genotype的部分要看GT,0表示REF相同,1表示ALT。第一個sample NA00001的GT為0|0,所以其Genotype是GG同型合子;NA00002的GT為1|0,其Genotype為AG異型合子。
詳情可以參考這份檔案
https://samtools.github.io/hts-specs/VCFv4.2.pdf