【基因數據】VCF (Variant Call Format)

更新於 發佈於 閱讀時間約 2 分鐘

VCF是用來看基因變異的資料格式,在這篇文章中會和大家分享如何閱讀VCF。
以下是VCF的範例,我們可以將資料分為兩部分閱讀:
紅線以上的部分為Meta-information;紅線以下的部分則為存有Genotype訊息的Data。

raw-image

Meta-information
以##為開頭,告訴我們這份資料基本的訊息,像是第1列顯示的是VCF的版本 (此版本為VCFv4.2),其他列則告訴我們一些簡寫所代表的意思,如第7列告訴我們NS是指"Number of Samples With Data",了解這些簡寫也方便我們閱讀後續的資料。

Data
是我們主要要看的資訊,以下為各個簡寫代表的意義。
CHROM: 代表第幾條染色體
POS: 在哪個位置
ID: 參考序列的ID (Reference SNP)
REF: 參考鹼基
ALT: 替換的鹼基
QUAL: 變異品質分數,評估變異的可靠性
FILTER: 是否通過篩選條件
INFO: 額外的訊息

raw-image

現在我們可以試著閱讀第一筆資料,從這筆資料中我們可以看到這是位在
第20條染色體,14370的位置,參考序列為rs6054257,參考鹼基為G,ALT為A,QUAL為29,並通過了FILTER。
在INFO中比較重要的資訊,NS = 3 表示有3個samples,DP為Combined depth across samples,AF為Allele frequency。
Genotype的部分要看GT,0表示REF相同,1表示ALT。第一個sample NA00001的GT為0|0,所以其Genotype是GG同型合子;NA00002的GT為1|0,其Genotype為AG異型合子。

詳情可以參考這份檔案
https://samtools.github.io/hts-specs/VCFv4.2.pdf

留言
avatar-img
留言分享你的想法!
avatar-img
cloud
0會員
3內容數
你可能也想看
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
常常被朋友問「哪裡買的?」嗎?透過蝦皮分潤計畫,把日常購物的分享多加一個步驟,就能轉換成現金回饋。門檻低、申請簡單,特別適合學生與上班族,讓零碎時間也能創造小確幸。
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
嗨!歡迎來到 vocus vocus 方格子是台灣最大的內容創作與知識變現平台,並且計畫持續拓展東南亞等等國際市場。我們致力於打造讓創作者能夠自由發表、累積影響力並獲得實質收益的創作生態圈!「創作至上」是我們的核心價值,我們致力於透過平台功能與服務,賦予創作者更多的可能。 vocus 平台匯聚了
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在 2024 年 7 月底,GRI 和 TNFD 聯手推出了一份兩邊準則的對應互通工具,是一份有著5頁頁籤的複雜 Excel 表格。為了怕大家手忙腳亂,再另外附上了一份 15 頁的說明文件。
Thumbnail
在 2024 年 7 月底,GRI 和 TNFD 聯手推出了一份兩邊準則的對應互通工具,是一份有著5頁頁籤的複雜 Excel 表格。為了怕大家手忙腳亂,再另外附上了一份 15 頁的說明文件。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
這裡將陸續針對新冠科普中常用術語,根據HPO: 人類表型本體論以及ICD 11: 國際疾病分類第十一次修訂本| 全球診斷資訊標準, 陸續更新建立索引。並輔以知識本體(ontology)知識樹協助讀者快速進入知識單元的架構。
Thumbnail
這裡將陸續針對新冠科普中常用術語,根據HPO: 人類表型本體論以及ICD 11: 國際疾病分類第十一次修訂本| 全球診斷資訊標準, 陸續更新建立索引。並輔以知識本體(ontology)知識樹協助讀者快速進入知識單元的架構。
Thumbnail
在上一篇中,我們在模型探討隨機截距交叉延宕模式加入為預測或結果變量。而在Extension 2中,可以使用的分類變量進行Multiple group分析。這種方法常用在探討調節效果是否成立,本文將簡介其意義和語法。
Thumbnail
在上一篇中,我們在模型探討隨機截距交叉延宕模式加入為預測或結果變量。而在Extension 2中,可以使用的分類變量進行Multiple group分析。這種方法常用在探討調節效果是否成立,本文將簡介其意義和語法。
Thumbnail
排版微調 VOL.1-詳細解說版 排版微調是我社群的一個系列內容,這篇則是提供給訂閱會員的詳細解說版,會說明為何調整的原因跟我的看法,以及原本設計可能有的問題,如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因。
Thumbnail
排版微調 VOL.1-詳細解說版 排版微調是我社群的一個系列內容,這篇則是提供給訂閱會員的詳細解說版,會說明為何調整的原因跟我的看法,以及原本設計可能有的問題,如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因。
Thumbnail
寫完〈從分類看方格子〉後,剛巧找到一篇資深統計專家格友在2023年6月寫的分析,包含當時的方格子分類與數據;有數據就可以比對,因此好奇的蝸蝸快速計算並提出推測,提供各位卓參。
Thumbnail
寫完〈從分類看方格子〉後,剛巧找到一篇資深統計專家格友在2023年6月寫的分析,包含當時的方格子分類與數據;有數據就可以比對,因此好奇的蝸蝸快速計算並提出推測,提供各位卓參。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News