【基因數據】VCF (Variant Call Format)

更新於 發佈於 閱讀時間約 2 分鐘

VCF是用來看基因變異的資料格式,在這篇文章中會和大家分享如何閱讀VCF。
以下是VCF的範例,我們可以將資料分為兩部分閱讀:
紅線以上的部分為Meta-information;紅線以下的部分則為存有Genotype訊息的Data。

raw-image

Meta-information
以##為開頭,告訴我們這份資料基本的訊息,像是第1列顯示的是VCF的版本 (此版本為VCFv4.2),其他列則告訴我們一些簡寫所代表的意思,如第7列告訴我們NS是指"Number of Samples With Data",了解這些簡寫也方便我們閱讀後續的資料。

Data
是我們主要要看的資訊,以下為各個簡寫代表的意義。
CHROM: 代表第幾條染色體
POS: 在哪個位置
ID: 參考序列的ID (Reference SNP)
REF: 參考鹼基
ALT: 替換的鹼基
QUAL: 變異品質分數,評估變異的可靠性
FILTER: 是否通過篩選條件
INFO: 額外的訊息

raw-image

現在我們可以試著閱讀第一筆資料,從這筆資料中我們可以看到這是位在
第20條染色體,14370的位置,參考序列為rs6054257,參考鹼基為G,ALT為A,QUAL為29,並通過了FILTER。
在INFO中比較重要的資訊,NS = 3 表示有3個samples,DP為Combined depth across samples,AF為Allele frequency。
Genotype的部分要看GT,0表示REF相同,1表示ALT。第一個sample NA00001的GT為0|0,所以其Genotype是GG同型合子;NA00002的GT為1|0,其Genotype為AG異型合子。

詳情可以參考這份檔案
https://samtools.github.io/hts-specs/VCFv4.2.pdf

留言
avatar-img
留言分享你的想法!
avatar-img
shao_cloud
0會員
2內容數
你可能也想看
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
每年4月、5月都是最多稅要繳的月份,當然大部份的人都是有機會繳到「綜合所得稅」,只是相當相當多人還不知道,原來繳給政府的稅!可以透過一些有活動的銀行信用卡或電子支付來繳,從繳費中賺一點點小確幸!就是賺個1%~2%大家也是很開心的,因為你們把沒回饋變成有回饋,就是用卡的最高境界 所得稅線上申報
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
全球科技產業的焦點,AKA 全村的希望 NVIDIA,於五月底正式發布了他們在今年 2025 第一季的財報 (輝達內部財務年度為 2026 Q1,實際日曆期間為今年二到四月),交出了打敗了市場預期的成績單。然而,在銷售持續高速成長的同時,川普政府加大對於中國的晶片管制......
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
商業簡報不僅僅是呈現數據,更需要深入瞭解數據分析及有效的工具運用。本文探討於Excel中使用不同函數來改善數據處理效率,包括IF、IFS、VLOOKUP、XLOOKUP及INDEX與MATCH的結合,幫助商業人士更好地從數據中提取洞見,助力業務增值,學習優化數據分析過程,讓您的商業簡報更具影響力。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在資料分析過程中,透過衡量變數之間的線性或非線性關係,能有效探索數據集,篩選出重要特徵,並進行預測建模。本文介紹瞭如何理解數據、使用相關矩陣找出變數關聯性,以及利用互資訊評估變數之間的依賴程度,幫助資料科學家在建模過程中選擇適當的變數,提升模型效果。
Thumbnail
在 2024 年 7 月底,GRI 和 TNFD 聯手推出了一份兩邊準則的對應互通工具,是一份有著5頁頁籤的複雜 Excel 表格。為了怕大家手忙腳亂,再另外附上了一份 15 頁的說明文件。
Thumbnail
在 2024 年 7 月底,GRI 和 TNFD 聯手推出了一份兩邊準則的對應互通工具,是一份有著5頁頁籤的複雜 Excel 表格。為了怕大家手忙腳亂,再另外附上了一份 15 頁的說明文件。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
本文介紹了在進行資料分析時,將類別欄位轉換為數值欄位的方法,包括Label Encoding、One-Hot Encoding、Binary Encoding、Target Encoding和Frequency Encoding。每種方法的應用範例、優缺點和適用場景都有詳細說明。
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
高中數學主題練習—根式化簡
Thumbnail
這裡將陸續針對新冠科普中常用術語,根據HPO: 人類表型本體論以及ICD 11: 國際疾病分類第十一次修訂本| 全球診斷資訊標準, 陸續更新建立索引。並輔以知識本體(ontology)知識樹協助讀者快速進入知識單元的架構。
Thumbnail
這裡將陸續針對新冠科普中常用術語,根據HPO: 人類表型本體論以及ICD 11: 國際疾病分類第十一次修訂本| 全球診斷資訊標準, 陸續更新建立索引。並輔以知識本體(ontology)知識樹協助讀者快速進入知識單元的架構。
Thumbnail
在上一篇中,我們在模型探討隨機截距交叉延宕模式加入為預測或結果變量。而在Extension 2中,可以使用的分類變量進行Multiple group分析。這種方法常用在探討調節效果是否成立,本文將簡介其意義和語法。
Thumbnail
在上一篇中,我們在模型探討隨機截距交叉延宕模式加入為預測或結果變量。而在Extension 2中,可以使用的分類變量進行Multiple group分析。這種方法常用在探討調節效果是否成立,本文將簡介其意義和語法。
Thumbnail
排版微調 VOL.1-詳細解說版 排版微調是我社群的一個系列內容,這篇則是提供給訂閱會員的詳細解說版,會說明為何調整的原因跟我的看法,以及原本設計可能有的問題,如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因。
Thumbnail
排版微調 VOL.1-詳細解說版 排版微調是我社群的一個系列內容,這篇則是提供給訂閱會員的詳細解說版,會說明為何調整的原因跟我的看法,以及原本設計可能有的問題,如果你是設計初學者那這份內容會很適合你,因為會很細節的去講解排版原因。
Thumbnail
寫完〈從分類看方格子〉後,剛巧找到一篇資深統計專家格友在2023年6月寫的分析,包含當時的方格子分類與數據;有數據就可以比對,因此好奇的蝸蝸快速計算並提出推測,提供各位卓參。
Thumbnail
寫完〈從分類看方格子〉後,剛巧找到一篇資深統計專家格友在2023年6月寫的分析,包含當時的方格子分類與數據;有數據就可以比對,因此好奇的蝸蝸快速計算並提出推測,提供各位卓參。
追蹤感興趣的內容從 Google News 追蹤更多 vocus 的最新精選內容追蹤 Google News