본문 바로가기
Tools

checkVCF

by wycho 2020. 9. 15.

VCF 파일을 거의 다루다보니 BCFtools를 사용하게 되는데 stats 에서 잡아주지 못하는 것들이 있다.

예를 들어, VCF 파일에는 multi-allele가 있거나, indel 이 있어도 표시가 되지 않는다.

 

VCF 파일의 정보를 좀 더 정확히 알려주는 툴이 있다.

 

checkVCF.py

- Github : https://github.com/zhanxw/checkVCF

- Download : http://qbrc.swmed.edu/zhanxw/software/checkVCF/checkVCF-20140116.tar.gz

 

Python2 를 기본으로 사용하고 다음과 같은 정보를 준다.

checkVCF.py -- check validity of VCF file for meta-analysis
version 1.3 (20130223)
contact zhanxw@umich.edu or dajiang@umich.edu for problems.
Python version is [ 2.7.3.final.0 ] 
Begin checking vcfFile [ example.vcf.gz ]
---------------     REPORT     ---------------
Total [ 18 ] lines processed
Examine [ 7 ] VCF header lines, [ 11 ] variant sites, [ 6 ] samples
[ 0 ] duplicated sites
[ 0 ] NonSNP site are outputted to [ tmp.check.nonSnp ]
[ 10 ] Inconsistent reference sites are outputted to [ tmp.check.ref ]
[ 0 ] Variant sites with invalid genotypes are outputted to [ tmp.check.geno ]
[ 1 ] Alternative allele frequency > 0.5 sites are outputted to [ tmp.check.af ]
[ 1 ] Monomorphic sites are outputted to [ tmp.check.mono ]
---------------     ACTION ITEM     ---------------
* Read tmp.check.ref, for autosomal sites, make sure the you are using the forward strand
* Upload these files to the ftp: tmp.check.log tmp.check.dup tmp.check.noSnp tmp.check.ref tmp.check.geno tmp.check.af tmp.check.mono

현재 버전은 version 1.4 (20140115) 이며, 이 이후에는 업데이트가 없다. 추가적인 업데이트는 필요해 보이지 않는다.

 

더보기

* 작업의 편리를 위해 추가 파일을 생성하였고, reference fasta 버전에 따라 2가지로 나누었다.
  - cv7 : GRCh37 fasta file
  - cv8 : GRCh38 fasta file

checkVCF.py
0.01MB
cv7
0.00MB
cv8
0.00MB

'Tools' 카테고리의 다른 글

TabView  (0) 2020.10.08
Monitoring jobs  (0) 2020.09.23
Windows Terminal  (0) 2020.08.17
Slurm - Workload manager  (0) 2020.08.15
GATK  (0) 2020.08.07

댓글