VCF 파일을 거의 다루다보니 BCFtools를 사용하게 되는데 stats 에서 잡아주지 못하는 것들이 있다.
예를 들어, VCF 파일에는 multi-allele가 있거나, indel 이 있어도 표시가 되지 않는다.
VCF 파일의 정보를 좀 더 정확히 알려주는 툴이 있다.
checkVCF.py
- Github : https://github.com/zhanxw/checkVCF
- Download : http://qbrc.swmed.edu/zhanxw/software/checkVCF/checkVCF-20140116.tar.gz
Python2 를 기본으로 사용하고 다음과 같은 정보를 준다.
checkVCF.py -- check validity of VCF file for meta-analysis
version 1.3 (20130223)
contact zhanxw@umich.edu or dajiang@umich.edu for problems.
Python version is [ 2.7.3.final.0 ]
Begin checking vcfFile [ example.vcf.gz ]
--------------- REPORT ---------------
Total [ 18 ] lines processed
Examine [ 7 ] VCF header lines, [ 11 ] variant sites, [ 6 ] samples
[ 0 ] duplicated sites
[ 0 ] NonSNP site are outputted to [ tmp.check.nonSnp ]
[ 10 ] Inconsistent reference sites are outputted to [ tmp.check.ref ]
[ 0 ] Variant sites with invalid genotypes are outputted to [ tmp.check.geno ]
[ 1 ] Alternative allele frequency > 0.5 sites are outputted to [ tmp.check.af ]
[ 1 ] Monomorphic sites are outputted to [ tmp.check.mono ]
--------------- ACTION ITEM ---------------
* Read tmp.check.ref, for autosomal sites, make sure the you are using the forward strand
* Upload these files to the ftp: tmp.check.log tmp.check.dup tmp.check.noSnp tmp.check.ref tmp.check.geno tmp.check.af tmp.check.mono
현재 버전은 version 1.4 (20140115) 이며, 이 이후에는 업데이트가 없다. 추가적인 업데이트는 필요해 보이지 않는다.
더보기
* 작업의 편리를 위해 추가 파일을 생성하였고, reference fasta 버전에 따라 2가지로 나누었다.
- cv7 : GRCh37 fasta file
- cv8 : GRCh38 fasta file
'Tools' 카테고리의 다른 글
TabView (0) | 2020.10.08 |
---|---|
Monitoring jobs (0) | 2020.09.23 |
Windows Terminal (0) | 2020.08.17 |
Slurm - Workload manager (0) | 2020.08.15 |
GATK (0) | 2020.08.07 |
댓글