본문 바로가기
Library

Scikit-allel

by wycho 2020. 11. 6.

- Homepage : https://scikit-allel.readthedocs.io/en/stable/

- Installation : pip3 install scikit-allel

- Github      : https://github.com/cggh/scikit-allel

 

 

Prerequisite:

pip3 install h5py

 

 

import allel

df=allel.read_vcf('data.vcf.gz')
print(df.keys())
# dict_keys(['samples', 'calldata/GT', 'variants/ALT', 'variants/CHROM', 'variants/FILTER_PASS', 'variants/ID', 'variants/POS', 'variants/QUAL', 'variants/REF'])

print(df['calldata/GT'].shape) # (10000,100,2) (variants,samples,first and second alleles)

g = allel.GenotypeChunkedArray(df['calldata/GT']) # 1/1 0/1 형태의 genotype data를 볼 수 있다.

idx = list(set(np.nonzero(g)[0])) # missing genotype에서 error가 난다.
idx.sort() 

gt = g.take(idx, axis=0) # genotype이 있는 position만 선택한다.
gn = gt.to_n_alt()[:] # Hom=0, Het=1, Alt=2 형태의 genotype

 

 

 

 

'Library' 카테고리의 다른 글

numpy - ravel_multi_index  (0) 2021.12.21
sklearn - template  (0) 2021.07.01
sklearn - Scaler  (0) 2021.06.23
sklearn - Standardization  (0) 2020.11.05
Scikit-learn, sklearn  (0) 2020.11.04

댓글