- Homepage : https://scikit-allel.readthedocs.io/en/stable/
- Installation : pip3 install scikit-allel
- Github : https://github.com/cggh/scikit-allel
Prerequisite:
pip3 install h5py
import allel
df=allel.read_vcf('data.vcf.gz')
print(df.keys())
# dict_keys(['samples', 'calldata/GT', 'variants/ALT', 'variants/CHROM', 'variants/FILTER_PASS', 'variants/ID', 'variants/POS', 'variants/QUAL', 'variants/REF'])
print(df['calldata/GT'].shape) # (10000,100,2) (variants,samples,first and second alleles)
g = allel.GenotypeChunkedArray(df['calldata/GT']) # 1/1 0/1 형태의 genotype data를 볼 수 있다.
idx = list(set(np.nonzero(g)[0])) # missing genotype에서 error가 난다.
idx.sort()
gt = g.take(idx, axis=0) # genotype이 있는 position만 선택한다.
gn = gt.to_n_alt()[:] # Hom=0, Het=1, Alt=2 형태의 genotype
'Library' 카테고리의 다른 글
numpy - ravel_multi_index (0) | 2021.12.21 |
---|---|
sklearn - template (0) | 2021.07.01 |
sklearn - Scaler (0) | 2021.06.23 |
sklearn - Standardization (0) | 2020.11.05 |
Scikit-learn, sklearn (0) | 2020.11.04 |
댓글