본문 바로가기

Library6

numpy - ravel_multi_index arr = np.array([[3,6,6],[4,5,1]]) np.ravel_multi_index(arr, (7,6)) ## array([22, 41, 37]) r = 7 c = 6 print(np.arange(r*c)) print(np.arange(r*c).reshape(r,c)) print(np.arange(r*c).reshape(r,c)[[3,6,6],[4,5,1]]) ## [ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41] ## [[ 0 1 2 3 4 5] ## [ 6 7 8 9 10 11] ## [12 13 14 15 16 17] ## .. 2021. 12. 21.
sklearn - template import pandas as pd import numpy as np from sklearn.model_selection import train_test_split from sklearn.model_selection import KFold from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_squared_log_error, log_loss from sklearn.metrics import accuracy_score, roc_curve, auc, r2_score from sklearn.metrics import classification_report, confusion_matrix from sklearn.preprocessin.. 2021. 7. 1.
sklearn - Scaler - StandardScaler : 정규분포를 갖도록 데이터의 스케일을 조정. N(0,1) : 평균을 0에 오도록 하며, outlier를 제거하는데 사용. : Sparse 데이터에 사용하게되면 sparseness 구조가 파괴됨. - MinMaxScaler, MaxAbsScaler : 표준편차가 매우 작고 sparse 데이터에 적합. $$ x^\prime=\frac{x-x_{min}}{x_{max}-x_{min}} $$ - Normalizer : 각 feature마다 정규화함. : Euclidean distance가 1이 되도록 조정. $$ ED = \sqrt{\sum_i x_i^2} = 1 $$ : feature마다 스케일이 다른 경우, training에서 큰 값을 가지는 쪽으로 큰 weight를 주게되는.. 2021. 6. 23.
Scikit-allel - Homepage : https://scikit-allel.readthedocs.io/en/stable/ - Installation : pip3 install scikit-allel - Github : https://github.com/cggh/scikit-allel Prerequisite: pip3 install h5py import allel df=allel.read_vcf('data.vcf.gz') print(df.keys()) # dict_keys(['samples', 'calldata/GT', 'variants/ALT', 'variants/CHROM', 'variants/FILTER_PASS', 'variants/ID', 'variants/POS', 'variants/QUAL', 'varian.. 2020. 11. 6.
sklearn - Standardization [ Web ] https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html Data의 정규화 또는 표준화이다. 즉, 표준정규분포 (standard normal distribution)을 갖는 data로 만들어주는 기능을 한다. 이렇게 만든 데이터는 평균이 0이고, 표준편차(1-sigma)가 1로 mapping되며, X축을 z-score 또는 standardized score라고 부른다. Usage: from sklearn.preprocessing import StandardScaler import numpy as np scaler = StandardScaler() data = np.arange(11)... 2020. 11. 5.
Scikit-learn, sklearn Machine learning에서 가장 많이 쓰이는 library이다. Homepage : https://scikit-learn.org/stable/user_guide.html Manual : https://scikit-learn.org/stable/_downloads/scikit-learn-docs.pdf 사용할 기능 Classification - SVM : https://scikit-learn.org/stable/modules/svm.html - Ensemble (Random forest) : https://scikit-learn.org/stable/modules/ensemble.html SVM: import numpy as np from sklearn.pipeline import make_pipel.. 2020. 11. 4.