kmeans1 Clustering 데이터 자체의 값들만으로 분류가 필요한 경우가 있다. 예를 들면, 한 사람이 아픈 증상이 있어서 병원을 찾았다. 의사는 진단해보고 이 사람이 환자라고 판단했다. 하지만 그 사람이 가진 유전체 분석을 해보니 이 사람은 정상인이었다. 이러한 경우 의사가 판단한 phenotype에 의존하지 않고 데이터만으로 분석을 진행해야 할 경우가 생긴다. Unsupervised learning이라고 하며, t-SNE, PCA, UMAP이 있다. 추가로 point 사이의 거리에 따라 cluster해주는 k-means clustering과 Spectral clustring도 진행해 보았다. 위 그래프에서 phenotype과 data driven clustering의 결과는 상당히 다르게 보인다. 이때는 QC를 통해 featu.. 2021. 6. 9. 이전 1 다음