본문 바로가기
Statistics

Correlation coefficient

by wycho 2021. 8. 19.

https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

 

데이터셋의 비교는 기본적으로 두 확률변수의 linear관계를 확인하는 covariance 를 보는 것이다. 하지만 covariance 를 비교하면 데이터의 scale에 따라 다른 결과를 주게된다. 이를 분산으로 나누어 normailzed 값이 correlation coefficient이며, 데이터의 방향과 정도를 확인할 수 있다.

 

Correlation coefficient를 구하는 3가지 방법에 대해 정리해 본다.

- Pearson's correlation coefficient ( value )

- Spearman's correlation coefficient ( rank )

- Kendall rank correlation coefficient ( rank )

 

 

Pearson's correlation coefficient

* 가정 : 1) 두 비교 데이터의 독립성 2) 선형관계 3) 동분산성 (Homoscedasticity)

- 주로 두 데이터의 선형관계를 확인하는데 많이 쓰인다. ( -1 ≤ r ≤ 1 )

 

 

Spearman's correlation coefficient

* 가정 : 1) ordinality 2) monotonically increased

- Ranking 으로 나타낼 수 있는 데이터에 사용하고, rank가 어떻게 변했는지에 대해 비교하는 방법이다.

 

 

Kendall rank correlation coefficient

* 가정  : 1) ordinality

- 데이터를 내림차순으로 정렬했을 때, 비교하고자 하는 데이터의 순위가 어떤지 비교하는 방법이다.

- 비교 가능한 전체 쌍은 n개에서 2개를 선택하는 조합이기 때문에 nC2 로 나누어 준다.

 

 

Spearman 과 Kendall 은 generalized correlation coefficient 의 특별한 경우이다.

https://en.wikipedia.org/wiki/Rank_correlation#General_correlation_coefficient

 

 

Reference

- https://en.wikipedia.org/wiki/Pearson_correlation_coefficient

- https://en.wikipedia.org/wiki/Rank_correlation

- https://www.statisticssolutions.com/free-resources/directory-of-statistical-analyses/correlation-pearson-kendall-spearman/

- https://www.statisticshowto.com/kendalls-tau/

- https://en.wikipedia.org/wiki/Homoscedasticity

- https://en.wikipedia.org/wiki/Variance

- https://en.wikipedia.org/wiki/Random_variable

- https://drhongdatanote.tistory.com/49

 

 

'Statistics' 카테고리의 다른 글

Mean vs. Variance  (0) 2021.10.20
Count data distribution  (0) 2021.10.17
Regression error  (0) 2021.07.04
Multiple test correction  (0) 2021.06.10
ANOVA  (0) 2021.06.08

댓글