Adjusted R-square는 독립변수의 수가 다른 모형을 비교할 때 사용한다. 그 이유는 다음과 같다.
Regression model의 R-square를 구했다고 생각해보자. 이때 독립변수(machine learning 용어는 feature)를 증가시키면 R-square는 계속 증가하게 된다. Constant feature들을 넣는게 아니면 R-square의 정의에 따라 R-square값은 계속해서 증가하게 된다. 독립변수들이 많아져 R-square가 증가하면 좋은 model이라고 할 수 있을까? 추가된 변수들이 많아져 R-sqaure 값이 높으면 실제로 model과 맞지 않는데 맞다고 생각할 수 있다. 또한 overfitting으로 생각할 수도 있다. 이를 보정하고자 feature(p)의 수를 고려하는 것이 adjusted R-square다.
where
Feature의 수 p를 증가시키다 보면 adjusted R-square값은 증가하다가 어느 시점에서 떨어지는 p값이 있을 것이다. R-square의 max가 되는 p값으로부터 overfitting이나 insignificant한 feature의 수를 찾아 고려하여 분석할 수 있다.
Adjust R-square와 함께 봐야하는 것은 standard error of estimate값과 residual plot이며, 모델의 적합성을 판단하는데 도움이 된다.
Reference
- https://www.listendata.com/2014/08/adjusted-r-squared.html
- https://statisticsbyjim.com/regression/interpret-adjusted-r-squared-predicted-r-squared-regression/
- https://en.wikipedia.org/wiki/Coefficient_of_determination
- https://statisticsbyjim.com/anova/f-tests-anova/
'Statistics' 카테고리의 다른 글
Predicted R-square (0) | 2020.05.29 |
---|---|
F-statistics (0) | 2020.05.28 |
Prediction Interval (0) | 2020.05.28 |
Standard error of estimate and R-square (0) | 2020.05.28 |
Effect (0) | 2020.05.26 |
댓글