Predicted R-square는 새로운 데이터에 대해서 모델(regression line)이 얼마나 잘 예측하는지 나타내주는 지표이며 overfitting을 판단하는데 활용할 수 있다. 전체 variance에 대한 비교값으로 PRESS(Prediction sum of square)를 사용한다. 이것은 leave-one-out technique으로 관측된 i번째 포인트를 제외하고 regression line을 구한 뒤 xi에 해당하는 예측값(regressionn line의 yhi값)과 yi 값의 차이를 제곱하여 모든 i번째 값에 대해 구해준 값을 더하여 정의한다.
모든 x에 대해서 계산하기 때문에 오래 걸린다. 이것과 equivalent하게 전체 데이터에 대한 예측값과 측정값으로 정의할 수 있다.
hii는 i번째 digonal element이다.
Reference
- A Note on the Prediction Sum of Squares Statistic for Restricted Least Squares, https://www.jstor.org/stable/2686028
- https://statisticsbyjim.com/regression/interpret-adjusted-r-squared-predicted-r-squared-regression/
'Statistics' 카테고리의 다른 글
Sampling (0) | 2020.06.30 |
---|---|
Linear vs Nonlinear Model (0) | 2020.06.24 |
F-statistics (0) | 2020.05.28 |
Adjusted R-square (0) | 2020.05.28 |
Prediction Interval (0) | 2020.05.28 |
댓글