본문 바로가기

전체 글225

Predicted R-square Predicted R-square는 새로운 데이터에 대해서 모델(regression line)이 얼마나 잘 예측하는지 나타내주는 지표이며 overfitting을 판단하는데 활용할 수 있다. 전체 variance에 대한 비교값으로 PRESS(Prediction sum of square)를 사용한다. 이것은 leave-one-out technique으로 관측된 i번째 포인트를 제외하고 regression line을 구한 뒤 xi에 해당하는 예측값(regressionn line의 yhi값)과 yi 값의 차이를 제곱하여 모든 i번째 값에 대해 구해준 값을 더하여 정의한다. 모든 x에 대해서 계산하기 때문에 오래 걸린다. 이것과 equivalent하게 전체 데이터에 대한 예측값과 측정값으로 정의할 수 있다. hi.. 2020. 5. 29.
F-statistics Reference - Best Fit Lines & Curves: And Some Mathe-Magical Transformations 2020. 5. 28.
Adjusted R-square Adjusted R-square는 독립변수의 수가 다른 모형을 비교할 때 사용한다. 그 이유는 다음과 같다. Regression model의 R-square를 구했다고 생각해보자. 이때 독립변수(machine learning 용어는 feature)를 증가시키면 R-square는 계속 증가하게 된다. Constant feature들을 넣는게 아니면 R-square의 정의에 따라 R-square값은 계속해서 증가하게 된다. 독립변수들이 많아져 R-square가 증가하면 좋은 model이라고 할 수 있을까? 추가된 변수들이 많아져 R-sqaure 값이 높으면 실제로 model과 맞지 않는데 맞다고 생각할 수 있다. 또한 overfitting으로 생각할 수도 있다. 이를 보정하고자 feature(p)의 수를 고.. 2020. 5. 28.
Prediction Interval 기본적인 개념은 예측한 모델이 있을 때, 새로운 데이터는 원하는 confidence level로 구한 prediction interval 내에서 값을 가진다는 것이다. 2020.05.25 - [Statistics] - Confidence Interval Confidence interval과의 차이는 confidence interval은 population의 mean값의 confidence를 주는 것이고, prediction interval은 모델에 대해 새로운 데이터가 가지게 될 예측값의 confidence를 주는 것이다. Prediction interval은 mean값과 달리 point값을 예측하는 것이기 때문에 큰 uncertainty를 포함하고 있어 confidence interval에 비해 int.. 2020. 5. 28.
Standard error of estimate and R-square Standard error of estimate는 예측 모델의 값(보통 regression line)과 관측된 값이 평균적으로 얼마나 차이나는지를 나타내는 값이다. 보통 sigma로 표기하며 각 x값에 해당하는 관측값 yi와 regression line에서의 값 yhi의 차이를 제곱하여 더하고 자유도로 나눈 값의 square root로 정의된다. R-square는 gooness-of-fit의 measure로 사용된다. R-square는 관측된 값 yi와 관측된 값들의 평균값 yb과의 차이(total variance)에 비해, 예측된 모델(regression line)의 값과 관측값에 차이(variance explained by model)가 얼마나 나는지 말해주는 지표이다. 다시말해, R-square는 .. 2020. 5. 28.
CNN terminology CNN(Convolutional Neural Network)을 공부하다보면 무엇보다 용어에 대한 정리부터 필요하다. 같은 것을 가리키는데 여러개로 불리는 용어도 있다. CNN은 고양이가 사물을 인식할 때 뇌의 일부만이 활성화되는 것을 발견한 것이 출발점이 되었다고 한다. CNN은 이미지의 일부의 특징을 찾아 분류하는 알고리즘이다. CNN의 layer는 크게 4 가지가 있으며, (height, width, channel)로 표현한다. - Convolution layer - Downsampling layer - Flatten layer - Fully connected layer Convolution layer : filter 또는 kernel이라고도 부른다. 이것의 역할은 input 이미지의 특징을 추출하기.. 2020. 5. 27.
Effect 통계 분석과정에서 Effect 또는 effect size라는 말을 보게 된다. 이 용어 또한 population에서 정의되는 용어이다. 다음은 자주 방문하는 사이트에서 나오는 effect 용어에 대한 설명이다. ------------------- 효과(effect)는 실제 모집단 모수와 귀무 가설 값 사이의 차이다. 효과는 인구효과 또는 차이라고도 한다. 예를 들어, 치료 그룹과 대조군의 건강 결과 사이의 평균 차이는 효과다. 실제 모집단 모수는 알려져 있지 않다. 따라서 표본을 추출하고 t-검정 또는 일원 분산 분석과 같은 통계적 검정은 효과(effect)가 있는지 여부를 결정하고 그 크기를 추정한다. From https://statisticsbyjim.com/glossary/effect/ ------.. 2020. 5. 26.
Confidence Interval 우리가 다루는 대부분의 데이터는 sample 데이터라고 할 수 있다. 다시말해, sample 데이터는 보통 크기가 충분하지 않아 global한 feature를 보기에는 한계가 있다. sample 단위에서 population의 global한 feature를 보고자 다양한 distribution이 나오게 되었고, 여러 통계적 개념이 정의되었다. 중요한 지표 중 하나인 confidence interval은 sample 데이터로부터 global한 description을 어느 정도로 할 수 있는지 이야기해준다. 과정은 다음과 같다. 우리는 population의 mean 값을 알 수 없으니 여러 sample 데이터들의 mean값을 구하게 된다. sample들의 mean값이 많아지면 이또한 distribution을 .. 2020. 5. 25.
Goodness-of-fit test Goodness-of-fit test라 하면 비교하고 싶은 모델에 관측된 데이터가 얼마나 잘 맞는지 확인하는 작업이다. Poisson distribution : 포아송 분포는 확률론에서 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포이다. : 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값을 λ 라고 했을 때, 그 사건이 n회 일어날 확률은 다음과 같다. (λ=np) [WIKIPEDIA] 정해진 시간 안에 발생한 event가 poisson distribution을 따른다고 가정했을 때, expectation value를 구할 수 있고 observed value와 expected value를 chi-square goodness-of-fit test를 통해 observe.. 2020. 5. 19.
Sampling error - 표본 추출 오류(sampling error)는 랜덤 표본의 통계와 실제 모집단 값 사이의 불일치를 의미한다. 그러나 이 "오류"는 단순히 모집단의 어떤 요소가 표본에 속하게 되는가에 기인한다. - 즉, 표본오차는 자연적인 우연인자를 말하는 것이지, 설계가 부실하고 실행이 잘 안 되어 있는 실험에 의한 측정오류나 오류는 아니다. - 우리는 실험의 실행을 통제할 수 있지만, 자연적인 것은 어느 정도 피할 수 없는 오류를 범한다. 예제) - 샘플링 오류의 예시: 코인을 6번 던지고 {HHHHHH}를 획득하였다. - 코인의 앞면이 50% 나올 것으로 예상하는데, 무엇이 잘못되었는가? - 총 N = 64개의 가능성이 있지만, 20개만이 정확히 3개의 앞면과 3개의 뒷면을 포함하고 있다. 이와는 대조적으로 정확.. 2020. 5. 19.
Systematic and Chance factor 체계적 요인(systematic factor)은 관측치의 부분군에 예측 가능한 이점에 기여하는 영향이다. - 활동적인 노인들의 장수. - 신약을 복용하는 사람들에게 주는 건강상의 이점. 우연 인자(chance factor)는 각 관측치에 무작위로 기여하는 영향이며, 예측할 수 없다. - 측정 오차. * https://dspace.mit.edu/bitstream/handle/1721.1/58674/9-63-fall-2005/contents/lecture-notes/3c_stat_t_tst.pdf 2020. 5. 19.
Chances and Probability - 우연(chance)이란 우리가 사건이 일어나는 상황에 대해 말하는 일상적인 단어인 반면, 확률(probability)은 그 기회에 대한 정확한 측정이다. - 확률(probaility)은 사람들이 사건이 일어날 확률을 결정하는 데 도움을 주는 수학의 특별한 한 분야인 반면, 사건이 일어날 확률(chance)은 단지 의견일 뿐이다. * https://www.differencebetween.com/difference-between-probability-and-vs-chance/ 2020. 5. 19.
Random and independent samples - 표본은 모집단의 모든 요소가 동일하게 표본 추출에 적합할 경우 랜덤이며, 이는 우연과 우연만으로 표본에 포함되는 요소를 결정한다는 것을 의미한다. - 표본 추출 가능성이 이미 표본 추출된 요소에 의해 영향을 받지 않는 경우 표본은 독립적이다. - 표본 추출 과정이 정말로 무작위적이고 독립적인 경우, 표본은 기초 모집단의 가장 대표적인 요소를 반영할 것으로 예상된다. 예제) - 당신이 미국의 모든 대학생들의 평균 연령에 관심이 있다고 상상해보라. - 편의상, 이번 학기에 대학교에서 제공하는 각 학급에서 무작위로 한 명의 학생을 선발하기로 결정한다. - 원래 관심 모집단(미국의 모든 대학생)과 관련하여, 당신의 표본은 무작위로 추출되지 않는다. 왜냐하면 당신 대학의 학생들만 표본으로 추출할 수 있기 때문.. 2020. 5. 19.
2017 The reproducibility of research and the misinterpretation of p-values David Colquhoun Published:06 December 2017 www.doi.org/10.1098/rsos.171085 Introduction 이 논문의 주요 요점은 의의 테스트가 그것의 특징적으로 귀속되는 심리 현상에 관한 정보를 제공하지 않는다는 것이다. 더욱이, 많은 장난이 그것의 사용과 연관되어 있다는 것이다. 이 신문에서 말할 것은 거의 독창적이지 않다. 그것은, 어떤 의미에서 '모든 사람이 알고 있는 것'이다. 그것을 '큰 소리로'라고 말하는 것은, 그렇듯이 황제가 정말로 속옷만 입고서 옷을 벗어났다고 지적한 아이의 역할을 가정하는 것이다. 이 논문에 수록된 것 중 일부는 이미 문헌에 나와 있지 않으며, 문헌은 인용될 것이다. 바칸[1]. 실험을 했을 때, 당신은 당신이 발견을 .. 2020. 5. 13.
2014 An investigation of the false discovery rate and the misinterpretation of p-values. David Colquhoun Published:01 November 2014 www.doi.org/10.1098/rsos.140216 Abstract p=0.05를 사용하여 발견을 했다고 제안하면 적어도 30%는 틀리게 된다. 흔히 그렇듯이 실험이 힘이 부족하면 대부분 틀리게 된다. 이 결론은 몇 가지 관점에서 증명된다. 첫째, 스크리닝 테스트 문제와 밀접한 유사점을 보여주는 트리 다이어그램이다. 비슷한 결론은 t-test에 의해 도출된다. 반복적인 시뮬레이션 이런 것들은 실제 삶에서 행해지는 것을 흉내내서, 그 결과를 더욱 설득력 있게 만든다. 시뮬레이션 방법은 특히 저전력 실험에서 효과 크기가 과대 추정되는 정도를 평가하는 데도 사용된다. 대본은 독자가 직접 시뮬레이션을 할 수 있도록 제공되며, 자신.. 2020. 5. 10.