본문 바로가기

stats15

Bayesian inference Bayesian inference는 Bayes' theorem을 이용하여 증거나 정보를 이용하여 가설에 대한 확률을 업데이트하는 통계적 추론을 하는 방법이다. 확률이 있는 곳에 bayesian inference가 있다고 생각하면 된다. 이때의 확률을 Bayesian probability라고 한다. Bayes' theorem을 알아보자. where X라는 정보를 알고 있거나 주어졌을 때, 일어날 수 있는 사건에 대한 확률을 구하는 방법이다. Properties Reference - https://en.wikipedia.org/wiki/Bayesian_inference - 2020. 8. 3.
Discrete probability distribution Discrete probability에 대한 lineage를 그려 보았다. 2020. 7. 7.
Sampling 데이터 분석을 하다보면 sampling을 해야할 상황이 많다. 그러다보면 terminology를 명확히 할 필요가 있다. Random sampling(probability sampling)이란 가정을 많이 한다. 이것은 population의 distribution을 알고 있을 때, 즉 전체 sample이 얼만큼 있는지 알고 있을 때, random하게 sample을 뽑는다. 이렇게 선택된 sample이 population을 대표할 수 있다면 가장 좋은 sampling이 되는 것이고, 그렇지 못할 경우 variation은 sampling error가 된다. Random assignment는 random하게 선택한 상태에 따라 labeling하는 것이다. 예를 들어, 동전을 던져 앞면이 나오면 control .. 2020. 6. 30.
Linear vs Nonlinear Model Linear model : Regression linear model은 함수가 어떤 형태인가가 아닌, 예측하고자 하는 parameter들이 linear인 model이다. Regression model로 이차함수를 생각해 보자. 위 식에서 estimate하려는 값은 beta0과 beta1이므로 linear model이다. 위 식은 parameter인 beta1, beta2 값이 non-linear하기 때문에 Nonlinear model이다. Reference - https://statisticsbyjim.com/regression/difference-between-linear-nonlinear-regression-models/ 2020. 6. 24.
Predicted R-square Predicted R-square는 새로운 데이터에 대해서 모델(regression line)이 얼마나 잘 예측하는지 나타내주는 지표이며 overfitting을 판단하는데 활용할 수 있다. 전체 variance에 대한 비교값으로 PRESS(Prediction sum of square)를 사용한다. 이것은 leave-one-out technique으로 관측된 i번째 포인트를 제외하고 regression line을 구한 뒤 xi에 해당하는 예측값(regressionn line의 yhi값)과 yi 값의 차이를 제곱하여 모든 i번째 값에 대해 구해준 값을 더하여 정의한다. 모든 x에 대해서 계산하기 때문에 오래 걸린다. 이것과 equivalent하게 전체 데이터에 대한 예측값과 측정값으로 정의할 수 있다. hi.. 2020. 5. 29.
F-statistics Reference - Best Fit Lines & Curves: And Some Mathe-Magical Transformations 2020. 5. 28.
Adjusted R-square Adjusted R-square는 독립변수의 수가 다른 모형을 비교할 때 사용한다. 그 이유는 다음과 같다. Regression model의 R-square를 구했다고 생각해보자. 이때 독립변수(machine learning 용어는 feature)를 증가시키면 R-square는 계속 증가하게 된다. Constant feature들을 넣는게 아니면 R-square의 정의에 따라 R-square값은 계속해서 증가하게 된다. 독립변수들이 많아져 R-square가 증가하면 좋은 model이라고 할 수 있을까? 추가된 변수들이 많아져 R-sqaure 값이 높으면 실제로 model과 맞지 않는데 맞다고 생각할 수 있다. 또한 overfitting으로 생각할 수도 있다. 이를 보정하고자 feature(p)의 수를 고.. 2020. 5. 28.
Prediction Interval 기본적인 개념은 예측한 모델이 있을 때, 새로운 데이터는 원하는 confidence level로 구한 prediction interval 내에서 값을 가진다는 것이다. 2020.05.25 - [Statistics] - Confidence Interval Confidence interval과의 차이는 confidence interval은 population의 mean값의 confidence를 주는 것이고, prediction interval은 모델에 대해 새로운 데이터가 가지게 될 예측값의 confidence를 주는 것이다. Prediction interval은 mean값과 달리 point값을 예측하는 것이기 때문에 큰 uncertainty를 포함하고 있어 confidence interval에 비해 int.. 2020. 5. 28.
Standard error of estimate and R-square Standard error of estimate는 예측 모델의 값(보통 regression line)과 관측된 값이 평균적으로 얼마나 차이나는지를 나타내는 값이다. 보통 sigma로 표기하며 각 x값에 해당하는 관측값 yi와 regression line에서의 값 yhi의 차이를 제곱하여 더하고 자유도로 나눈 값의 square root로 정의된다. R-square는 gooness-of-fit의 measure로 사용된다. R-square는 관측된 값 yi와 관측된 값들의 평균값 yb과의 차이(total variance)에 비해, 예측된 모델(regression line)의 값과 관측값에 차이(variance explained by model)가 얼마나 나는지 말해주는 지표이다. 다시말해, R-square는 .. 2020. 5. 28.
Effect 통계 분석과정에서 Effect 또는 effect size라는 말을 보게 된다. 이 용어 또한 population에서 정의되는 용어이다. 다음은 자주 방문하는 사이트에서 나오는 effect 용어에 대한 설명이다. ------------------- 효과(effect)는 실제 모집단 모수와 귀무 가설 값 사이의 차이다. 효과는 인구효과 또는 차이라고도 한다. 예를 들어, 치료 그룹과 대조군의 건강 결과 사이의 평균 차이는 효과다. 실제 모집단 모수는 알려져 있지 않다. 따라서 표본을 추출하고 t-검정 또는 일원 분산 분석과 같은 통계적 검정은 효과(effect)가 있는지 여부를 결정하고 그 크기를 추정한다. From https://statisticsbyjim.com/glossary/effect/ ------.. 2020. 5. 26.
Confidence Interval 우리가 다루는 대부분의 데이터는 sample 데이터라고 할 수 있다. 다시말해, sample 데이터는 보통 크기가 충분하지 않아 global한 feature를 보기에는 한계가 있다. sample 단위에서 population의 global한 feature를 보고자 다양한 distribution이 나오게 되었고, 여러 통계적 개념이 정의되었다. 중요한 지표 중 하나인 confidence interval은 sample 데이터로부터 global한 description을 어느 정도로 할 수 있는지 이야기해준다. 과정은 다음과 같다. 우리는 population의 mean 값을 알 수 없으니 여러 sample 데이터들의 mean값을 구하게 된다. sample들의 mean값이 많아지면 이또한 distribution을 .. 2020. 5. 25.
Goodness-of-fit test Goodness-of-fit test라 하면 비교하고 싶은 모델에 관측된 데이터가 얼마나 잘 맞는지 확인하는 작업이다. Poisson distribution : 포아송 분포는 확률론에서 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포이다. : 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값을 λ 라고 했을 때, 그 사건이 n회 일어날 확률은 다음과 같다. (λ=np) [WIKIPEDIA] 정해진 시간 안에 발생한 event가 poisson distribution을 따른다고 가정했을 때, expectation value를 구할 수 있고 observed value와 expected value를 chi-square goodness-of-fit test를 통해 observe.. 2020. 5. 19.
Systematic and Chance factor 체계적 요인(systematic factor)은 관측치의 부분군에 예측 가능한 이점에 기여하는 영향이다. - 활동적인 노인들의 장수. - 신약을 복용하는 사람들에게 주는 건강상의 이점. 우연 인자(chance factor)는 각 관측치에 무작위로 기여하는 영향이며, 예측할 수 없다. - 측정 오차. * https://dspace.mit.edu/bitstream/handle/1721.1/58674/9-63-fall-2005/contents/lecture-notes/3c_stat_t_tst.pdf 2020. 5. 19.
Chances and Probability - 우연(chance)이란 우리가 사건이 일어나는 상황에 대해 말하는 일상적인 단어인 반면, 확률(probability)은 그 기회에 대한 정확한 측정이다. - 확률(probaility)은 사람들이 사건이 일어날 확률을 결정하는 데 도움을 주는 수학의 특별한 한 분야인 반면, 사건이 일어날 확률(chance)은 단지 의견일 뿐이다. * https://www.differencebetween.com/difference-between-probability-and-vs-chance/ 2020. 5. 19.
Random and independent samples - 표본은 모집단의 모든 요소가 동일하게 표본 추출에 적합할 경우 랜덤이며, 이는 우연과 우연만으로 표본에 포함되는 요소를 결정한다는 것을 의미한다. - 표본 추출 가능성이 이미 표본 추출된 요소에 의해 영향을 받지 않는 경우 표본은 독립적이다. - 표본 추출 과정이 정말로 무작위적이고 독립적인 경우, 표본은 기초 모집단의 가장 대표적인 요소를 반영할 것으로 예상된다. 예제) - 당신이 미국의 모든 대학생들의 평균 연령에 관심이 있다고 상상해보라. - 편의상, 이번 학기에 대학교에서 제공하는 각 학급에서 무작위로 한 명의 학생을 선발하기로 결정한다. - 원래 관심 모집단(미국의 모든 대학생)과 관련하여, 당신의 표본은 무작위로 추출되지 않는다. 왜냐하면 당신 대학의 학생들만 표본으로 추출할 수 있기 때문.. 2020. 5. 19.