본문 바로가기

Statistics29

Post Hoc tests Reference - Comparison of post hoc tests for unequal variance ,https://www.ijntse.com/upload/1447070311130.pdf 2021. 12. 16.
Mean vs. Variance Count data로 모델링을 할 때, 어떤 distribution을 가정할 것인가를 판단하기 위해 확인하는 값이다. Poisson distribution의 경우 평균과 분산이 같을 때 사용하기 적합하고, Negative Binomial distribution은 분산이 더 큰, over-dispersed data에 적합하다. 2021.10.17 - [R] - [R] Count data distribution data 2021. 10. 20.
Count data distribution Poisson vs. Negative Binomial distribution Poisson distribution, \( Pois(\lambda) \) : 일정한 간격 동안 이벤트가 발생할 확률로 정의한다. - Parameter : \( X = k \) (이벤트의 발생 횟수), \( \lambda \) ( \( = E(X) = Var(X) \) ) (이벤트 발생 확률) $$ f(k; \lambda) = Pr(X=k) = \frac{\lambda^k e^{-\lambda}}{k!} . $$ \( \lambda = r t \) : r 은 단위 시간당 이벤트 수로도 계산이 가능하다. 더보기 library(tidyverse) x.values 2021. 10. 17.
Correlation coefficient 데이터셋의 비교는 기본적으로 두 확률변수의 linear관계를 확인하는 covariance 를 보는 것이다. 하지만 covariance 를 비교하면 데이터의 scale에 따라 다른 결과를 주게된다. 이를 분산으로 나누어 normailzed 값이 correlation coefficient이며, 데이터의 방향과 정도를 확인할 수 있다. Correlation coefficient를 구하는 3가지 방법에 대해 정리해 본다. - Pearson's correlation coefficient ( value ) - Spearman's correlation coefficient ( rank ) - Kendall rank correlation coefficient ( rank ) Pearson's correlation co.. 2021. 8. 19.
Regression error - Mean Absolute Error, np.mean(np.abs((y_true - y_pred))), is related to Least Absolute Deviations or L1-norm. - Mean Squared Error, np.mean(np.square((y_true - y_pred))). - Root Mean Squared Error, np.sqrt(MSE(y_true, y_pred)), is called as Euclidean norm or L2-norm. - Mean Absolute Percentage Error, np.mean(np.abs((y_true - y_pred) / y_true)) * 100. - Mean Percentage Error, np.mean((y_true - y.. 2021. 7. 4.
Multiple test correction 2020.11.30 - [Statistics] - P-value 2020.10.26 - [Statistics] - FDR : False Discovery Rate FWER, Family-wise error rate = Pr(FP ≥ 1) : false positive를 적어도 한개 이상 가지고 있을 확률. Significance level을 alpha 로 놓고 m번의 테스트가 있을 때, false positive 적어도 한 개 이상을 가지고 있을 확율은 다음과 같다. 이렇게 되면 테스트가 많을 수록 FWER이 높아지게 된다. 즉, 허용하는 false positive 많다는 얘기다. False positive를 줄이기 위해 Bonferronni limit을 적용하여 FWER을 고정하는 방법이 있다. 위 방.. 2021. 6. 10.
ANOVA ANOVA (ANalysis Of VAriance) : 둘 이상 샘플들(그룹들)을 서로 비교하고자 할 때 집단 내의 분산, 총평균 그리고 각 집단의 평균의 차이에 의해 생긴 집단 간 분산의 비교를 통해 만들어진 F분포를 이용하여 가설검정을 하는 방법이다. https://en.wikipedia.org/wiki/Analysis_of_variance ANOVA는 Machine learning의 classification문제와 동일하다. Statistics Machine Learning 입력값 Instance, X 입력변수, 1개 One-way ANOVA, 2개 Two-way ANOVA, 2개 이상 MANOVA Feature, X.columns 그룹 Y 두 샘플의 비교부터 알아보자. T-test 두 샘플을 비교.. 2021. 6. 8.
Fisher's exact test Fisher's exact test - for small samples - categorical data * Chi-squre test is for large samples. It means that it is an approximation of Fisher's exact test. 위와 같은 데이터가 있다고 하자. 구하고자 하는 것은 다음과 같다. "전체 샘플18명에서 7명을 선택했을 때, case 8명 중에서 positive인 3명과 control 10명 중에 positive 4명을 선택할 확률은 얼마나 될 것인가?" 이런 경우 Fisher's exact test를 적용하게 된다. Pr(K = 7) = ( 8c3 * 10c4 ) / 18c7 달리말해, Hypergeometric distribution.. 2021. 6. 1.
SKAT-O SKAT-O (Optimized SKAT) : optimize the statistical result between Burden test and SKAT. : the optimization parameter is ρ. (ρ=1: burden test, ρ=0: SKAT) : Optimized SKAT (SKAT-O) is a procedure which optimizes Generalized SKAT over a grid of N values of ρ between zero and 1, inclusive, in such a way as to count as only one test for multiple testing purposes instead of as N tests. (In Golden Heli.. 2021. 1. 6.
P-value P-value : the probability that observing something more “extreme” than the data under the null hypothesis. : the probability that 1) random chance generated the data, or 2) something else that is equal or 3) rarer. Significance test : To test whether the hypothesis is tenable or not. Descriptive statistics : Information from the data Inferential statistics : Information of population infered by .. 2020. 11. 30.
FDR : False Discovery Rate False discovery rate, FDR,이란 통계적 평가에서 type I error, 즉 Posive 중에 false positive가 얼만큼 나왔는가에 대한 지표이다. 다시 말해 유의한 결과를 찾은 것들 중에서 실제로 유의하지 않은 것들의 비율이다. FDR은 conditional probability인 Bayesian inference이며, 수식은 다음과 같다. FDR = P( not ill | test pos ) = P( test pos | not ill ) P( not ill ) / P( test pos ) where P( test pos ) = P( test pos | not ill) P( not ill ) + P( test pos | ill ) P( ill ). Positive로 판명된 .. 2020. 10. 26.
Confusion matrix 모델에 대한 평가를 하다보면, 평가지표인 accuracy, precision, recall(=sensitivity), specificity 라는 용어를 보게된다. 보통은 2x2 confusion matrix에서 계산하지만 그 이상의 사이즈를 가진 matrix에 대해서도 계산하는 방법을 소개하겠다. 위 2x2 confusion matrix에서는 case를 기준으로 한다. True or False ? True는 실제와 예상되는 결과나 실험 결과가 일치할 경우를 이야기한다. False는 일치하지 않는 경우이다. Positive or Negative ? Positive는 예상되는 결과가 positive인 경우, 즉 case라고 예상됨을 이야기한다. Negative는 예상되는 결과가 case가 아닌, 다시말해 예.. 2020. 10. 25.
Geometric mean Geometric mean : 기하평균 기하평균은 곱셈으로 계산하는 값들의 평균을 구할 때 사용한다. 예를 들어 해가 지남에 따라 어떠한 비율로 증가하거나 감소하는 값들이, 그 기간동아 얼만큼 증가 또는 감소하였는지 평균값을 구할 때 사용한다. 기하평균은 한쪽으로 치우쳐 있는 데이터의 extreme value에 대해서 영향을 덜 받는다. Relationship을 계산하는 프로그램인 KING 에서 relatedness coefficient를 계산하기 위해 mean 값(within family)과 minimum 값(btw family relatedness)을 사용하였고, 같은 알고리즘을 사용하지만 PEDDY 라는 프로그램에서는 mis-specified family 정보에 대해서 geometric mean을 .. 2020. 10. 19.
Bayesian inference Bayesian inference는 Bayes' theorem을 이용하여 증거나 정보를 이용하여 가설에 대한 확률을 업데이트하는 통계적 추론을 하는 방법이다. 확률이 있는 곳에 bayesian inference가 있다고 생각하면 된다. 이때의 확률을 Bayesian probability라고 한다. Bayes' theorem을 알아보자. where X라는 정보를 알고 있거나 주어졌을 때, 일어날 수 있는 사건에 대한 확률을 구하는 방법이다. Properties Reference - https://en.wikipedia.org/wiki/Bayesian_inference - 2020. 8. 3.
Discrete probability distribution Discrete probability에 대한 lineage를 그려 보았다. 2020. 7. 7.
Sampling 데이터 분석을 하다보면 sampling을 해야할 상황이 많다. 그러다보면 terminology를 명확히 할 필요가 있다. Random sampling(probability sampling)이란 가정을 많이 한다. 이것은 population의 distribution을 알고 있을 때, 즉 전체 sample이 얼만큼 있는지 알고 있을 때, random하게 sample을 뽑는다. 이렇게 선택된 sample이 population을 대표할 수 있다면 가장 좋은 sampling이 되는 것이고, 그렇지 못할 경우 variation은 sampling error가 된다. Random assignment는 random하게 선택한 상태에 따라 labeling하는 것이다. 예를 들어, 동전을 던져 앞면이 나오면 control .. 2020. 6. 30.
Linear vs Nonlinear Model Linear model : Regression linear model은 함수가 어떤 형태인가가 아닌, 예측하고자 하는 parameter들이 linear인 model이다. Regression model로 이차함수를 생각해 보자. 위 식에서 estimate하려는 값은 beta0과 beta1이므로 linear model이다. 위 식은 parameter인 beta1, beta2 값이 non-linear하기 때문에 Nonlinear model이다. Reference - https://statisticsbyjim.com/regression/difference-between-linear-nonlinear-regression-models/ 2020. 6. 24.
Predicted R-square Predicted R-square는 새로운 데이터에 대해서 모델(regression line)이 얼마나 잘 예측하는지 나타내주는 지표이며 overfitting을 판단하는데 활용할 수 있다. 전체 variance에 대한 비교값으로 PRESS(Prediction sum of square)를 사용한다. 이것은 leave-one-out technique으로 관측된 i번째 포인트를 제외하고 regression line을 구한 뒤 xi에 해당하는 예측값(regressionn line의 yhi값)과 yi 값의 차이를 제곱하여 모든 i번째 값에 대해 구해준 값을 더하여 정의한다. 모든 x에 대해서 계산하기 때문에 오래 걸린다. 이것과 equivalent하게 전체 데이터에 대한 예측값과 측정값으로 정의할 수 있다. hi.. 2020. 5. 29.
F-statistics Reference - Best Fit Lines & Curves: And Some Mathe-Magical Transformations 2020. 5. 28.
Adjusted R-square Adjusted R-square는 독립변수의 수가 다른 모형을 비교할 때 사용한다. 그 이유는 다음과 같다. Regression model의 R-square를 구했다고 생각해보자. 이때 독립변수(machine learning 용어는 feature)를 증가시키면 R-square는 계속 증가하게 된다. Constant feature들을 넣는게 아니면 R-square의 정의에 따라 R-square값은 계속해서 증가하게 된다. 독립변수들이 많아져 R-square가 증가하면 좋은 model이라고 할 수 있을까? 추가된 변수들이 많아져 R-sqaure 값이 높으면 실제로 model과 맞지 않는데 맞다고 생각할 수 있다. 또한 overfitting으로 생각할 수도 있다. 이를 보정하고자 feature(p)의 수를 고.. 2020. 5. 28.
Prediction Interval 기본적인 개념은 예측한 모델이 있을 때, 새로운 데이터는 원하는 confidence level로 구한 prediction interval 내에서 값을 가진다는 것이다. 2020.05.25 - [Statistics] - Confidence Interval Confidence interval과의 차이는 confidence interval은 population의 mean값의 confidence를 주는 것이고, prediction interval은 모델에 대해 새로운 데이터가 가지게 될 예측값의 confidence를 주는 것이다. Prediction interval은 mean값과 달리 point값을 예측하는 것이기 때문에 큰 uncertainty를 포함하고 있어 confidence interval에 비해 int.. 2020. 5. 28.
Standard error of estimate and R-square Standard error of estimate는 예측 모델의 값(보통 regression line)과 관측된 값이 평균적으로 얼마나 차이나는지를 나타내는 값이다. 보통 sigma로 표기하며 각 x값에 해당하는 관측값 yi와 regression line에서의 값 yhi의 차이를 제곱하여 더하고 자유도로 나눈 값의 square root로 정의된다. R-square는 gooness-of-fit의 measure로 사용된다. R-square는 관측된 값 yi와 관측된 값들의 평균값 yb과의 차이(total variance)에 비해, 예측된 모델(regression line)의 값과 관측값에 차이(variance explained by model)가 얼마나 나는지 말해주는 지표이다. 다시말해, R-square는 .. 2020. 5. 28.
Effect 통계 분석과정에서 Effect 또는 effect size라는 말을 보게 된다. 이 용어 또한 population에서 정의되는 용어이다. 다음은 자주 방문하는 사이트에서 나오는 effect 용어에 대한 설명이다. ------------------- 효과(effect)는 실제 모집단 모수와 귀무 가설 값 사이의 차이다. 효과는 인구효과 또는 차이라고도 한다. 예를 들어, 치료 그룹과 대조군의 건강 결과 사이의 평균 차이는 효과다. 실제 모집단 모수는 알려져 있지 않다. 따라서 표본을 추출하고 t-검정 또는 일원 분산 분석과 같은 통계적 검정은 효과(effect)가 있는지 여부를 결정하고 그 크기를 추정한다. From https://statisticsbyjim.com/glossary/effect/ ------.. 2020. 5. 26.
Confidence Interval 우리가 다루는 대부분의 데이터는 sample 데이터라고 할 수 있다. 다시말해, sample 데이터는 보통 크기가 충분하지 않아 global한 feature를 보기에는 한계가 있다. sample 단위에서 population의 global한 feature를 보고자 다양한 distribution이 나오게 되었고, 여러 통계적 개념이 정의되었다. 중요한 지표 중 하나인 confidence interval은 sample 데이터로부터 global한 description을 어느 정도로 할 수 있는지 이야기해준다. 과정은 다음과 같다. 우리는 population의 mean 값을 알 수 없으니 여러 sample 데이터들의 mean값을 구하게 된다. sample들의 mean값이 많아지면 이또한 distribution을 .. 2020. 5. 25.
Goodness-of-fit test Goodness-of-fit test라 하면 비교하고 싶은 모델에 관측된 데이터가 얼마나 잘 맞는지 확인하는 작업이다. Poisson distribution : 포아송 분포는 확률론에서 단위 시간 안에 어떤 사건이 몇 번 발생할 것인지를 표현하는 이산 확률 분포이다. : 정해진 시간 안에 어떤 사건이 일어날 횟수에 대한 기댓값을 λ 라고 했을 때, 그 사건이 n회 일어날 확률은 다음과 같다. (λ=np) [WIKIPEDIA] 정해진 시간 안에 발생한 event가 poisson distribution을 따른다고 가정했을 때, expectation value를 구할 수 있고 observed value와 expected value를 chi-square goodness-of-fit test를 통해 observe.. 2020. 5. 19.
Sampling error - 표본 추출 오류(sampling error)는 랜덤 표본의 통계와 실제 모집단 값 사이의 불일치를 의미한다. 그러나 이 "오류"는 단순히 모집단의 어떤 요소가 표본에 속하게 되는가에 기인한다. - 즉, 표본오차는 자연적인 우연인자를 말하는 것이지, 설계가 부실하고 실행이 잘 안 되어 있는 실험에 의한 측정오류나 오류는 아니다. - 우리는 실험의 실행을 통제할 수 있지만, 자연적인 것은 어느 정도 피할 수 없는 오류를 범한다. 예제) - 샘플링 오류의 예시: 코인을 6번 던지고 {HHHHHH}를 획득하였다. - 코인의 앞면이 50% 나올 것으로 예상하는데, 무엇이 잘못되었는가? - 총 N = 64개의 가능성이 있지만, 20개만이 정확히 3개의 앞면과 3개의 뒷면을 포함하고 있다. 이와는 대조적으로 정확.. 2020. 5. 19.
Systematic and Chance factor 체계적 요인(systematic factor)은 관측치의 부분군에 예측 가능한 이점에 기여하는 영향이다. - 활동적인 노인들의 장수. - 신약을 복용하는 사람들에게 주는 건강상의 이점. 우연 인자(chance factor)는 각 관측치에 무작위로 기여하는 영향이며, 예측할 수 없다. - 측정 오차. * https://dspace.mit.edu/bitstream/handle/1721.1/58674/9-63-fall-2005/contents/lecture-notes/3c_stat_t_tst.pdf 2020. 5. 19.
Chances and Probability - 우연(chance)이란 우리가 사건이 일어나는 상황에 대해 말하는 일상적인 단어인 반면, 확률(probability)은 그 기회에 대한 정확한 측정이다. - 확률(probaility)은 사람들이 사건이 일어날 확률을 결정하는 데 도움을 주는 수학의 특별한 한 분야인 반면, 사건이 일어날 확률(chance)은 단지 의견일 뿐이다. * https://www.differencebetween.com/difference-between-probability-and-vs-chance/ 2020. 5. 19.
Random and independent samples - 표본은 모집단의 모든 요소가 동일하게 표본 추출에 적합할 경우 랜덤이며, 이는 우연과 우연만으로 표본에 포함되는 요소를 결정한다는 것을 의미한다. - 표본 추출 가능성이 이미 표본 추출된 요소에 의해 영향을 받지 않는 경우 표본은 독립적이다. - 표본 추출 과정이 정말로 무작위적이고 독립적인 경우, 표본은 기초 모집단의 가장 대표적인 요소를 반영할 것으로 예상된다. 예제) - 당신이 미국의 모든 대학생들의 평균 연령에 관심이 있다고 상상해보라. - 편의상, 이번 학기에 대학교에서 제공하는 각 학급에서 무작위로 한 명의 학생을 선발하기로 결정한다. - 원래 관심 모집단(미국의 모든 대학생)과 관련하여, 당신의 표본은 무작위로 추출되지 않는다. 왜냐하면 당신 대학의 학생들만 표본으로 추출할 수 있기 때문.. 2020. 5. 19.