본문 바로가기
Statistics

Mean vs. Variance

by wycho 2021. 10. 20.

Count data로 모델링을 할 때, 어떤 distribution을 가정할 것인가를 판단하기 위해 확인하는 값이다.

 

Poisson distribution의 경우 평균과 분산이 같을 때 사용하기 적합하고, Negative Binomial distribution은 분산이 더 큰, over-dispersed data에 적합하다.

 

2021.10.17 - [R] - [R] Count data distribution

 

data <- data.frame(fread("TCGA-KICH_HTSeq_Counts.tsv"), check.names=FALSE, row.names='gene_id')
subdata <- data[,6:8]

mean_counts <- apply(subdata, 1, mean) 
variance_counts <- apply(subdata, 1, var)
df <- data.frame(mean_counts, variance_counts)

ggplot(df) +
  geom_point(aes(x=mean_counts, y=variance_counts), alpha=0.1) + 
  scale_y_log10(limits = c(1e-1,1e10)) +
  scale_x_log10(limits = c(1e-1,1e10)) +
  geom_abline(intercept = 0, slope = 1, color="red")

 

 

 

 

'Statistics' 카테고리의 다른 글

Post Hoc tests  (0) 2021.12.16
Count data distribution  (0) 2021.10.17
Correlation coefficient  (0) 2021.08.19
Regression error  (0) 2021.07.04
Multiple test correction  (0) 2021.06.10

댓글