Count data로 모델링을 할 때, 어떤 distribution을 가정할 것인가를 판단하기 위해 확인하는 값이다.
Poisson distribution의 경우 평균과 분산이 같을 때 사용하기 적합하고, Negative Binomial distribution은 분산이 더 큰, over-dispersed data에 적합하다.
2021.10.17 - [R] - [R] Count data distribution
data <- data.frame(fread("TCGA-KICH_HTSeq_Counts.tsv"), check.names=FALSE, row.names='gene_id')
subdata <- data[,6:8]
mean_counts <- apply(subdata, 1, mean)
variance_counts <- apply(subdata, 1, var)
df <- data.frame(mean_counts, variance_counts)
ggplot(df) +
geom_point(aes(x=mean_counts, y=variance_counts), alpha=0.1) +
scale_y_log10(limits = c(1e-1,1e10)) +
scale_x_log10(limits = c(1e-1,1e10)) +
geom_abline(intercept = 0, slope = 1, color="red")
'Statistics' 카테고리의 다른 글
Post Hoc tests (0) | 2021.12.16 |
---|---|
Count data distribution (0) | 2021.10.17 |
Correlation coefficient (0) | 2021.08.19 |
Regression error (0) | 2021.07.04 |
Multiple test correction (0) | 2021.06.10 |
댓글