일반적으로 RNA-seq data는 DEG분석 (Differential expression analysis)를 하기에 앞서 정규화(normalization) 된다.
RNASeq normalization은 다음의 이유로 사용된다.
- 샘플간의 비교
- 유전자(Gene)의 비교
- 통계 모델을 RNASeq 데이터에 대해 사용하기 위해
RPKM:Reads (Fragments) Per Kilobase per Million(mappeD)은 샘플간, 혹은 샘플에서 유전자들간의 비교를 위해 고안되었다. (or paired-end equivalent FPKM)
인용수가 엄청난 이 논문은 Sequencing depth와 Gene, transcript의 길이에 대해서 raw count들의 수치를 보정한다.
RPKM이 RNA-seq 데이터에 대해 가장 많이 사용되는 방법이지만, 다른 편향들이 생길 수 있는것에 대해서 다른 method들도 여러가지 공개되어있다.
TPM(transcripts per million)은 R/FPKM과 비슷하지만 RNA population에서 transcript length의 분포까지 설명한다.
이 방법 없이는, 다른 transcript length distribution을 가지는 두 RNA pools를 비교할 때 bias가 생길 수 있다.
TMM(Trimmed menas of M values)도 TPM과 마찬가지로 비교하고자 하는 RNA pools의 다른 조성에 대해 보정한다.
차이점?
TMM은 TPM이나 R/FPKM과 다르게 하나의 sample에서는 사용될 수 없다. 샘플간의 normalization method이다. 따라서 각 샘플간의 차이를 나타내는 Correction factor는 비교하고자 하는 sample이 바뀔 때마다 다시 계산해주어야 한다. 하지만 R/FPKM과 TPM normalization method에서 normalization 하고자 하는 샘플은 다른 샘플에 대해서 영향을 전혀 받지 않기 때문에 한번 normalization이 된 샘플을 계속 재사용할 수 있다.
또다른 TMM의 특징은 transcriptl ength를 전혀 고려하지 않는다. 하지만 일반적으로 다른 condition에 대해 같은 transcript를 비교하는 샘플간의 DEG분석에 있어서 transcript length가 항상 동일하기 때문에 이는 전혀 문제가 되지 않는다.
위 논문에서 더 자세한 내용을 많이 다루고 있다.
'Major Study. > Bioinformatics' 카테고리의 다른 글
ORF vs Coding sequence (cds) 차이점 (3) | 2015.06.13 |
---|---|
R에서의 Ensembl IDs와 Entrez IDs (0) | 2015.05.29 |
Gene Expression data로부터 PCA 분석하기 (0) | 2015.05.01 |
Burrow-wheeler transform 쉽게 이해하기 (0) | 2015.04.22 |
생물정보학을 위한 IT 기초 - MYSQL (0) | 2015.04.22 |