Major Study./Bioinformatics

RNASeq normalization 비교 - RPKM/TPM/TMM

sosal 2015. 5. 18. 00:00
반응형

 

/*

 http://sosal.kr/
 * made by so_Sal
 */

 


 

일반적으로 RNA-seq data는 DEG분석 (Differential expression analysis)를 하기에 앞서 정규화(normalization) 된다.

 

RNASeq normalization은 다음의 이유로 사용된다.

- 샘플간의 비교

- 유전자(Gene)의 비교

- 통계 모델을 RNASeq 데이터에 대해 사용하기 위해

 

 

 

 

RPKM:Reads (Fragments) Per Kilobase per Million(mappeD)은 샘플간, 혹은 샘플에서 유전자들간의 비교를 위해 고안되었다. (or paired-end equivalent FPKM)

Mortazavi, Ali, et al. "Mapping and quantifying mammalian transcriptomes by RNA-Seq." Nature methods 5.7 (2008): 621-628

인용수가 엄청난 이 논문은 Sequencing depth와 Gene, transcript의 길이에 대해서 raw count들의 수치를 보정한다.

 

RPKM이 RNA-seq 데이터에 대해 가장 많이 사용되는 방법이지만, 다른 편향들이 생길 수 있는것에 대해서 다른 method들도 여러가지 공개되어있다.

 

TPM(transcripts per million)은 R/FPKM과 비슷하지만 RNA population에서 transcript length의 분포까지 설명한다.

Wagner, Günter P., Koryu Kin, and Vincent J. Lynch. "Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples." Theory in Biosciences 131.4 (2012): 281-285.

이 방법 없이는, 다른 transcript length distribution을 가지는 두 RNA pools를 비교할 때 bias가 생길 수 있다.

 

TMM(Trimmed menas of M values)도 TPM과 마찬가지로 비교하고자 하는 RNA pools의 다른 조성에 대해 보정한다.

Robinson, Mark D., and Alicia Oshlack. "A scaling normalization method for differential expression analysis of RNA-seq data." Genome Biol 11.3 (2010): R25.

 

 

 

차이점?

 

TMM은 TPM이나 R/FPKM과 다르게 하나의 sample에서는 사용될 수 없다. 샘플간의 normalization method이다. 따라서 각 샘플간의 차이를 나타내는 Correction factor는 비교하고자 하는 sample이 바뀔 때마다 다시 계산해주어야 한다. 하지만 R/FPKM과 TPM normalization method에서 normalization 하고자 하는 샘플은 다른 샘플에 대해서 영향을 전혀 받지 않기 때문에 한번 normalization이 된 샘플을 계속 재사용할 수 있다.

 

또다른 TMM의 특징은 transcriptl ength를 전혀 고려하지 않는다. 하지만 일반적으로 다른 condition에 대해 같은 transcript를 비교하는 샘플간의 DEG분석에 있어서 transcript length가 항상 동일하기 때문에 이는 전혀 문제가 되지 않는다.

 

 

 

 

Dillies, Marie-Agnès, et al. "A comprehensive evaluation of normalization methods for Illumina high-throughput RNA sequencing data analysis." Briefings in bioinformatics 14.6 (2013): 671-683.

위 논문에서 더 자세한 내용을 많이 다루고 있다.