Major Study./Bioinformatics

RNASeq 플랫폼 선정원칙 및 플랫폼 주요 특성

sosal 2015. 7. 26. 22:01
반응형

 

/*

 http://sosal.kr/
 * made by so_Sal
 */

 

 RNASeq (RNA seqeencing)은 Microarray의 정확도 및 Saturation 문제를 비롯하여 novel transcript, Alternative splicing case 등을

잡아낼 수 있는 장점이 있어서 최근 Transcriptome analysis에서 아주 많이 사용되고 있다.

 

 RNASeq 데이터를 생산해내는 플랫폼이 다양하지만, 어떤것을 써야 하느냐에 대한 답은 없다.

일반적으로 PubMed에서 비슷한 실험 및 연구에 사용된 데이터의 플랫폼을 따라가는 것이 쉬운 답이지만 실험의 디자인 및 실험 과정 또한 빠르게 바뀌고 있기 때문에, 따라가는 것 역시 항상 옳은 방법이 될 수 없다. 따라서 일반적인 실험디자인 원리를 통해 플랫폼을 결정하는것이 합리적이며, 이를 위해 RNASeq을 고를 때 어떤 특성들이 존재하는지 확인하는 것이 좋은 방법이다.

 

예를 들어, Gene fusion transcript를 찾아낼 때, Gene expression level을 알고자 할 때, SNP의 유무를 확인할 때 등등 다 목적이 다르기 때문에, 어떤 특성을 중점으로 두고 목적에 맞는 플랫폼을 선정해야 할 것이다.

 

 

1. Accuracy: How accurate must the sequencing be?

 SNP 혹은 Single-nucleotide editing event 등을 찾아내는게 목적이라면, Error와 variant를 잘 구분해 낼 수 있는 error rate가 낮은 (Accuracy가 높은) 플랫폼을 선정해야 한다. Gene promoter region에서 SNP frequency는 1/800, 즉 0.13%이기 때문에, 이것이 Error인지 SNP인지 판단하기 위해서는 Accuracy rate가 99.9%가 되어야 한다. 이건 오직 SOLID platform만이 초과하는 수치이다. 하지만 Accuracy가 낮더라도 read 수를 높이면 정확도를 올릴 수 있기 때문에, Accuracy가 절대적이진 않다. 예를 들어 99.9%의 플랫폼을 이용하여 RNA sequencing의 read depth를 10으로 한다면 확률은 99.99%의 효과를 낼 수 있다.

 만약 목적이 Protein-coding gene들을 찾아내는 것, transcript의 양을 측정하는 것, novel gene을 찾는것이라면, Accuracy의 중요도는 상당히 낮아 질 것이다. read를 맵핑하는 작업에서는 한두개의 mismatch는 허락하기 때문이다.

 

 

2. Reads: How many do I need?

 대략적인 계산으로, human genome은 3000M nt이며, Protein-coding genes으로는 100M nt 정도 된다. 따라서 만약 리드의 길이가 100nt인 시퀀서를 사용한다면, 전체 Human genome을 전부 읽기 위해서는 1M개의 리드를 읽어야 할 것이다. 일반적인 플랫폼에서 typical read output은 30M read이며, 이는 30*coverage에 해당된다. 따라서 30M의 read를 통해 드물게 발현되거나 아주 작게 발현되는 리드들은 놓치겠지만, 발현되는 대부분의 gene에 대해서 좋은 coverage로 시퀀싱 했다고 생각할 수 있다.

 read가 특정한 유전자에 매핑되는 평균적인 갯수를 구해보면 다음과 같다. 유전자가 25000개 가량 된다고 가정했을 때, 유전자의 평균 길이는 4000nt 로 생각할 수 있다 (100M nt / 25000). 30M read를 읽기 때문에 30*coverage 이고, 하나의 read는 100nt 이므로 평균적으로 발현되는 유전자에 평균적으로 1200번 매핑된다고 생각할 수 있다. (coverage*1 일때, 4000nt의 길이의 유전자에 100nt의 read가 40번 매핑된다. 따라서 coverage*30이면 40*30 = 1200번 매핑된다.) 만약 평균 유전자의 발현량에 1/1200 수준으로 발현된다면, 이 유전자에 mapping 되는 read가 존재할 확률은 50%라고 생각할 수 있다. 실제로 30M reads면 대부분을 잡기에 합리적인 수치이지만, 한 샘플에서 발현되는 모든 유전자를 담지는 못할것이다. 얼마나 많은 read가 transcript의 존재를 확정하는데 필요한지에 대해서는 consensus가 없다.

 

3. Length: How long must the reads be?

 알려진 유전자 모델에 read를 mapping하고자 한다면, 14nt의 길이로도 충분하다고 하다. 하지만  2개 이상의 위치에 mapping되는 리드가 존재하기 때문에, read의 길이가 더 길어질 필요가 있다. read의 길이를 50 nt로 한다더라도 일부분은 매핑되는 위치가 2개 이상일 수 있지만, 이런 경우는 0.01% 미만으로 아주 작은 양이기 때문에 Differential expression study나 유전자 모델을 정의하기에 적합한 수치일 것이다. 다른 sequence data가 없는 종에서 novel gene을 annotation하는 등의 경우에는 확실히 긴 read가 필요하다. 이런 유형에 대해서 Roche 454는 track record를 만들었다. Pacific bioscience의 경우 최근 시퀀서는 10,000 nt 이상의 리드를 읽어낼 수 있다고 한다.

 

4. SR or PE: Single read or Paired end?

 Library preparation (fragmentation of RNA, ligation of adaptors, orientation of stands)에 bias가 존재하지 않는다면 SR이나 PE나 같은 sequence 정보들을 얻을 수 있지만, 이러한 library preparation 단계에서 bias는 항상 존재할 수 밖에 없다. 따라서 library clone의 both end를 시퀀싱 함으로써 fragment의 randomization을 증가하는 것이 좋은 방법이 될 수 있다. 대부분의 분석 프로그램이 single, paired 둘 다 지원되기 때문에 가능하다면 PE를 사용하는것이 좋다.

 

5. RNA or DNA: Am I sequencing RNA or DNA?

 대부분의 플랫폼은 Reverce transcription 혹은 PCR amplification으로부터 만들어진 double stranded cDNA를 시퀀싱할 수 있다. 하지만 mRNA capping처럼, RNA structure modification이 중요한 경우에는 RNA를 바로 시퀀싱하는것이 더 선호된다.

 

6. Material: How much sample material do I have?

지금은 Single cell에서 total RNA를 시퀀싱 하는것이 가능하다. amplification을 사용하는 시퀀싱 플랫폼은 material에 대해서 lower limit이 없다고 보면 된다. 대부분의 sequencing-by-synthesis 플랫폼은 나노그램 수준의 RNA 양으로부터 라이브러리를 만드는 키트를 가지고 있다. single-molecule 플랫폼은 정의 그대로 시퀀싱에 하나의 molecule만 있으면 된다.

 

 

 

이 포스팅은 RNA-seq Data Analysis: A Practical Approach의 내용을 참고하였습니다.