Major Study./Bioinformatics

RNASeq data analysis 워크샵 내용정리

sosal 2016. 2. 26. 12:01
반응형

간단하게 RNASeq 데이터분석 관련하여 발표를 듣게 되었는데

심심해서 블로그에 정리하면서 들어봤다.

 

RNA Sequencing pipeline

Sample (Treated - Untreated, or Case - Control)

-> cDNA로 변환 (illumina 기술에서), 실제로 RNA를 sequencing 하는 방법이 있긴 하지만, cDNA로 바꾼 후 시퀀싱 하는것이 일반적

-> Gene expression quantifying

-> Normalization

-> Signal pathway / Gene ontology

 

RNASeq 결과로 얻을 수 있는 것

- Differential gene expression

- Differential transcript expression

- alternative splicing

- Novel exon detection

- novel gene detection

- RNA editting

 

Central dogma of molecular Biology

- mRNA structure
Cap - 5UTR-CDS(Coding sequence) - 3’UTR – Poly-A tail

 

Poly-A tail을 capture해서 isolation

 

RNA-seq experiments: Gene expression level, count reads that map to coding sequence
To detect splicing: Find reads/read-pairs that span exon-to-exon

 

wRNA-seq reads: SRA, FastA, FastQ
Quality control: PCR, Bias, contamination, GC Bias..

FastQC -> 확인

Alignment: Tophat, splciemap, STAR
DEG analysis: CuffDiff, limma…

Mapping tools: TopHat 제일 많이 씀. 빠르고 컴퓨터 사양 낮아도 잘 동작, 최근 STAR. TopHat보다 50배 빠르게 align 한다.

BAM statement를 이용하여 어느정도 Read 들이 unique하게 mapping, multiple로 mapping..
Unique하게 mapping된게 많아야 함

Coding region에 많이 되어야함.
5’ UTR, 3’UTR
Sample prep can create 3’ or 5’ bias. 앞 뒤 골고루 잘 mapping이 되어야함.
 

 


RPKM: 가장 먼저 쓰였던 방법. Reads Per Kilobase of exon model per Milion mapped reads.
TMM: 전체 발현에 대해 robust하게.

Limma voom은 언급 안하셨지만, TMM은 좋다고 하셨다.

 

Comparison of software packages for detecting differential expression in RNA-seq studies
http://bib.oxfordjournals.org/content/16/1/59.short

이렇게 패키지 비교만으로도 bioinformatics라는 좋은 저널..


대부분 TMM 방법을 많이 쓰고 있음
전체 read count에 대해

 

EdgeR, DESeq: exact test
Cuffdiff : t test
Limma and DESeq represent higher performance

TopHat-Cufflinks-Cuffdiff

 

Gene-set Enrichment
 IPA, GSEA, DAVID

 

- Single-cell RNA sequencing (scRNA-seq)

: DNA: 6 bilion base pairs

mRNA: 600 million bases

Cells in bulk vs. single cell

400 types of cells in human body, neuronal cells, immune cells

Tumor heterogeneity

Cancer state

 

single cell 분석쪽은 거의 모르겠다..

 

Real Time PCR (RT-PCR - Gold standard of RNASeq data)

 

 

RNASeq pipeline

Preprocessing -> Normalization between samples -> DEG analysis -> Annotation / Interpretation

 

RPKM

FPKM 

TMM

Limma

 

 

Differential gene expression

Statistics: EdgeR, DESeq, limma 등등..

 -> P-value, FDR 등..

 

Ritchie, Matthew E., et al. "limma powers differential expression analyses for RNA-sequencing and microarray studies." Nucleic acids research (2015): gkv007.
Law, Charity W., et al. "Voom: precision weights unlock linear model analysis tools for RNA-seq read counts." Genome Biol 15.2 (2014): R29.

나는 그냥 limma 쓰고싶음. voom도 좋다. 이유는 내가 편하고 익숙하게 쓸수있는 패키지라서.. ;;

 

* RNASeq validation

Fold change 등의 값을 validation 하기 위해서 RT-PCR을 많이 함. 요즘은 근데 안해도 넘어간다고 함

 

 

DE 분석 이후, DEG에 대한 DAVID, IPA 등의 Functional annotation

Gene ontology: DAVID, IPA

Pathway Analysis

KEGG: Pathway

biocarta pathway

 

추가적으로 Gene Set Enrichment Analysis 분석

-> DEG 분석결과 정보가 하나도 나오지 않았지만, 특정 meaningful gene set (gene cluster)가 전부다 발현량이 상승할 경우 특별한 의미를 가질 수 있다.

 

 

 

Alternative splicing and isoforms

Junction and body reads

- Differential exon expression

- Aternative exon utilization

- Differential transcript isoform expression

   -> Promoter

   -> CuffDiff

 

2008년 2009년 ENCODE Project를 통해 AS 관련 연구 많아짐

Intergenic region에 transcript가 존재한다. 하지만 발현이 되어서 novel trascript라곤 하지만 Protein이 될 가능성이 있는지 확인. non-coding transcript도 찾는다. coding transcript는 찾을 수 있어서 기능을 유추할 수 있다. non-coding transcript는 기능을 알 수 없기 때문에, 기능이 비슷한 mRNA들은 co-expression/clustering, Network analysis 등을 통해 candidate function들을 찾고 분자생물학하는 실험랩에서 진짜 기능 확인.

 

RNA editing, RNA modification occurs post-transcriptionally

Central dogma를 깨는 것.

mRNA의 expression 조절, 3'-region이라면 miRNA target이 바뀜

 

Methods for RNA-DNA difference calls

 

DNA

----A----

RNA

----A----

----A----

----A----

----A----

----G----

----G----

----G----

----G----

 

50% RNA Editing.

대부분 A->G로 바뀌는 경우가 많다고 함

gold standard인 Sanger sequencing으로 DNA와 cDNA를 직접 시퀀싱 해봄

 

Gene fusion 내용도 있었는데, 이쪽은 너무 어렵다..

 

Transcript: exon+Intron+exon, TCGA: 20531 rows

Transcript Isoform: after splicing..? TCGA:73599 rows