간단하게 RNASeq 데이터분석 관련하여 발표를 듣게 되었는데
심심해서 블로그에 정리하면서 들어봤다.
RNA Sequencing pipeline
Sample (Treated - Untreated, or Case - Control)
-> cDNA로 변환 (illumina 기술에서), 실제로 RNA를 sequencing 하는 방법이 있긴 하지만, cDNA로 바꾼 후 시퀀싱 하는것이 일반적
-> Gene expression quantifying
-> Normalization
-> Signal pathway / Gene ontology
RNASeq 결과로 얻을 수 있는 것
- Differential gene expression
- Differential transcript expression
- alternative splicing
- Novel exon detection
- novel gene detection
- RNA editting
Central dogma of molecular Biology
- mRNA structure
Cap - 5UTR-CDS(Coding sequence) - 3’UTR – Poly-A tail
Poly-A tail을 capture해서 isolation
RNA-seq experiments: Gene expression level, count reads that map to coding sequence
To detect splicing: Find reads/read-pairs that span exon-to-exon
wRNA-seq reads: SRA, FastA, FastQ
Quality control: PCR, Bias, contamination, GC Bias..
FastQC -> 확인
Alignment: Tophat, splciemap, STAR
DEG analysis: CuffDiff, limma…
Mapping tools: TopHat 제일 많이 씀. 빠르고 컴퓨터 사양 낮아도 잘 동작, 최근 STAR. TopHat보다 50배 빠르게 align 한다.
BAM statement를 이용하여 어느정도 Read 들이 unique하게 mapping, multiple로 mapping..
Unique하게 mapping된게 많아야 함
Coding region에 많이 되어야함.
5’ UTR, 3’UTR
Sample prep can create 3’ or 5’ bias. 앞 뒤 골고루 잘 mapping이 되어야함.
RPKM: 가장 먼저 쓰였던 방법. Reads Per Kilobase of exon model per Milion mapped reads.
TMM: 전체 발현에 대해 robust하게.
Limma voom은 언급 안하셨지만, TMM은 좋다고 하셨다.
Comparison of software packages for detecting differential expression in RNA-seq studies
http://bib.oxfordjournals.org/content/16/1/59.short
이렇게 패키지 비교만으로도 bioinformatics라는 좋은 저널..
대부분 TMM 방법을 많이 쓰고 있음
전체 read count에 대해
EdgeR, DESeq: exact test
Cuffdiff : t test
Limma and DESeq represent higher performance
TopHat-Cufflinks-Cuffdiff
Gene-set Enrichment
IPA, GSEA, DAVID
- Single-cell RNA sequencing (scRNA-seq)
: DNA: 6 bilion base pairs
mRNA: 600 million bases
Cells in bulk vs. single cell
400 types of cells in human body, neuronal cells, immune cells
Tumor heterogeneity
Cancer state
single cell 분석쪽은 거의 모르겠다..
Real Time PCR (RT-PCR - Gold standard of RNASeq data)
RNASeq pipeline
Preprocessing -> Normalization between samples -> DEG analysis -> Annotation / Interpretation
RPKM
FPKM
TMM
Limma
Differential gene expression
Statistics: EdgeR, DESeq, limma 등등..
-> P-value, FDR 등..
Ritchie, Matthew E., et al. "limma powers differential expression analyses for RNA-sequencing and microarray studies." Nucleic acids research (2015): gkv007.
나는 그냥 limma 쓰고싶음. voom도 좋다. 이유는 내가 편하고 익숙하게 쓸수있는 패키지라서.. ;;
* RNASeq validation
Fold change 등의 값을 validation 하기 위해서 RT-PCR을 많이 함. 요즘은 근데 안해도 넘어간다고 함
DE 분석 이후, DEG에 대한 DAVID, IPA 등의 Functional annotation
Gene ontology: DAVID, IPA
Pathway Analysis
KEGG: Pathway
biocarta pathway
추가적으로 Gene Set Enrichment Analysis 분석
-> DEG 분석결과 정보가 하나도 나오지 않았지만, 특정 meaningful gene set (gene cluster)가 전부다 발현량이 상승할 경우 특별한 의미를 가질 수 있다.
Alternative splicing and isoforms
Junction and body reads
- Differential exon expression
- Aternative exon utilization
- Differential transcript isoform expression
-> Promoter
-> CuffDiff
2008년 2009년 ENCODE Project를 통해 AS 관련 연구 많아짐
Intergenic region에 transcript가 존재한다. 하지만 발현이 되어서 novel trascript라곤 하지만 Protein이 될 가능성이 있는지 확인. non-coding transcript도 찾는다. coding transcript는 찾을 수 있어서 기능을 유추할 수 있다. non-coding transcript는 기능을 알 수 없기 때문에, 기능이 비슷한 mRNA들은 co-expression/clustering, Network analysis 등을 통해 candidate function들을 찾고 분자생물학하는 실험랩에서 진짜 기능 확인.
RNA editing, RNA modification occurs post-transcriptionally
Central dogma를 깨는 것.
mRNA의 expression 조절, 3'-region이라면 miRNA target이 바뀜
Methods for RNA-DNA difference calls
DNA
----A----
RNA
----A----
----A----
----A----
----A----
----G----
----G----
----G----
----G----
50% RNA Editing.
대부분 A->G로 바뀌는 경우가 많다고 함
gold standard인 Sanger sequencing으로 DNA와 cDNA를 직접 시퀀싱 해봄
Gene fusion 내용도 있었는데, 이쪽은 너무 어렵다..
Transcript: exon+Intron+exon, TCGA: 20531 rows
Transcript Isoform: after splicing..? TCGA:73599 rows
'Major Study. > Bioinformatics' 카테고리의 다른 글
RNA-seq quantification - Kallisto (0) | 2016.04.07 |
---|---|
A manually curated database for deleterious synonymous mutations (0) | 2016.03.09 |
The 10th GDA, 유전체 데이터 분석 워크샵, 2/22-26 (0) | 2016.01.27 |
haplotype과 GATK HaplotypeCaller (0) | 2016.01.26 |
TCGA Somatic mutation (0) | 2015.12.26 |