- https://www.biostars.org/p/47022/
Open Reading Frame (ORF) vs Coding sequence (CDS)
- Open reading frame
DNA sequence는 6가지 reading frame이 존재한다.
[ATG][CAT]GC
A[TGC][ATG]C
AT[GCA][TGC]
Double strand로 존재하기 때문에, 상보서열까지 총 6가지의 경우의 수가 존재한다.
이 모든 reading frame에서 존재할 수 있는 Start codon 'ATG' (not always) 에서부터 Stop codon (TAA, TAG, TGA)으로 둘러쌓인 sequence를 ORF라고 할 수 있다. 'Protein coding region'의 가능성을 가진 위치를 뜻한다.
하지만 이 지역이 실제로 protein으로 발현되는 서열인지, 혹은 다른 RNA를 발현하는 위치인지, 혹은 non-coding region인지는 알 수 없다. 단지 특정 유전체에서 유전자를 찾기 위해 검색해보는 첫번째 단계이다. protein coding region은 start codon과 stop codon으로 둘러쌓여있기 때문이다.
- Coding Sequence (CDS)
Coding sequence는 실제로 단백질로 발현되는 DNA 지역이다. 위 그림에서 보듯 CDS는 실제 유전체에서 Intron이 모두 제거되고 Exon들이 연결된 서열이며, 이것이 결국 3개의 nucleotide, 코돈 단위로 아미노산으로 번역된다.
mRNA 서열은 하나의 CDS 서열 전체를 포함한다.
'Major Study. > Bioinformatics' 카테고리의 다른 글
Hg18 데이터 Hg19로 liftover 하기 (0) | 2015.06.28 |
---|---|
DNA Mutation - 돌연변이의 종류 (0) | 2015.06.13 |
R에서의 Ensembl IDs와 Entrez IDs (0) | 2015.05.29 |
RNASeq normalization 비교 - RPKM/TPM/TMM (1) | 2015.05.18 |
Gene Expression data로부터 PCA 분석하기 (0) | 2015.05.01 |