Major Study./Bioinformatics

Bioinformatics - DNA 유전자정보 획득 (shotgun)

sosal 2014. 7. 18. 09:56
반응형

/*

 * http://sosal.kr/

 * made by so_Sal

 */

 

Central dogma:
유전정보는 DNA상의 염기배열에서 상보적 염기배열을 가지는 mRNA로 옮겨져, 다시 ribosome위에서 단백질의 아미노산 배열로 전달된다는 한 방향의 흐름이 있음. Crick는 이 유전정보 전달의 흐름을 생물의 일반적 원칙으로서 central dogma 라 부르게 함.
                                               /Naver 지식사전


1) Shotgun: DNA 서열분석 방법 중 하나

 분석하려는 대상이 되는 유전체를 여러 개 준비하여 각각에 대해 무작위 적으로 2,000 bp, 10,000 bp크기만큼 잘라, 그 서열들을 plasmid에 삽입하여 clone library를 만든 후, 모든 부분 서열에 대해 양쪽으로 500bp 만큼 해독하여 데이터를 저장하는 방식입니다. 이 데이터는 분석하려는 유전체의 여러 copy를 분리하였기 때문에 해독된 염기서열들은 서로 overlab(겹치는?) 되는 성질을 가집니다. 따라서 pairwise comparison을 통해 각 fragment를 조합하여 원래의 유전체 염기서열을 구하는 방법이 바로 Shotgun sequencing 방법입니다.

 

2) Shotgun 방법으로부터 얻은 염기서열들을 조합하여 원래의 DNA 서열을 알아내기 

 500bp씩 분석한 fragment의 양 끝 서열은 여러 copy에 의해 만들어진 것으로, overlab 되는 성질을 가지고 있습니다. 이 성질을 이용하여 문자열 비교 알고리즘을 각 fragment에 대해 수행하면서 이들의 조각을 맞추는 방식으로 원래의 DNA 서열을 찾아냅니다.

 


위 실험을 수행할 시 유의할 사항은 4가지를 들 수 있습니다.

1.  Incomplete coverage.

당연한 이야기지만, 모든 fragment가 전체 DNA 서열을 포괄하여야 합니다.

2.  Sequencing errors

DNA fragment를 조합하는 과정에서 base 1~2개가 잘못 읽혀지게 되면 amino acid로 decoding하는데 잘못 읽혀질 수 있으므로, 유의하여야 합니다.

3.  Repetitive DNA

overlab 되는 부위에 대한 substring들이 반복적으로 나타나게 된다면 조합할 수 있는 여러가지 경우의 수가 나올 수 있으므로, 특히 대처하기 힘든 부분이며, 조심해야 하는 부분입니다.

4.  Unknown orientation

염기를 읽을 때, 방향을 고려하지 못해 조립 (assembly) 과정에서 문제가 발생할 수 있습니다.


 

 


3)  DNA에서 단백질정보를 가지고 있는 ORF.
 

Open reading frame(ORF)은 Start codon (ATG)으로 시작하여 Stop codon(TGA, TAA, TAG)로 끝납니다. 하지만 이것은 intron을 포함하기 때문에, ORF라고 해서 모두 다 protein으로 번역되는 것은 아닙니다.

이 중에서 실제로 protein으로 번역되는 exon부위에 존재하는 ORF를 바로 coding region 이라고 합니다.

 





 

위 그림은 원핵세포에 해당되는 유전자 구조인데, Promoter에서부터 Transcription start site – 5’ Untranslated region(UTR),

start-codon, Coding region, stop codon, 3’UTR 단계로 아주 간단하게 구성되어있습니다. (진핵생물은 더 복잡)

 Coding region이 바로 우리가 이 문제에서 궁극적으로 찾고자 하는 ‘단백질 아미노산 순서를 규정하는 유전자 영역’입니다..

이 영역을 지정해주는 것이 바로 start codon(ATG)와 stop codon(TGA,TAA,TAG) 입니다.

Promoter는 원핵생물에서 Transcription Start Site 근처의 전사를 개시하는 DNA 결합부위로, 전사를 조절하는 부위입니다. DNA를 주형으로 RNA를 합성시키는 RNA중합효소가promoter 부위에 결합하여 전사를 시작하는데, 이때 DNA 이중나선의 한 가닥만이 주형으로 이용되며, 이를 결정하는것도 promoter입니다.

 


4)  ORF의 전사(transcription), 그리고 해독(translation)


전사(transcription)는 DNA가 mRNA로 유전적 정보를 옮기는 작업입니다. ‘RNA 중합효소’가 DNA의 promoter 부분에서 DNA 이중나선 구조에서 한쪽가닥만이 해독되는데, 이때 프로모터가 두 가닥 중에서 어느 가닥이 주형으로 이용될 지 결정하게 됩니다 (방향은 5` -> 3`). 이렇게 RNA는 일반적으로 한 가닥으로 이루어져 있고, DNA가 가지는 염기중의 하나인 T (Thymine) 대신 U (Uracil) 를 갖는 것을 제외하고는 비주형 가닥과 동일한 방향성 및 염기서열을 가집니다.

 
전사된 후 RNA는 해독(translation)되기 전에 splicing 과정을 거치는데, 이것은 RNA 염기서열 중에서 intron 부위를 제거하고, exon부위를 합치는 과정을 말합니다.

 
Splicing 후에 RNA는 세포질 내 리보솜(ribosome : translation이 일어나는 장소)으로 이동하여 해독(translation)을 시작합니다.

Exon만 남은 RNA는 각 염기 3개를 하나로 묶어 codon이라고 부르는데, tRNA가 특정 아미노산을 선택하여 mRNA와 상보적인 결합을 통해 protein chain을 만들어가게 됩니다.

 


ex)
CGGGTTTCGGGCTCATGCCCTACGATGCGT
GACCGTGTTGAGAATATCGGGTTTCGGGCT
GAATATCGGGTTTCGGGCTCATGCCCTACG
TCATGCCCTACGATGCGTAACGGACTAGTA
GCTCATGCCCTACGATGCGTAACGGACTAG
GAGAATATCGGGTTTCGGGCTCATGCCCTA
GTTTCGGGCTCATGCCCTACGATGCGTAAC
GTTGAGAATATCGGGTTTCGGGCTCATGCC
CGTGTTGAGAATATCGGGTTTCGGGCTCAT
ATCGGGTTTCGGGCTCATGCCCTACGATGC
CATGGACCGTGTTGAGAATATCGGGTTTCG
TTTCGGGCTCATGCCCTACGATGCGTAACG
GTGTTGAGAATATCGGGTTTCGGGCTCATG
ATATCGGGTTTCGGGCTCATGCCCTACGAT
ATGGACCGTGTTGAGAATATCGGGTTTCGG
GACCGTGTTGAGAATATCGGGTTTCGGGCT
TATCGGGTTTCGGGCTCATGCCCTACGATG
GTTTCGGGCTCATGCCCTACGATGCGTAAC
GTTGAGAATATCGGGTTTCGGGCTCATGCC
AGAATATCGGGTTTCGGGCTCATGCCCTAC
TGTTGAGAATATCGGGTTTCGGGCTCATGC
CCGTGTTGAGAATATCGGGTTTCGGGCTCA
ACCGTGTTGAGAATATCGGGTTTCGGGCTC
TCGGGCTCATGCCCTACGATGCGTAACGGA
TCGGGTTTCGGGCTCATGCCCTACGATGCG
GTGTTGAGAATATCGGGTTTCGGGCTCATG
TCGGGTTTCGGGCTCATGCCCTACGATGCG
ATGGACCGTGTTGAGAATATCGGGTTTCGG
TTTCGGGCTCATGCCCTACGATGCGTAACG
GAGAATATCGGGTTTCGGGCTCATGCCCTA
CGTGTTGAGAATATCGGGTTTCGGGCTCAT
CATGGACCGTGTTGAGAATATCGGGTTTCG
TCGGGTTTCGGGCTCATGCCCTACGATGCG
AATATCGGGTTTCGGGCTCATGCCCTACGA
TCGGGCTCATGCCCTACGATGCGTAACGGA
ACCGTGTTGAGAATATCGGGTTTCGGGCTC
GCTCATGCCCTACGATGCGTAACGGACTAG
AGAATATCGGGTTTCGGGCTCATGCCCTAC
TGTTGAGAATATCGGGTTTCGGGCTCATGC
CATGGACCGTGTTGAGAATATCGGGTTTCG
TCGGGCTCATGCCCTACGATGCGTAACGGA
TTGAGAATATCGGGTTTCGGGCTCATGCCC
ATCGGGTTTCGGGCTCATGCCCTACGATGC

 

DNA 조각으로 부터, fragment 조합 프로그램을 통해

CATGGACCGTGTTGAGAATATCGGGTTTCGGGCTCATGCCCTACGATGCGTAACGGACTAGTA
를 얻는다.

ORF를 분석하여 실제 protein이 될 DNA 서열을 찾는다.

CATGGACCGTGTTGAGAATATCGGGTTTCGGGCTCATGCCCTACGATGCGTAACGGACTAGTA

찾은 Exon을 이용하여 Protein을 완성한다.

MTVLRISGFG


(이렇게 짧은 Protein은 사실 거의 존재하지 않습니다만..)

Fragment로부터 DNA서열을 복원하고,
DNA서열에서 ORF를 찾아 실제 Protein으로 번역하는 과정이었습니다.




잘못된 내용이 있다면 댓글로 지적 부탁합니다.

 

 

 

shotgun sequencing을 직접 C++로 구현해보았습니다.

http://sosal.kr/621