Major Study./Bioinformatics

Bioinformatics 개론, 기본 개념 정리

sosal 2014. 7. 18. 09:55
반응형

 

/*

 * http://sosal.kr/

 * made by so_Sal

 */


* Bioinformatics의 정의

Bio – 생물학
Informatics – 전산학
Bioinformatics – 전산학, 통계학적인 기술들을 이용하여 생물학에서 발생하는 문제들을 해결하는 분야

* 이번 포스트에서 다룰 단어들
1. Chromosomes 염색체
2. DNA - deoxyribonucleic acid
3. Gene and genome
4. RNA
5. Synthesis of protein 단백질합성
6. Exon , intron
7. Codon / RNA 암호 기본단위





1. Chromosomes - 염색체



위에 있는 그림은 세포막 속의 여러 개의 소 기관들을 나타냅니다.

Nucleus : 핵. 핵속에 Chromosomes이 보이네요.
오른쪽밑에 미토콘드리아도 보이네요.
염색체는 핵 내에 있습니다, 염섹체는 23쌍으로 총 46가지가 존재하며,
각각의 염색체를 chromatic 이라고 함니다.



순서는 긴 염색체일수록 순번이 높습니다.
즉 염기의 수가 가장 많은 염색체는 1번입니다.
23번 X,Y 사람의 성을 결정하는 염색체는 크기순이 아닙니다.
(그림에서 보이듯 X가 Y보다 큽니다.)






염색체는 DNA로 구성되어 있습니다.
사람 세포속의 DNA는 약 2m입니다.
인간은 대략 32억개의 DNA로 구성되어 있습니다.
사람 몸속에 있는 모든 DNA의 총 길이 합은 2 * 10 ^11 km 입니다.
지구와 달 사이의 거리의 약 1333배 라고 하네요.

염색체는 위 그림에서 보듯, 염기로 이루어진 2개의 선에 의해
나선형으로 아주 매우 compact하게 꼬여있는 구조를 가지고 있습니다.


2. DNA : Deoxyribonucleic acid.
Deoxy : 탈산소의. 라는 뜻



DNA는 Nucleotide로 구성되어 있습니다.




Nucleotide의 구조.
Nucleotide = Sugar + Phosphate + Nitrogenous base
Nucleotide는 모두 같은 Sugar, Phosphate (당인산, 둘을 합쳐 backbone) 으로 구성되어있고,
4가지 종류의 Nitrogenous base 에 따라 달라집니다.
- 2중 나선형 구조

A : Adenine : 항상 Thymine과 결합.
C : Cytosine : 항상 Guanine과 결합
T : Thymine : 항상 Adenine과 결합
G : Guanine : 항상 Cytosine과 결합.

즉 A-T, C-G 는 항상 쌍으로 존재하게 되는데, 이를 '상보적인 결합' 이라고 한다.


* DNA 복제




자신과 같은 모습의 새로운 DNA 복제.
2중 나선구조를 풀어버리면 이전과 같은모습의 DNA 서열이 2개가 된다.
A,G,C,T 각각은 항상 정해진 Nucleotide와 결합하기 때문에 (A-T, C-G)
똑같은 모습으로 복제가 된다.


3. Gene - 유전자, Genome - 유전체




Gene : 유전자
 - Fundamental unit of heredity
 - 단백질 합성하는데 필요한 정보들을 포함한다.
 - Genome의 일부이다.

Genome : 유전체
 - 생명체가 갖는 전체 DNA 집합.


4. RNA : Ribonucleic acid. (DNA에서 Deoxy가 빠졌다.)

* Transcription 전사
RNA polymerase [RNA중합효소]는 DNA를 주형으로 RNA을 합성하는 효소이다.
Nucleotide간에 인산이 에스테르결합을 형성하여 긴 사슬모양의 RNA를 만든다.
// rRNA는 인과 세포질에서, mRNA는 핵에서, tRNA는 세포질에서 만들어진다.
// 원형질에서 핵을 제외한 나머지 부분.

DNA는 A - C - G - T 4개의 염기로 구성되어있지만
RNA는 A - C - G - U 4개의 염기로 구성된다.
여기서 U는 Uracil.

* mRNA : Messenger RNA
DNA에서 gene을 전사(transcription)하여
세포내에서 단백질을 합성하는 기관인 ribosome에 정보를 전달한다.
* ribosome : 단백질이 만들어지는 기관

* tRNA : Transfer RNA
Ribosome이 아미노산을 만들 때, mRNA와 아미노산 사이의 adaptor 역할을 한다.



5. Synthesis of protein



(ribosome : 단백질을 만드는 기관)

DNA->RNA->Protein 과정을 central dogma, 혹은 Gene expression (유전자 발현)
이라고 부른다.





위 그림을 보면 DNA에서부터 단백질이 되는 과정을 간단하게 볼 수 있다.

염색체들은 핵 내에 존재하며, 그 염색체들은 DNA로 이뤄져 있다.
2중 나선형 구조로 이루어진 DNA가 풀리면서 복제가 일어나고
그것들이 transcription(전사)하여 mRNA 혹은 tRNA가 된다.

tRNA는 자유로운 아미노산과 결합하여 Ribosome에서 자신과 맞는 mRNA와 결합하여
protein sequence를 만들어낸다.

* Exon and Intron

Exon : 최종적으로 단백질로서 발현하는 유전자의 배열부분
Intron : 유전정보를 가지고 있지 않아서 단백질을 만들지 못하는 DNA 영역

32억 개의 염기쌍 중에 유전자에 포함되는 부분 (Exon)은 극히 적다.
수많은 DNA중 Exon만이 단백질 번역에 사용된다.






DNA(ACGT) -> Transcription -> RNA(AGCU) -> splicing -> Exon만이 남는다.
이렇게 만들어진 mRNA -> tRNA와 아미노산과 결합 -> protein.


* Codon

tRNA는 3개의 Nucleotide (혹은 Nucleic acid)와 결합한다.
우리는 이 3개의 Nucleotide를 묶어 codon이라 부른다.




Nucleotide는 A-C-G-U로 총 4종류가 있는데,
이들이 3개 모이는 경우의 수는 4*4*4 총 64가지이다.

따라서 쉽게 codon은 64가지라고 생각할 수 있는데,
codon으로부터 선택되는 아미노산의 종류는 20개밖에 되지 않는다.
아니 아미노산의 종류 자체가 20개밖에 없다.

그 이유는, 각 다른 조합의 codon일지라도 같은 아미노산과 결합하는 경우가 있기 때문이다.
아래 표를 보자.





1st - 2nd - 3rd 순으로 nucleotide를 읽는데,
UAA, UAG, UGA = STOP codon,
AUG = Met = Start codon 정도는 알아두는게 좋다.

AUG 코돈 배열은 단백질 서열의 시작이고,
UAA, UAG, UGA 는 단백질 서열의 끝이라고 생각하면 된다.

sperm whale myoglobin 으로 예를 들어보자.
http://www.ncbi.nlm.nih.gov 사이트에서 nucleotide 로 검색하면
첫번째에 바로 sperm whale myoglobin의 nucleotide 정보가 뜬다.

그곳의 정보를 보자.

LOCUS       SYNWHLMG                 507 bp    DNA     linear   SYN 27-APR-1993
DEFINITION  Sperm whale synthetic myoglobin gene, complete cds.
ACCESSION   J03566

 

....
.... <중략>
....
FEATURES             Location/Qualifiers
     source          1..507
                     /organism="synthetic construct"
                     /mol_type="genomic DNA"
                     /db_xref="taxon:32630"
     CDS             34..498
                     /note="synthetic myoglobin"
                     /codon_start=1
                     /transl_table=11
                     /protein_id="AAA72199.1"
                     /db_xref="GI:209564"
                     /translation="MVLSEGEWQLVLHVWAKVEADVAGHGQDILIRLFKSHPETLEKF
                     DRFKHLKTEAEMKASEDLKKHGVTVLTALGAILKKKGHHEAELKPLAQSHATKHKIPI
                     KYLEFISEAIIHVLHSRHPGNFGADAQGAMNKALELFRKDIAAKYKELGYQG"
ORIGIN      5 bp upstream of PstI site.
  1 ctgcagataa ctaactaaag gagaacaaca acaatggttc tgtctgaagg tgaatggcag
 61 ctggttctgc atgtttgggc taaagttgaa gctgacgtcg ctggtcatgg tcaggacatc
121 ttgattcgac tgttcaaatc tcatccggaa actctggaaa aattcgatcg tttcaaacat
181 ctgaaaactg aagctgaaat gaaagcttct gaagatctga aaaaacatgg tgttaccgtg
241 ttaactgccc taggtgctat ccttaagaaa aaagggcatc atgaagctga gctcaaaccg
301 cttgcgcaat cgcatgctac taaacataag atcccgatca aatacctgga attcatctct
361 gaagcgatca tccatgttct gcattctaga catccaggta acttcggtgc tgacgctcag
421 ggtgctatga acaaagctct cgagctgttc cgtaaagata tcgctgctaa gtacaaagaa
481 ctgggttacc agggttaatg aggtacc


위에서 sperm whale myoglobin 의 nucleotide 정보를 상세히 볼 수 있다.
DNA sequence를 살펴보면 CDS : 34 ~ 498 을 볼 수 있는데,
이부분이 실제로 단백질과 합성이 될 때 사용되는 부분이다.

위 DNA가 RNA로 변하면서, Thymine 은 Uracil로 바뀌어,
첫부분 빨간색 atg는 aug로, 마지막 taa는 uaa로 바뀌게 된다.
실제로 aug와 uaa는 각각 start codon, stop codon이다.
위 예에서 보듯 start codon, stop codon의 역할을 반드시 숙지하자!

참고)
http://www.ebi.ac.uk/Tools/emboss/transeq/
이사이트의 transeq라는 프로그램은 Nucleotide sequence를
protein sequence로 바꿔주는 프로그램이다.



참고서적: Bioinformatics - A practical guide to the analysis of genes and proteins 3rd. WILEY
                                     Edited by Andreas D. Baxevanis, B.F. Francis Ouellette.
            : 인하대학교 한경숙 교수님 bioinformatics 강의자료