Major Study./Bioinformatics

유전체의학 Genomics 수업 정리

sosal 2015. 11. 2. 17:47
반응형

n개의 allele이 존재하는 locus에서 나타날 수 있는 유전형의 수

 

n -> nH2 (중복조합)

 

2 = 2+1

3 -> 3+2+1

4 = 4+3+2+1

n = n(n+1)/2

 

allele이 n개: homozygote: n개

                : heterozygote: nC2

                -> 따라서 유전형의 수는 n + n*(n-1)/2 = n(n+1)/2개

 

ex) 혈액형의 경우 Allele은 3개이다. 따라서 나타날 수 있는 유전형의 수는 6개다.

 -> AA, AB, AO, BB, BO, OO

 (하지만 dominant allele인 A, B에 의해서 표현형은 A, B, O 3가지만 나타나게 된다.)

 

 

 

 

* Genotype Frequency

 

AA:7

AO:27

BB:5

BO:22

AB:12

OO:27

 

allele, number, allele frequency

A        = 53        (0.265)

B        = 44        (0.220)

O        = 103      (0.515)

Total    = 200      (1.000)

 

 

 

 

하디-바인베르크 법칙 Hardy-Weinberg law

 

대립유전자가 멘델의 유전방식 만으로 일어난다고 가정한다면, 그 집단의 세대가 아무리 지나도 유전자 형의 빈도가 항상 일정하게 유지되며, 이와 같은 유전자 풀은 하디-바인베르크 평형

 

 

 

* 사람과 침팬치의 게놈 서열은 얼마나 다를까?

-> 사람의 refererence sequence, 침팬치의 reference sequence 비교 -> 3~4% 다르다.

 

 

* 임의의 두 사람 게놈 서열을 완전히 알아내어 비교한다면, 서로 얼마나 다를까?

-> 매우 어렵다 (Human genome: diploid)

Diploid 문제 어떻게 해결할것인가, Insertion인지, substitution인지 뭐 등등 고전적인 Bioinformatics에서의 이슈들이 있음.

 

SNP는 350~400만개 정도 존재. 대부분 non-coding region에 존재.

Coding region에 있는 경우

- synonymous SNP (동일한 Amino acid)

- nonsynonymous SNP (다른 Amino acid)

 

 

 

 

Human genome에서 대부분 Alleles은 2개만 존재.

purine -> purine, pyrimidine -> pyrimidine 떄문일까? : Transversion 에서도 Allele은 2개만 존재하는 경우가 많다.

추측컨데, Human genome에 존재하는 variant는 대부분 single event에 의해 생겼을 것이다...

 

 

* SNP/SNV

Reference allele vs Alternative allele

Major allele vs Minor allele (보통 낮은걸 Minor allele)

Ancestral allele: 조상으로 생각되는 생물의 allele

Positive vs negative strand sequence?

 

CGAGTTTA

GCTCAAAT

 

CGAGGTTA

GCTCCAAT

 

-> TA가 GC로 바뀌었다. (but T가 G로 바뀌었다. 라고 씀)

반대로 A가 C로 바뀌었다라고 할 수 있다.

positive, negative strand

일반적으로 positive strand 기준으로 말하지만, array에서는 아닌경우도 자주 있다고 함

 

 

* How can we detect genome variations?

- discovery or validation?

haploid or diploid

detection of variations with very small fraction

multiple samples

multiple loci

 

 

 

 

How can we detect SNP?

 

1. vector cloning -> Sanger

2. Pyrosequencing: GTP가 붙을 때 pp가 빠져나오는걸 응용

 

CGA      <- A-ppp (합성하지 않음)

GCTCCAAT

-> 합성 안됨 -> 그냥 씻어내버림

 

(다음시도)

CGA      <- G-ppp (합성함)

GCTCCAAT

따라서 pp가 빠져나옴 -> 빛이 번쩍!

 

하지만 CC 이기 떄문에, 동시에 2개가 들어갈 수 있음

-> 빛의 새기를 통해 예측

 

하지만 같은 GTP가 6~7개 이상 된다면 (homopolymer 지역) 에러가 발생할 수 있음

454, PGM 계열 등이 pyrosequencing 씀.

단점: read length가 짧음

 

밴드 size가 1개, 2개.. 나오다가 1개 이하가 나올 때, 그 비율을 알 수 있음

 

3. PCR

- PCR with two primer sets which are different in the 3'-end base

끝이 -A, -C로 끝나는 2가지 primer 제작 (옛날에 돈아까울 때..)

정기영동 -> PCR band로 보는 방법

 

4. Realtime PCR

한 copy 만들 때 마다 primer가 잘려 나오면서 형광물질(reporter)이 나옴

-> 얼마나 많은 PCR 증폭이 됐는가를 알 수 있다. (양적인 정보를 얻기 위함)

형광물질의 색상을 조절하여 서로 다른 Primer를 제작하는 방법

(빨강 homo, 파랑 homo, 빨강+파랑=Hetero) 등등..

 

-> Multiple sample single locus에 적합하지만, 여러 locus는 돈이 많이 듬

 

5. Digital PCR

- 소량 존재하는 variant를 찾는데 가장 idle 한 방법 (Realtime PCR과 비슷한데 digital 하게..)

- Array에 Primer 넣고 PCR 되느냐 안되느냐 살펴봄 (빨간색, 초록색)

-> 소량 샘플에 매우 좋다.

 

6. Single base extension

-> MASS-array

- Multiple sample, Multi-loci