n개의 allele이 존재하는 locus에서 나타날 수 있는 유전형의 수
n -> nH2 (중복조합)
2 = 2+1
3 -> 3+2+1
4 = 4+3+2+1
n = n(n+1)/2
allele이 n개: homozygote: n개
: heterozygote: nC2
-> 따라서 유전형의 수는 n + n*(n-1)/2 = n(n+1)/2개
ex) 혈액형의 경우 Allele은 3개이다. 따라서 나타날 수 있는 유전형의 수는 6개다.
-> AA, AB, AO, BB, BO, OO
(하지만 dominant allele인 A, B에 의해서 표현형은 A, B, O 3가지만 나타나게 된다.)
* Genotype Frequency
AA:7
AO:27
BB:5
BO:22
AB:12
OO:27
allele, number, allele frequency
A = 53 (0.265)
B = 44 (0.220)
O = 103 (0.515)
Total = 200 (1.000)
하디-바인베르크 법칙 Hardy-Weinberg law
대립유전자가 멘델의 유전방식 만으로 일어난다고 가정한다면, 그 집단의 세대가 아무리 지나도 유전자 형의 빈도가 항상 일정하게 유지되며, 이와 같은 유전자 풀은 하디-바인베르크 평형
* 사람과 침팬치의 게놈 서열은 얼마나 다를까?
-> 사람의 refererence sequence, 침팬치의 reference sequence 비교 -> 3~4% 다르다.
* 임의의 두 사람 게놈 서열을 완전히 알아내어 비교한다면, 서로 얼마나 다를까?
-> 매우 어렵다 (Human genome: diploid)
Diploid 문제 어떻게 해결할것인가, Insertion인지, substitution인지 뭐 등등 고전적인 Bioinformatics에서의 이슈들이 있음.
SNP는 350~400만개 정도 존재. 대부분 non-coding region에 존재.
Coding region에 있는 경우
- synonymous SNP (동일한 Amino acid)
- nonsynonymous SNP (다른 Amino acid)
Human genome에서 대부분 Alleles은 2개만 존재.
purine -> purine, pyrimidine -> pyrimidine 떄문일까? : Transversion 에서도 Allele은 2개만 존재하는 경우가 많다.
추측컨데, Human genome에 존재하는 variant는 대부분 single event에 의해 생겼을 것이다...
* SNP/SNV
Reference allele vs Alternative allele
Major allele vs Minor allele (보통 낮은걸 Minor allele)
Ancestral allele: 조상으로 생각되는 생물의 allele
Positive vs negative strand sequence?
CGAGTTTA
GCTCAAAT
CGAGGTTA
GCTCCAAT
-> TA가 GC로 바뀌었다. (but T가 G로 바뀌었다. 라고 씀)
반대로 A가 C로 바뀌었다라고 할 수 있다.
positive, negative strand
일반적으로 positive strand 기준으로 말하지만, array에서는 아닌경우도 자주 있다고 함
* How can we detect genome variations?
- discovery or validation?
haploid or diploid
detection of variations with very small fraction
multiple samples
multiple loci
How can we detect SNP?
1. vector cloning -> Sanger
2. Pyrosequencing: GTP가 붙을 때 pp가 빠져나오는걸 응용
CGA <- A-ppp (합성하지 않음)
GCTCCAAT
-> 합성 안됨 -> 그냥 씻어내버림
(다음시도)
CGA <- G-ppp (합성함)
GCTCCAAT
따라서 pp가 빠져나옴 -> 빛이 번쩍!
하지만 CC 이기 떄문에, 동시에 2개가 들어갈 수 있음
-> 빛의 새기를 통해 예측
하지만 같은 GTP가 6~7개 이상 된다면 (homopolymer 지역) 에러가 발생할 수 있음
454, PGM 계열 등이 pyrosequencing 씀.
단점: read length가 짧음
밴드 size가 1개, 2개.. 나오다가 1개 이하가 나올 때, 그 비율을 알 수 있음
3. PCR
- PCR with two primer sets which are different in the 3'-end base
끝이 -A, -C로 끝나는 2가지 primer 제작 (옛날에 돈아까울 때..)
정기영동 -> PCR band로 보는 방법
4. Realtime PCR
한 copy 만들 때 마다 primer가 잘려 나오면서 형광물질(reporter)이 나옴
-> 얼마나 많은 PCR 증폭이 됐는가를 알 수 있다. (양적인 정보를 얻기 위함)
형광물질의 색상을 조절하여 서로 다른 Primer를 제작하는 방법
(빨강 homo, 파랑 homo, 빨강+파랑=Hetero) 등등..
-> Multiple sample single locus에 적합하지만, 여러 locus는 돈이 많이 듬
5. Digital PCR
- 소량 존재하는 variant를 찾는데 가장 idle 한 방법 (Realtime PCR과 비슷한데 digital 하게..)
- Array에 Primer 넣고 PCR 되느냐 안되느냐 살펴봄 (빨간색, 초록색)
-> 소량 샘플에 매우 좋다.
6. Single base extension
-> MASS-array
- Multiple sample, Multi-loci
'Major Study. > Bioinformatics' 카테고리의 다른 글
haplotype과 GATK HaplotypeCaller (0) | 2016.01.26 |
---|---|
TCGA Somatic mutation (0) | 2015.12.26 |
bayes rule - 베이즈 정리 (0) | 2015.10.08 |
snpEff: predicting the effects of SNP (0) | 2015.10.07 |
affymetrix cdf 파일, 아무리 찾아도 없다 (0) | 2015.09.30 |