Major Study./Bioinformatics

Single Nucleotide Polymorphism (SNP)

sosal 2014. 7. 18. 10:48
반응형

/*

 * http://sosal.kr/

 * made by so_Sal

 */

 

 

Bioinformatics.



단일염기 다형성 (SNP) 의 정의?




SNP(Single Nucleotide Polymorphism): 단일 염기 다형성.

DNA sequence에서 각 염기에 나타나는 일반적인 돌연변이로, 유전체에서 인종, 개인차, 질병 등을 가져오게 되는 부분입니다.

DNA 염기순서가 개체 사이에서 500 ~ 1,000개 염기 당 1개 정도 나타나며,
이런 미세한 차이에 의해 유전자의 기능이 달라질 수 있습니다.

이런 것들이 유전적인 개인차를 알아내는 유력한 단서가 되며,
인간의 개놈에는 약 300만개의 SNP가 존재한다고 합니다.

 


RFLP(Restriction fragment length polymorphism)은 특정한 염기배열을 인식하여 절단하는 제한효소로, DNA 유전자를 절단하였을 때, 절단된 유전자의 길이가 개인에 따라 다양하게 나타나는 현상을 이야기합니다.


약 1,000개의 염기마다 나타나는 SNP에 의해 RFLP를 이용하여 개인차를 판별할 수 있습니다.
이것은 유전자의 SNP를 판별할 ‘마커’ 라고 부르는데,
RFLP 마커 뿐만 아니라 HRM, Microsatellite 등 마커의 종류는 굉장히 많습니다.


SNP 빈도는 한 위치의 염기에서 얼마만큼의 확률로 다형성이 존재하는지를 뜻합니다. 많은 사람들의 DNA에서 특정한 SNP를 조사하여 그 빈도를 통계적으로 추정하는 것입니다. 예를 들어, 다수의 사람이 어떤 위치에서 A라는 염기를 가지고 있었는데, 10%의 사람만이 G 염기를 가지고 있다고 한다면, SNP 빈도는 10%이라고 추정할 수 있다는 것입니다.

 


서로 다른 SNP 간의 linkage disequilibrium?

염색체의 서로 다른 유전자 위치에서 관측되는 대립유전자들 간에 존재하는 특정한 연관관계는 멘델의 유전법칙을 어긋나게 하는 요인인데, 바로 이것을 연관불평형이라고 말한다. 일반적으로 이 수치가 |D’| > 0.8인 경우에 두 SNP는 강한 연관관계가 있다고 판단한다. 아래 D는 다음과 같이 정의한다.

 

출처: SNP데이터 분석방법

 


연관성 분석 (association analysis)

연관성 분석(Association analysis)은 데이터들 내에 존재하는 특징 및 샘플 사이의 연관성을 찾아내기 위해 하는 것으로, 데이터들을 분석하는 Data mining 기법들 중 하나입니다. 아래 3가지의 평가 기준을 이용하여 실제 데이터의 연관성을 분석합니다.

1. 지지도(support): 전체 데이터 수에 대한 연관 데이터의 수.

2. 신뢰도(Confidence): 연관된 샘플중 한가지 데이터 수에 대한 연관 데이터의 수 
   ( Support(X,Y)  /  Suppot(X) )

3. 향상도(Lift): 두가지 항목이 독립적인지 아닌지 판단하는 측도. 
   Lift(X,Y) = P(X || Y) / P(X) * P(Y) = Confidence(Y) / P (B). 

   이 값이 1이라면, X, Y데이터는 서로 독립이다. (1보다 크면 양의 연관성, 1보다 작으면 음의 연관성)

 


이러한 연관성 분석은 시장 분석에서부터 이 문제에서 우리가 수행하고자 하는 SNP와 사람의 특성관계까지도 수치화 할 수 있는데, support, confidence, lift 수치를 구하여 분석하는 것입니다.

Support수치가 분석하고자 하는 연관 규칙이 데이터 집합에 얼마나 자주 적용할 수 있을지를 알려주고, Confidence 수치가 데이터들의 연관되어있는 정도를 나타내주며, Lift 수치를 기준으로 우리가 판단하고자 하는 데이터의 연관성이 데이터들의 무작위적인 추측에 비해 얼마나 더 우수한가를 판별해주는 기준이 됩니다.



틀린 내용이 있다면 지적해주세요. 감사합니다