Major Study./Bioinformatics

DNA 서열 alignment를 통한 가계도 분석

sosal 2014. 7. 18. 10:04
반응형

/*

 * http://sosal.kr/

 * made by so_Sal

 */

 

Bioinformatics.
생물정보학 수업을 들으면서 가장 재미있었던 sequence alignment 관련 내용입니다. 

1. Global alignment vs Local alignment

 서열분석의 목적은 관심 있는 서열의 유사점과 차이점을 분석하여 염기와 아미노산 수준에서 서열간의 구조적 기능적 및 진화론적 관련성을 추론하려는 것입니다.


Figure 1.1


Dynamic programming(DP) : 두 개의 염기서열에 대해서 정렬하기 위해 사용되는 알고리즘.

이러한 방법은 두 개의 서열 사이에서 Optimal aliment를 구해줍니다. Optimal alignment는 두 개의 sequence에 대해서 matched, mismatched character와 gap을 가지게 됩니다. 

 Global and local alignment : 두 가지 형태의 서열 정렬은 똑같이 DP 알고리즘을 사용하여 matrix를 만듭니다. 이 matrix는 ‘figure 1.1’ 점화식을 사용하여 만들어집니다. 하지만, global, local alignment의 차이점은 아래와 같습니다..


Global alignment: trace back은 항상 matrix의 끝에서 시작한다.
Local alignment: trace back은 matrix 안에 있는 가장 큰 값에서부터 시작한다. Matrix에 음수는 존재할 수 없다.

  

2. scoring matrix: Blosum62 matrix


Substitution matrix: 2개의 sequence를 비교할 때, 모든 경우의 수에 해당되는 염기쌍에 대해 score를 나타내는 표입니다. Protein 서열에는 여러 가지 amino acid가 있는데, 단순한 alignment로는 어떻게 배열하는 것이 더욱 비슷한 서열, 성질, 구조를 갖게 되는지 알지 못합니다. 따라서 우리는 모든 염기쌍에 대해 점수를 부여해야만 하는데, 서열 속에 나타나는 기대빈도수, 그리고 중요성에 따라 차별화 하여 점수를 줍니다.

Blosum62 (BLOcks of Amino Acid SUbstitution Matrix) 는 특히 protein sequence에 해당하는 substitution matrix입니다. 이 matrix 안에 해당되는 score는 Amino Acid 쌍의 relative frequencies, substitution probabilities에 기반합니다. 이것은 Gap을 포함한 총 21개의 아미노산 쌍에 대해 Log-odds score를 계산하여, 2by2 table 형식으로 나타낸 표입니다.


Figure 2.2

출처: http://en.wikipedia.org/wiki/BLOSUM

 

 
3. Alignment의 결과인 유사도와 계통수(phylogenetic tree)를 결정법

유사도: Alignment의 결과로 얻은 가장 정렬이 잘된 2개의 sequence에 대한
‘동일한 염기들의 수’ / ‘전체 염기의 길이‘ 를 계산한 값.
계통수: 생물의 유연관계와 관련된 분류학적 계급을 나뭇가지처럼 표현한 그림.

 
우리는 각 sequence에 해당되는 table을 구할 수 있습니다.



Figure 2.3. 개별 sequence와 유사도 테이블    Figure 2.4. 계통수(phylogenetic tree)의 예 



유사도 테이블을 이용하여, 각 sequence끼리 그룹을 지어가는 형태로는 다음의 방법을 이용합니다.
Hierarchical Clustering: 계층적 트리를 만들기 위해 사용하는 Cluster analysis방법중 하나입니다.

수치가 유사도일 경우, 서로 높은 유사도를 가지는 것과 (거리라면, 가까운 거리)
그룹을 지어가며 tree를 구성하는 것입니다.


Figure 2.5. 유사도 테이블과 계통수(phylogenetic tree)의 예.