Major Study./Bioinformatics

DNAI1 - ENSG, Variant Interpretation

sosal 2015. 1. 28. 15:26
반응형


/*

 http://sosal.kr/
 * made by so_Sal
 */


한 환자의 variant(mutation: rsid)를 알 때, 그 variant를 이용하여 여러가지 정보를 얻을 수 있다.


이 포스팅에선 rsid: rs76334696를 예로, 해당 mutation의 allel frequency, SIFT score 등을 구하는 방법을 알아보고

이 mutation에 해당되는 gene에 문제가 생겼을 때, 어떤 phenotype(표현형) 이 생기는지, 어떤 pathway를 가지고 있는지 등을 알아보고자 한다.




Variant Information


- rsid 정보를 이용하여 Variant information 구하기.

: Ensembl 에 해당 rsid를 검색한다.



Figure 1.1, 1.2


Reference Allele: C - 기본형

Alternative allele: A


C->A로 돌연변이가 일어난 경우이다.

Ambiguity code: M (http://reverse-complement.com/ambiguity.html)

MAF (Minor allele frequency): 0.02 (100명중 2명이 이 mutation을 가지고 있다)

// (.05 이상이면 SNP라고 부른다)


Location은 말그대로 인간 유전체에서 어떤 위치의 variant인지를 알려준다.

9번 유전체의 34514428 (forward strand)에 위치하고 있다.

Missense mutation이란 바뀌어버린 nucleotide 때문에, 실제로 번역될 때 amino acid가 달라지는 경우를 나타낸다.

mutation의 종류: http://ghr.nlm.nih.gov/handbook/mutationsanddisorders/possiblemutations


alternative splicing 때문에 다양한 transcript가 생성될 수 있고, 다양한 consequence type이 존재할 수 있다.



Ensembl의 좌측상단 Genomic context / Genes and regulation에 들어가면 이 variant가 어떤 gene에 속해있는지,

그리고 어떤 transcript가 나타나는지, 그에 따른 consequence type이 무엇인지,

그리고 coding region이라면 SIFT score, Polyphen이 어떻게 되는지 알 수 있다.


Figure 1.3

rs76334696의 Variant type은 T->N 으로 amino acid가 변한 missense variant 라고 말할 수 있을것이다.


해당 variant의 SIFT score, PolyPhen score를 바로 볼 수 있다.

RS score를 보고싶다면 snp-nexus.org 에서 rsid로 검색하여 RS score를 볼 수 있다. (GERP++)











Gene Information


Figure 1.3에서 보듯, 여기서 우리는 rsid를 통해, 이 variant가 어떤 유전자에 속하는지를 알 수 있다.

ENSG: ENSG00000122735

HGNC: DNAI1


위의 ENSG를 눌러서 링크로 이동하거나 ensembl에 직접 검색하면 된다.


Ensembl.org 검색결과:

 - URL: http://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000122735;r=9:34457414-34520989



ENSG00000122735 (DNAI1)에 대한 Gene 정보는 Ensembl의 gene tab에서 확인할 수 있다.


Figure 1.4


HGNC symbol: DNAI1

Gene name: dynein, axonemal, intermediate chain 1

Synonyms: CILD1, DIC1, PCD

INSDC (International Nucleotide Sequence Database Collaboration)

 -> chromosome:GRCh38:CM000671.2:34457414:34520989:1


Gene name과 synonyms, gene의 위치 정도를 알 수 있다.

Figure 1.5

HUGO Gene Nomenclature Committee (HGNC) name은 DNAI1.

UniProtKB: Q9UI46

Gene type: Known protein coding.


HGNC 링크로 넘어가면


Figure 2.1

HGNC ID, Locus type, Gene family 등을 확인할 수 있다.


Figure 2.2 DNAI1의 Gene family table.



DNAI1의 추가적인 정보들은 다른 Database로 링크를 통해 제공한다.

Figure 2.3


Nucleotide sequences의 유명한 3가지 database Gene bank, ENA, DDBJ 링크를 눌러보면

raw sequence, protein sequence 등을 바로 볼 수 있다.



- url: http://www.ncbi.nlm.nih.gov/nuccore/AF091619

Figure 2.4



Gene resources의  Entrez Gene에 들어가면 NCBI에서 제공하는 gene의 자세한 description을 볼 수 있다.



Figure 2.5

여기에 있는 Summary가 곧 gene의 description이다.

해당 NCBI 페이지에서 Related articles in PubMed 정보도 제공하니, 해당 유전자와 관련된 논문도 쉽게 찾을 수 있다.

GeneRIFs 란에서 Gene reference into functions 역시 알 수 있다.



Figure 1.5의 UniprotKB의 Uniprot identifiers 링크로 넘어가면 Sequence annotation을 볼 수 있다.


Figure 3 sequence annotation.









Protein Information


Figure 1.3에서 보고자 하는 transcript id를 누르면 transcript section으로 이동하는데, 여기서 protein summary에서

해당 gene이 발현하는 protein domain을 볼 수 있다.


FIgure 3.1 protein domain


어떤 위치에서 어떤 variant가 존재하는지 쉽게 볼 수 있다.

protein family 정보는 Interpro에서 제공한다.


figure 1.5의 UniProtKB를 이용하여 interpro에서 protein family를 볼 수 있다.

http://www.ebi.ac.uk/interpro/protein/Q9UI46


Figure 3.2 Protein family








Pathway Information


Reactome, Ensembl, KEGG, string-db 등의 database에서 pathway를 찾을 수 있다.


Figure 4.1. KEGG pathway

Figure 4.1. string-db pathway











Phenotype Information


Ensembl의 Phenotype에서는 이 gene에 이상이 생겼을 때 어떤 표현형이 있는지 볼 수 있다.


Figure 5.1


NCBI에서도 역시 알 수 있다.

Figure 5.2

Kartagener syndrome (http://radiopaedia.org/articles/kartagener-syndrome-1)


이 유전자에 문제가 발생할 경우 CILIARY DYSKINESIA, PRIMARY, Kartagener syndrome (KTGS) 대한 

위험성이 있을 가능성이 있다는 것을 알 수 있다.