/*
* http://sosal.kr/
* made by so_Sal
*/
한 환자의 variant(mutation: rsid)를 알 때, 그 variant를 이용하여 여러가지 정보를 얻을 수 있다.
이 포스팅에선 rsid: rs76334696를 예로, 해당 mutation의 allel frequency, SIFT score 등을 구하는 방법을 알아보고
이 mutation에 해당되는 gene에 문제가 생겼을 때, 어떤 phenotype(표현형) 이 생기는지, 어떤 pathway를 가지고 있는지 등을 알아보고자 한다.
Variant Information
- rsid 정보를 이용하여 Variant information 구하기.
: Ensembl 에 해당 rsid를 검색한다.
Figure 1.1, 1.2
Reference Allele: C - 기본형
Alternative allele: A
C->A로 돌연변이가 일어난 경우이다.
Ambiguity code: M (http://reverse-complement.com/ambiguity.html)
MAF (Minor allele frequency): 0.02 (100명중 2명이 이 mutation을 가지고 있다)
// (.05 이상이면 SNP라고 부른다)
Location은 말그대로 인간 유전체에서 어떤 위치의 variant인지를 알려준다.
9번 유전체의 34514428 (forward strand)에 위치하고 있다.
Missense mutation이란 바뀌어버린 nucleotide 때문에, 실제로 번역될 때 amino acid가 달라지는 경우를 나타낸다.
mutation의 종류: http://ghr.nlm.nih.gov/handbook/mutationsanddisorders/possiblemutations
alternative splicing 때문에 다양한 transcript가 생성될 수 있고, 다양한 consequence type이 존재할 수 있다.
Ensembl의 좌측상단 Genomic context / Genes and regulation에 들어가면 이 variant가 어떤 gene에 속해있는지,
그리고 어떤 transcript가 나타나는지, 그에 따른 consequence type이 무엇인지,
그리고 coding region이라면 SIFT score, Polyphen이 어떻게 되는지 알 수 있다.
Figure 1.3
rs76334696의 Variant type은 T->N 으로 amino acid가 변한 missense variant 라고 말할 수 있을것이다.
해당 variant의 SIFT score, PolyPhen score를 바로 볼 수 있다.
RS score를 보고싶다면 snp-nexus.org 에서 rsid로 검색하여 RS score를 볼 수 있다. (GERP++)
Gene Information
Figure 1.3에서 보듯, 여기서 우리는 rsid를 통해, 이 variant가 어떤 유전자에 속하는지를 알 수 있다.
ENSG: ENSG00000122735
HGNC: DNAI1
위의 ENSG를 눌러서 링크로 이동하거나 ensembl에 직접 검색하면 된다.
Ensembl.org 검색결과:
- URL: http://asia.ensembl.org/Homo_sapiens/Gene/Summary?db=core;g=ENSG00000122735;r=9:34457414-34520989
ENSG00000122735 (DNAI1)에 대한 Gene 정보는 Ensembl의 gene tab에서 확인할 수 있다.
Figure 1.4
HGNC symbol: DNAI1
Gene name: dynein, axonemal, intermediate chain 1
Synonyms: CILD1, DIC1, PCD
INSDC (International Nucleotide Sequence Database Collaboration)
-> chromosome:GRCh38:CM000671.2:34457414:34520989:1
Figure 1.5
HUGO Gene Nomenclature Committee (HGNC) name은 DNAI1.
UniProtKB: Q9UI46
Gene type: Known protein coding.
HGNC 링크로 넘어가면
Figure 2.1
HGNC ID, Locus type, Gene family 등을 확인할 수 있다.
DNAI1의 추가적인 정보들은 다른 Database로 링크를 통해 제공한다.
Figure 2.3
Nucleotide sequences의 유명한 3가지 database Gene bank, ENA, DDBJ 링크를 눌러보면
raw sequence, protein sequence 등을 바로 볼 수 있다.
- url: http://www.ncbi.nlm.nih.gov/nuccore/AF091619
Figure 2.4
Gene resources의 Entrez Gene에 들어가면 NCBI에서 제공하는 gene의 자세한 description을 볼 수 있다.
Figure 2.5
여기에 있는 Summary가 곧 gene의 description이다.
해당 NCBI 페이지에서 Related articles in PubMed 정보도 제공하니, 해당 유전자와 관련된 논문도 쉽게 찾을 수 있다.
GeneRIFs 란에서 Gene reference into functions 역시 알 수 있다.
Figure 1.5의 UniprotKB의 Uniprot identifiers 링크로 넘어가면 Sequence annotation을 볼 수 있다.
Figure 3 sequence annotation.
Protein Information
Figure 1.3에서 보고자 하는 transcript id를 누르면 transcript section으로 이동하는데, 여기서 protein summary에서
해당 gene이 발현하는 protein domain을 볼 수 있다.
FIgure 3.1 protein domain
어떤 위치에서 어떤 variant가 존재하는지 쉽게 볼 수 있다.
protein family 정보는 Interpro에서 제공한다.
figure 1.5의 UniProtKB를 이용하여 interpro에서 protein family를 볼 수 있다.
http://www.ebi.ac.uk/interpro/protein/Q9UI46
Figure 3.2 Protein family
Pathway Information
Reactome, Ensembl, KEGG, string-db 등의 database에서 pathway를 찾을 수 있다.
Figure 4.1. KEGG pathway
Figure 4.1. string-db pathway
Phenotype Information
Ensembl의 Phenotype에서는 이 gene에 이상이 생겼을 때 어떤 표현형이 있는지 볼 수 있다.
Figure 5.1
NCBI에서도 역시 알 수 있다.
Figure 5.2
Kartagener syndrome (http://radiopaedia.org/articles/kartagener-syndrome-1)
이 유전자에 문제가 발생할 경우 CILIARY DYSKINESIA, PRIMARY, Kartagener syndrome (KTGS)에 대한
위험성이 있을 가능성이 있다는 것을 알 수 있다.
'Major Study. > Bioinformatics' 카테고리의 다른 글
RNA-seq 데이터로 DEG 구하기 - R (9) | 2015.02.26 |
---|---|
Transition vs Transversion (0) | 2015.02.12 |
주어진 DNA의 역상보서열 만들기 (0) | 2015.01.09 |
Ensembl로 Gene symbol 알아내기 (0) | 2015.01.03 |
SAM/BAM 포맷, 구조 분석 (0) | 2014.12.12 |