Major Study./Bioinformatics

Ensembl로 Gene symbol 알아내기

sosal 2015. 1. 3. 22:30


/*

 http://sosal.kr/
 * made by so_Sal
 */



1. 웹서비스로 알아내기

2. R 프로그래밍을 이용하여 알아내기






1. 웹서비스로 알아내기


Ensembl로 Gene name을 알아내야 하는 일이 생겼다.


ENSG00000116783

ENSG00000139656

ENSG00000196987

ENSG00000216560

...
...

bioinformatics의 아주 기본적인 일인듯 한데, 모르니 일단 구글링으로 GeneCards라는 사이트를 알아 냈다.

들어가니 바로 Human gene database 검색기능이 있었다.





ENSG00000116783

Ensembl을 이용하여 검색하니 바로 결과가 뜬다.




Advanced Search를 이용하면 한번에 많은 Ensembl을 이용하여 검색도 가능하다.




아무튼 ENSG00000116783의 Gene symbol은 TNNI3K라고 떴는데, 확인차 Ensembl에 검색을 해봤다.


TNNI3K가 맞고, 자세한 정보가 주르륵..

암튼 Advanced search를 이용하면 한번에 많은 ensembl을 Gene symbol로 변환할 수 있다.















2. R 프로그래밍을 이용하여 알아내기


모든 내용은 http://seqanswers.com/forums/showthread.php?t=8934

여기서 가져왔다.


R의 biocLite를 이용하여 biomaRt 설치


> source("http://bioconductor.org/biocLite.R")

> biocLite()

> biocLite("biomaRt")

> library(biomaRt)


(설치시, 관리자 권한이 필요합니다.)





ENSG00000116783

ENSG00000139656

ENSG00000196987

ENSG00000216560

...

..


이 많은 데이터를 벡터 형태로 변환할 수 있도록, notepad++ 이라는 편집기를 이용했다.


ctrl+H로 개행문자(\n)을 "," 로 바꿔주었다.





상황에 따라 \n 하나일수도 있음..


ENSG00000116783","ENSG00000139656","ENSG00000196987","ENSG00000216560",............."

이렇게 나왔으니 R의 벡터 문법으로 바꿔주기 위해 앞에 벡터를 뜻하는 c와 함께 괄호로 묶어주자.


> ensembl_gene = c("ENSG00000116783","ENSG00000139656","ENSG00000196987","ENSG00000216560"........);

> mart<- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))

hsapiens_gene_ensembl 데이터베이스니까, mart object 사용

>getBM(filters= "ensembl_gene_id", attributes= c("ensembl_gene_id", "entrezgene", "description"),values=ensembl_gene,mart= mart)




- R 프로그래밍 소스 ex)

ensembl_gene  <- c("ENSG00000116783","ENSG00000139656","ENSG00000196987","ENSG00000216560")

mart<- useDataset("hsapiens_gene_ensembl", useMart("ensembl"))

getBM(filters= "ensembl_gene_id", attributes= c("ensembl_gene_id", "entrezgene", "description"),values=ensembl_gene, mart= mart)