R에서의 Ensembl IDs와 Entrez IDs

Major Study./Bioinformatics

R에서의 Ensembl IDs와 Entrez IDs

sosal 2015. 5. 29. 18:34

* http://sosal.kr/
* made by so_Sal
*/

옛날에 적은글이라.. bioconductor가 업데이트 되면서 사용법이 바꼈습니다.

install만 아래로 해주세요~!

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("org.Hs.eg.db")

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("AnnotationDbi")

#############

Ensembl ID 또는 Entrez ID를 알고 있을 때, 그와 관련된 정보들을 org.Hs.eg.db를 통해 annotation 할 수 있다.
Entrez ID, Ensembl ID, Symbol 등을 알고싶을 땐 Gene annotation 패키지중 하나인 org.Hs.eg.db를 사용하면

편리하게 데이터들을 다룰 수 있다.

org.Hs.eg.db는 organism specific package로, Homo sapiens(Hs)에 대한 자세한 정보들을 제공하는 패키지이다.

- Genome wide annotation for human

http://www.bioconductor.org/packages/release/data/annotation/html/org.Hs.eg.db.html

- install

> source(http://bioconductor.org/biocLite.R)
> biocLite("org.Hs.eg.db")

- Gene annotation

http://www.bioconductor.org/help/course-materials/2014/useR2014/Integration.html

위의 페이지에서 자세한 내용을 확인할 수 있다.

- org.Hs.eg.db 에서 제공하는 column과 keytype

> columns(org.Hs.eg.db) # 명령어로 쉽게 확인할 수 있다.

"ENTREZID" "PFAM" "IPI" "PROSITE" "ACCNUM" "ALIAS" "CHR" "CHRLOC" "CHRLOCEND" "ENZYME" "MAP" "PATH" "PMID" "REFSEQ" "SYMBOL" "UNIGENE" "ENSEMBL" "ENSEMBLPROT" "ENSEMBLTRANS" "GENENAME" "UNIPROT" "GO" "EVIDENCE" "ONTOLOGY" "GOALL" "EVIDENCEALL" "ONTOLOGYALL" "OMIM" "UCSCKG"

> keytypes(org.Hs.eg.db) # 명령어로 keytype을 알 수 있다.

"ENTREZID" "PFAM" "IPI" "PROSITE" "ACCNUM" "ALIAS" "ENZYME" "MAP" "PATH" "PMID" "REFSEQ" "SYMBOL" "UNIGENE" "ENSEMBL" "ENSEMBLPROT" "ENSEMBLTRANS" "GENENAME" "UNIPROT" "GO" "EVIDENCE" "ONTOLOGY" "GOALL" "EVIDENCEALL" "ONTOLOGYALL" "OMIM" "UCSCKG"

cols 변수를 만들어 볼드체로 되어있는 column들만 추려내면 다음과 같다.

> cols <- c("ENTREZID", "SYMBOL", "ENSEMBL", "GENENAME")

이제부터 Gene annotation db인 org.Hs.eg.db에 쿼리를 cols 변수와 함께 날리면 Entrez id, gene Symbol, Ensembl ID, Gene name의 정보를 알 수 있다.

keytypes에서 볼드체로 되어 있는 ENTREZID, SYMBOL, ENSEMBL 3가지의 데이터 각각을 이용해서 cols에서 추려진 column들의 정보를 가져와 볼 것이다.

- Ensembl ID를 통해 SYMBOL, Entrez id 알아내기

> ensids= c("ENSG00000158406")
> select(org.Hs.eg.db, keys=ensids, columns=cols, keytype="ENSEMBL")

ENSEMBL ENTREZID SYMBOL GENENAME
1 ENSG00000158406 8365 HIST1H4H histone cluster 1, H4h

Entrez id가 8365인것과 HIST1H4H 히스톤 단백질과 관련된 유전자라는것을 쉽게 알 수 있다.

Genecards.org에서 검색하면 더 자세한 내용을 알 수 있다.

http://www.genecards.org/cgi-bin/carddisp.pl?gene=HIST1H4H

- Entrez id를 통해 SYMBOL, Ensembl ID 알아내기

Keytype을 ENSEMBL 대신 ENTREZID로 바꿔주고, Entrez id를 key로 검색해주면 간단히 해결된다.

> entrezid <- c("8365")
> select(org.Hs.eg.db, keys=entrezid, columns=cols, keytype="ENTREZID")
ENTREZID SYMBOL ENSEMBL GENENAME
8365 HIST1H4H ENSG00000158406 histone cluster 1, H4h

- SYMBOL을 통해 Ensembl ID, Entrez ID 알아내기

마찬가지로 keytype을 SYMBOL로 해주고 symbol name을 통해 select 구문을 완성해주면 쉽게 정보를 얻을 수 있다.

> symbols <- c("HIST1H4H")
> select(org.Hs.eg.db, keys=symbols, columns=cols, keytype="SYMBOL")
SYMBOL ENTREZID ENSEMBL GENENAME
1 HIST1H4H 8365 ENSG00000158406 histone cluster 1, H4h

Entrez Gene과 Ensembl Gene은 1:1 매핑이 되지 않는다.

따라서 만약 Entrez Gene에서 Ensembl로 전환할 때, Ensembl Biomart를 사용하여 반대로 매핑할 때, 다른 매핑결과를 얻을 수 있다.

저작자표시 비영리 변경금지 (새창열림)

'Major Study. > Bioinformatics' 카테고리의 다른 글

DNA Mutation - 돌연변이의 종류 (0)	2015.06.13
ORF vs Coding sequence (cds) 차이점 (3)	2015.06.13
RNASeq normalization 비교 - RPKM/TPM/TMM (1)	2015.05.18
Gene Expression data로부터 PCA 분석하기 (0)	2015.05.01
Burrow-wheeler transform 쉽게 이해하기 (0)	2015.04.22

현재글R에서의 Ensembl IDs와 Entrez IDs

so_sal　

Bioinformatics analyst Data scientist

binary, find, process, adobe, sosal, system, 어도비, socket, 시스템, 애크로뱃, Acrobat, Acrobat9, SIS, 프로세스, PDF, 링크드리스트, fork, 리눅스, Linux, 아크로뱃,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

so_sal