/*
* http://sosal.kr/
* made by so_Sal
*/
Hg는 UCSC browser에서 사용되는 Human genome reference 명명법입니다.
Hg**은 UCSC의 명명법이며, 또 다른 Release name도 가집니다.
- List of UCSC genome releases
SPECIES | UCSC VERSION | RELEASE DATE | RELEASE NAME | STATUS |
MAMMALS | ||||
Human | hg38 | Dec. 2013 | Genome Reference Consortium GRCh38 | Available |
hg19 | Feb. 2009 | Genome Reference Consortium GRCh37 | Available | |
hg18 | Mar. 2006 | NCBI Build 36.1 | Available |
예를 들어 Hg18는 NCBI36 이라는 Release name도 가지고 있습니다.
Link - https://genome.ucsc.edu/FAQ/FAQreleases.html
Human genome version에 따라 유전체의 길이나 유전자의 위치가 다릅니다.
Link - http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/data/index.shtml
따라서 variant의 경우 chr, start position, stop position 등으로 Gene symbol이나 다른 정보들을 annotation 할 경우에 필히 reference genome이 어떤것인지 확인하여야 합니다.
Hg18의 chr, position를 Hg19의 것으로 옮기기 위해 UCSC liftover를 사용하면 되지만, 새로 mapping 하는것이 권장됩니다.
liftover하면서 매칭이 안되는 경우도 있습니다.
- UCSC Hg Liftover
Hg18으로부터 얻어진 Chr, position을 Hg19, 혹은 다른 Human genome reference로 liftover 하는 방법입니다.
Link - http://genome.ucsc.edu/cgi-bin/hgLiftOver
ucsc.edu 사이트에서 HgLiftOver을 제공하고 있습니다.
가지고있는 chr, position 정보가 어떤 reference version으로부터 나왔는지를 Original Assembly에 넣어주시고
바꾸고자 하는 reference version을 New Assembly에 세팅해줍니다.
ex) .Bed file format 예제. 파일 혹은 text로 업로드 합니다.
chr1:582180-582180
chr1:873379-873379
chr1:1102487-1102487
chr1:1408335-1408335
chr1:1639028-1639028
chr1:1908778-1908778
chr1:1958928-1958928
chr1:2034641-2034641
chr1:2268242-2268242
chr1:2537061-2537061
파일(.bed), 혹은 text 형태로 submit을 할 수 있습니다.
Submit을 끝내면 화면이 refresh 되면서 결과화면을 볼 수 있습니다.
Query에서 record가 몇개이며 몇개를 성공했는지, 실패했는지 볼 수 있습니다.
View Conversions를 클릭하면 Hg liftover Conversion 결과를 다운로드 할 수 있습니다.
Result: hglft_genome_709f_eddf30.bed
chr1:592317-592317
chr1:883516-883516
chr1:1112624-1112624
chr1:1418472-1418472
chr1:1649168-1649168
chr1:1918918-1918918
chr1:1969068-1969068
chr1:2044781-2044781
chr1:2278382-2278382
chr1:2547201-2547201
Conversion result를 비교해보면 다음과 같습니다.
chr1:582180 -> 592317
chr1:873379 -> 883516
chr1:1102487 -> 1112624
chr1:1408335 -> 1418472
chr1:1639028 -> 1649168
chr1:1908778 -> 1918918
chr1:1958928 -> 1969068
chr1:2034641 -> 2044781
chr1:2268242 -> 2278382
chr1:2537061 -> 2547201
실제로 10개의 유전자좌가 모두 바뀌었습니다.
서로 다른 Human genome reference로 mapping 된 데이터는 서로 비교가 불가능 하기 때문에 이렇게 liftover를 이용하여 같은 reference로 맞춰준 이후에 비교하여야 합니다
하지만 새로 mapping 하는 것이 가장 좋은 방법이라고 합니다.
'Major Study. > Bioinformatics' 카테고리의 다른 글
RNASeq 플랫폼 선정원칙 및 플랫폼 주요 특성 (0) | 2015.07.26 |
---|---|
TCGA data FTP, wget을 통해 받는 방법 (1) | 2015.07.20 |
DNA Mutation - 돌연변이의 종류 (0) | 2015.06.13 |
ORF vs Coding sequence (cds) 차이점 (3) | 2015.06.13 |
R에서의 Ensembl IDs와 Entrez IDs (0) | 2015.05.29 |