Major Study./Bioinformatics

Hg18 데이터 Hg19로 liftover 하기

sosal 2015. 6. 28. 02:47
반응형

 

/*

 http://sosal.kr/
 * made by so_Sal
 */

 


Hg는 UCSC browser에서 사용되는 Human genome reference 명명법입니다.

Hg**은 UCSC의 명명법이며, 또 다른 Release name도 가집니다.

 

 

 

- List of UCSC genome releases

SPECIES UCSC VERSION RELEASE DATE RELEASE NAME STATUS
MAMMALS        
Human hg38 Dec. 2013 Genome Reference Consortium GRCh38 Available
  hg19 Feb. 2009 Genome Reference Consortium GRCh37 Available
  hg18 Mar. 2006 NCBI Build 36.1 Available

 

예를 들어 Hg18는  NCBI36 이라는 Release name도 가지고 있습니다.

Link - https://genome.ucsc.edu/FAQ/FAQreleases.html

 

 

Human genome version에 따라 유전체의 길이나 유전자의 위치가 다릅니다.

Link - http://www.ncbi.nlm.nih.gov/projects/genome/assembly/grc/human/data/index.shtml

 

 

 

따라서 variant의 경우 chr, start position, stop position 등으로 Gene symbol이나 다른 정보들을 annotation 할 경우에 필히 reference genome이 어떤것인지 확인하여야 합니다.

 

Hg18의 chr, position를 Hg19의 것으로 옮기기 위해 UCSC liftover를 사용하면 되지만, 새로 mapping 하는것이 권장됩니다.

liftover하면서 매칭이 안되는 경우도 있습니다.

 

 

 

- UCSC Hg Liftover

Hg18으로부터 얻어진 Chr, position을 Hg19, 혹은 다른 Human genome reference로 liftover 하는 방법입니다.

 

Link - http://genome.ucsc.edu/cgi-bin/hgLiftOver

ucsc.edu 사이트에서 HgLiftOver을 제공하고 있습니다.

 

 

 

 

 

가지고있는 chr, position 정보가 어떤 reference version으로부터 나왔는지를 Original Assembly에 넣어주시고

바꾸고자 하는 reference version을 New Assembly에 세팅해줍니다.

 

 

 

 

ex) .Bed file format 예제. 파일 혹은 text로 업로드 합니다.

chr1:582180-582180
chr1:873379-873379
chr1:1102487-1102487
chr1:1408335-1408335
chr1:1639028-1639028
chr1:1908778-1908778
chr1:1958928-1958928
chr1:2034641-2034641
chr1:2268242-2268242
chr1:2537061-2537061

 

파일(.bed), 혹은 text 형태로 submit을 할 수 있습니다.

 

 

 

 

Submit을 끝내면 화면이 refresh 되면서 결과화면을 볼 수 있습니다.

Query에서 record가 몇개이며 몇개를 성공했는지, 실패했는지 볼 수 있습니다.

 

 

 

View Conversions를 클릭하면 Hg liftover Conversion 결과를 다운로드 할 수 있습니다.

 

Result: hglft_genome_709f_eddf30.bed

 

chr1:592317-592317
chr1:883516-883516
chr1:1112624-1112624
chr1:1418472-1418472
chr1:1649168-1649168
chr1:1918918-1918918
chr1:1969068-1969068
chr1:2044781-2044781
chr1:2278382-2278382
chr1:2547201-2547201

 

 

 

 

 

Conversion result를 비교해보면 다음과 같습니다.

 

chr1:582180 -> 592317
chr1:873379 -> 883516
chr1:1102487 -> 1112624
chr1:1408335 -> 1418472
chr1:1639028 -> 1649168
chr1:1908778 -> 1918918
chr1:1958928 -> 1969068
chr1:2034641 -> 2044781
chr1:2268242 -> 2278382
chr1:2537061 -> 2547201

 

실제로 10개의 유전자좌가 모두 바뀌었습니다.

서로 다른 Human genome reference로 mapping 된 데이터는 서로 비교가 불가능 하기 때문에 이렇게 liftover를 이용하여 같은 reference로 맞춰준 이후에 비교하여야 합니다

 

하지만 새로 mapping 하는 것이 가장 좋은 방법이라고 합니다.