Major Study./Bioinformatics

TCGA data FTP, wget을 통해 받는 방법

sosal 2015. 7. 20. 16:35
반응형

 

/*

 http://sosal.kr/
 * made by so_Sal
 */

 


TCGA Data Portal에서는 다양한 데이터를 제공한다.

https://tcga-data.nci.nih.gov/tcga/

 

 

 

 

웹사이트에서 직접 데이터를 받는것은 아무리 bulk download를 하더라도, 필요없는 데이터까지 한번에 받아야 하며

캔서 type마다 단순반복적인 행동을 해야하기 때문에 좋은 방법이 아닌 것 같다.

 

 

 

리눅스에서 wget으로 원하는 파일만 wildcard를 사용하여 다운받을 수 있기 때문에

FTP를 이용한다면 원하는 파일을 쉽고 빠르게 받을 수 있다.

 

FTP Link -

https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/

 

 

 

 

 

ex) HNSC cancer에서 RNASeq V2 데이터 다운받기

 

https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/hnsc/cgcc/unc.edu/illuminahiseq_rnaseqv2/rnaseqv2/

 

 

unc.edu_HNSC.IlluminaHiSeq_RNASeqV2.Level_3.1.9.0.tar.gz

unc.edu_HNSC.IlluminaHiSeq_RNASeqV2.Level_3.1.9.0.tar.gz.md5
unc.edu_HNSC.IlluminaHiSeq_RNASeqV2.Level_3.1.9.0/

 

이 포스팅의 시점에서 3.1.9 버전이 최신 RNASeqV2. 버전이며 tar.gz 파일을 통해서 bulk download로 제공되는 RNASeqV2 level data를 받을 수 있다. 하지만 tar.gz 파일 속에는 모든 종류의 RNASeq level data가 모두 존재하기 때문에 용량도 매우 크고 차후에 파일을 격리해주는 작업까지 해줘야 한다. 따라서 압축이 풀려있는 경로에서 원하는 데이터만 받는 것이 제일 좋은 방법이 되겠다.

 

junction_quantification.txt
rsem.genes.results
rsem.isoforms.results
rsem.genes.normalized_results
isoforms.normalized_results
bt.exon_quantification.txt

 

HNSC cancer에서 위의 해당 버전 및 경로에서 'upper quartile normalized RSEM count estimates' 처리가 된 genes.normalized_results 파일만 다운받아 보는 방법은 다음과 같다.

 

 

wget -r --no-parent -A *.genes.normalized_results https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/tumor/hnsc/cgcc/unc.edu/illuminahiseq_rnaseqv2/rnaseqv2/unc.edu_HNSC.IlluminaHiSeq_RNASeqV2.Level_3.1.9.0/

 

물론 mage-tab 파일도 있어야 나중에 uuid 이름으로 된 rnaseq v2 파일들의 파싱이 가능합니다!