R package를 이용하여 TCGA 데이터 다운받기
http://www.liuzlab.org/TCGA2STAT/
https://cran.r-project.org/web/packages/TCGA2STAT/index.html
TCGA2STAT: Simple TCGA Data Access for Integrated Statistical Analysis in R
Automatically downloads and processes TCGA genomics and clinical data into a format convenient for statistical analyses in the R en
environment.
R을 이용해서 TCGA 데이터를 바로 불러올 수 있는 패키지.
2015. 11. 14.
Wan, Ying-Wooi, Genevera I. Allen, and Zhandong Liu.
"TCGA2STAT: Simple TCGA Data Access for Integrated Statistical Analysis in R." Bioinformatics (2015): btv677.
RNASeq data
# Get RSEM values, RNA-SeqV2 data for ovarian cancer patients
# data.type="RNASeq" 이면 RNA-Seq 데이터를 받음
rsem.ov <- getTCGA(disease="OV", data.type="RNASeq2")
> dim(rnaseq.ov$dat)
[1] 19990 299
> rsem.ov$dat[1:10,1:3]
TCGA-04-1348-01A-01R-1565-13 TCGA-04-1357-01A-01R-1565-13 TCGA-04-1362-01A-01R-1565-13
A1BG 66.4695 65.5664 41.6412
A1CF 0.0000 0.0000 0.3310
A2BP1 0.2689 0.6510 4.3025
A2LD1 221.5219 141.2826 265.8161
A2ML1 7.5289 54.6875 5.6263
A2M 5899.8279 9384.4401 3350.4207
A4GALT 92.4980 298.1771 697.9919
A4GNT 0.5378 0.0000 0.0000
AAA1 0.0000 0.0000 0.0000
AAAS 2186.0715 1073.5677 1140.8147
[실제 TCGA-04-1348-01A-01R-1565-13 환자의 Raw data.rsem.gene.normalized data]
31 A1BG|1 66.4695
32 A1CF|29974 0.0000
33 A2BP1|54715 0.2689
34 A2LD1|87769 221.5219
35 A2ML1|144568 7.5289
36 A2M|2 5899.8279
37 A4GALT|53947 92.4980
38 A4GNT|51146 0.5378
39 AAA1|404744 0.0000
40 AAAS|8086 2186.0715
당연하겠지만, 예전에 TCGA에서 직접 받아놨던 데이터와 같은 값을 가진다.
TCGA에서 RNASeqV2 데이터를 제공할 때, normal, rsem normalization 이전의 수치, isoform, isoform normalization 등
모든 파일이 묶여서 제공되고 환자별로 파일이 나뉘어 있기 때문에, 용량이 매우 크고 파일처리가 귀찮은 반면
이 패키지를 이용하면 아주 쉽게 데이터를 받을 수 있을 것 같다.
Mutation data
# Get somatic non-silent mutations for ovarian cancer patients
mut.ov <- getTCGA(disease="OV", data.type="Mutation", type="somatic")
> mut.ov$dat[1:5,1:3]
TCGA-24-1471 TCGA-13-0899 TCGA-23-1021
PPP2R5A 1 0 0
TBC1D4 1 0 0
ICAM1 1 0 0
CPS1 1 0 0
EP300 1 0 0
> dim(mut.ov$dat)
[1] 5821 232
데이터가 gene by patient로 구성되어있다.
다양한 기관에서 만들어진 maf 파일들이 존재할텐데, 어떻게 이러한 구성으로 데이터가 주어졌을까 궁금해서
manual을 보니까 아래와 같이 나와있다.
The level-3 files of called mutations from the Broad Firehose are saved in Mutation Annotation Format (MAF).
Each MAF file lists mutations found for the particular patient. Since each patient may have different mutations,
the number of genes in each MAF file vary from patient to patient. Hence, the MAF files are not in a format
ready for statistical analysis. To solve this, our package aggregates the obtained MAF files into a matrix
of dimension gene x patient, with a value of one in cell(i,j) if a mutation is found in gene-i from patient-j,
and a zero otherwise.
무려 MAF 파일들을 합쳐놨고, mutation이 발견된다면 1, 아니면 0이라고 명시되어있다.
> summary(factor(mut.ov$dat[,]))
0 1
1341817 8655
broad.mit.edu의 Level2 데이터를 확인해보면 variant의 수는 6313개로, 다른 기관의 데이터까지 aggregation하면 저 값이 나올 것 같다.
하지만 mutation data는 maf raw data를 직접 다운 받아서 사용하는 것이 더 좋을 것 같다.