Major Study./Bioinformatics

R package를 이용하여 TCGA 데이터 다운받기

sosal 2017. 10. 31. 11:32
반응형


http://www.liuzlab.org/TCGA2STAT/
https://cran.r-project.org/web/packages/TCGA2STAT/index.html


TCGA2STAT: Simple TCGA Data Access for Integrated Statistical Analysis in R
Automatically downloads and processes TCGA genomics and clinical data into a format convenient for statistical analyses in the R en
environment.

R을 이용해서 TCGA 데이터를 바로 불러올 수 있는 패키지.

2015. 11. 14.
Wan, Ying-Wooi, Genevera I. Allen, and Zhandong Liu. 
"TCGA2STAT: Simple TCGA Data Access for Integrated Statistical Analysis in R." Bioinformatics (2015): btv677.


RNASeq data


# Get RSEM values, RNA-SeqV2 data for ovarian cancer patients
# data.type="RNASeq" 이면 RNA-Seq 데이터를 받음
rsem.ov <- getTCGA(disease="OV", data.type="RNASeq2")


> dim(rnaseq.ov$dat)
[1] 19990   299

> rsem.ov$dat[1:10,1:3]
       TCGA-04-1348-01A-01R-1565-13 TCGA-04-1357-01A-01R-1565-13 TCGA-04-1362-01A-01R-1565-13
A1BG                        66.4695                      65.5664                      41.6412
A1CF                         0.0000                       0.0000                       0.3310
A2BP1                        0.2689                       0.6510                       4.3025
A2LD1                      221.5219                     141.2826                     265.8161
A2ML1                        7.5289                      54.6875                       5.6263
A2M                       5899.8279                    9384.4401                    3350.4207
A4GALT                      92.4980                     298.1771                     697.9919
A4GNT                        0.5378                       0.0000                       0.0000
AAA1                         0.0000                       0.0000                       0.0000
AAAS                      2186.0715                    1073.5677                    1140.8147


[실제 TCGA-04-1348-01A-01R-1565-13 환자의 Raw data.rsem.gene.normalized data]
   31 A1BG|1  66.4695
   32 A1CF|29974  0.0000
   33 A2BP1|54715 0.2689
   34 A2LD1|87769 221.5219
   35 A2ML1|144568    7.5289
   36 A2M|2   5899.8279
   37 A4GALT|53947    92.4980
   38 A4GNT|51146 0.5378
   39 AAA1|404744 0.0000
   40 AAAS|8086   2186.0715

당연하겠지만, 예전에 TCGA에서 직접 받아놨던 데이터와 같은 값을 가진다.
TCGA에서 RNASeqV2 데이터를 제공할 때, normal, rsem normalization 이전의 수치, isoform, isoform normalization 등
모든 파일이 묶여서 제공되고 환자별로 파일이 나뉘어 있기 때문에, 용량이 매우 크고 파일처리가 귀찮은 반면
이 패키지를 이용하면 아주 쉽게 데이터를 받을 수 있을 것 같다.





Mutation data


# Get somatic non-silent mutations for ovarian cancer patients
mut.ov <- getTCGA(disease="OV", data.type="Mutation", type="somatic")

> mut.ov$dat[1:5,1:3]
        TCGA-24-1471 TCGA-13-0899 TCGA-23-1021
PPP2R5A            1            0            0
TBC1D4             1            0            0
ICAM1              1            0            0
CPS1               1            0            0
EP300              1            0            0

> dim(mut.ov$dat)
[1] 5821  232

데이터가 gene by patient로 구성되어있다.
다양한 기관에서 만들어진 maf 파일들이 존재할텐데, 어떻게 이러한 구성으로 데이터가 주어졌을까 궁금해서
manual을 보니까 아래와 같이 나와있다.


The level-3 files of called mutations from the Broad Firehose are saved in Mutation Annotation Format (MAF).
Each MAF file lists mutations found for the particular patient. Since each patient may have different mutations,
the number of genes in each MAF file vary from patient to patient. Hence, the MAF files are not in a format
ready for statistical analysis. To solve this, our package aggregates the obtained MAF files into a matrix
of dimension gene x patient, with a value of one in cell(i,j) if a mutation is found in gene-i from patient-j,
and a zero otherwise.

무려 MAF 파일들을 합쳐놨고, mutation이 발견된다면 1, 아니면 0이라고 명시되어있다.

> summary(factor(mut.ov$dat[,]))
      0       1
1341817    8655

broad.mit.edu의 Level2 데이터를 확인해보면 variant의 수는 6313개로, 다른 기관의 데이터까지 aggregation하면 저 값이 나올 것 같다.
하지만 mutation data는 maf raw data를 직접 다운 받아서 사용하는 것이 더 좋을 것 같다.