Major Study./Bioinformatics

GDSC database Review

sosal 2016. 5. 2. 21:20

Genomics of Drug Sensitivity in Cancer

The Genomics of Drug Sensitivity in Cancer project is an academic research program to identify molecular features of cancers that predict response to anti-cancer drugs.

Figure 1. 3 Main datas

Please be aware that our website and results are part of an ongoing project. These webpages are updated frequently and our results are not final or complete.

1. Compounds

For this analysis we have correlated drug sensitivity data with genomic datasets to identify molecular features associated with drug sensitivity and resistance.

Figure 2. Compunds data lists

ex) 17-AAG

Name: 17-AAG: 항생제 이름.

Targets: HSP90 / (heat shock protein 90), a chaperone protein

HSP90은 종양의 성장에 필요한 단백질들을 안정화하는 단백질로, anti-cancer drug 개발에 활용되는 단백질.



데이터를 상세히 이해할 순 없겠지만, Drug의 chemical property를 feature로 사용하는 논문들이 간간히 보이는데,

아마도 데이터를 여기서 가져오는 것 같다. 혹시 필요하다면 몇몇 논문을 따라 feature로 사용할 수 있을 것 같다.

17-AAG drug를 클릭하면, 아래와 같은 데이터들을 확인할 수 있다.


Figure 3. 17-AAG 약물의 간단한 summary.

Number of cell lines screened: 이 약물을 이용하여, 몇개의 Cancer cell라인에서 drug sensitivity를 측정하였는가?

* IC50: Drug concentration in uM units required to eradicate 50% of the cancer cells.

Figure 4. 17-AAG Drug의 summary graph.

Y축은 Cancer cell line의 50%가 eradication 되는 이 약물의 농도이며,

X축은 Cell line의 index이며, Y축 수치(IC50)에 따라 정렬한 것이다.

저 그래프에 마우스를 올리면, 해당 Cell line의 rank, IC50 값을 알 수 있다.

실제 이 Drug에 해당하는 Sensitivity data의 raw data형태는 아래와 같다.

Excel을 이용하여 IC50값으로 오름차순 정렬을 하였고,

Figure 5. 17-AAG Drug / Sensitivity data

Figure 6. OnMouse: Figure 4의 15번째 X-index에 해당하는 MES-SA라는 Cell line의 Rank, IC50값을 보여준다.

Fig6에서 MES-SA라는 Cell line은 IC50값은 0.0166이다. Figure 5의 16번째 row에서도 직접 확인할 수 있다.

(Figure5에서 -4.09867 값은 실제 IC의 ln 값으로, exp(-4.09867) = 0.01659 값을 가짐)

2. Cancer genes.

For this analysis, the mutational status for genes that are frequently mutated in cancer were correlated with drug sensitivity data using a multivariate analysis of variance(MANOVA).

Multivariate analysis of variance를 통해, Mutational status for genes - Drug sensitivity의 correlation을 구한 데이터를 받아볼 수 있다.

ex) ATK2 gene

Figure 7. ATK2 gene의 mutational status에 따른 약물 반응의 효과 MANOVA result p-value.

ATK2 mutated cell line의 drug sensitivity vs ATK2 wild type cell line의 drug sensitivity

이것의 MANOVA & FDR 값을 통해, ATK2와 유의하게 관련있는 약물은 AKTinhibitor VIII, GSK-1904529A 2가지로 뽑혔다.

Figure 8. AKT2에 mutation이 있는 Cell line 8개 vs Wild type Cell line 664개의 비교

상단 탭을 이용하면 Tissue type에 따라 색을 볼 수 있고, Mutation type에 따라 색을 볼 수 있다.

Fig8은 Cancer tissue type에 따라 색을 보는 상황이고, Blood, Lung, Skin, Thyroid... 기타 등등 Cancer tissue type에 따라서 원하는 Cell line 데이터만 볼 수 있다.

Fig8의 상단탭에서 Mutation type을 보면 Coding mutation, Deletion, Amplification 3가지 type에 따라서 원하는 Cell line 데이터만 볼 수 있다.

Genetic Mutation data format

Genetic mutation data for cancer genes. Includes MSI status (1 = unstable and 0 = stable) and gene-fusions. A binary code 'x::y' description is used for each gene where 'x' identifies a coding variant and 'y' indicates copy number information from SNP6.0 data. For gene fusions, cell lines are identified as fusion not-detected (0) or the identified fusion is given. The following abbreviations are used: not analysed (na), not detected or wild-type (wt), no copy number information (nci).

Figure 9. Genetic mutation data format을 Excel로 본 모습.

위의 Description을 읽어보면 MSI data도 있다고 하는데, 이 form을 보면 MS-HL이 MSI를 말하는 것 같다.

(MS-HL이 무슨 약자일까? ..... microsatellite xxx 일거같은데 모르겠다. )

MC-CAR cell line 기준으로, AKT2 유전자는 na::0<cn<8 이라는 데이터를 가지고 있다.

::를 기준으로 좌측은 mutation, 우측은 copy number로 split 된다.

1. Mutation

- na: 조사되지 않은 경우

- wt: Wild type인 경우

- Mutation이 있는 경우, HGVS format으로 나타내진다. ex(p.E542K)

2. Copy mumber

wild type: 0<cn<8
Deletion: 0

Amplification: >=8

ex) p.V592A::>=8

592번째 아미노산의 V -> A substitution 존재, amplification 존재

좌측의 na로 Mutation은 analysis 되어지지 않았고, copy number는  0<cn<8 값을 가지는데, 이것은 정상을 나타내는 값이다.

정확히 cn이어떻게 계산되는지는 더 자세히 알아봐야 하지만, 간단히 8을 기준으로 Amplification 유무를 확인할 수 있다.

3. Cell lines.

Figure 10. graph - 하나의 Cell line에서 Drug에 따른 IC50값.

사실상 Coumpunds에서 제공하는 데이터와 다를 바 없음.

Citing the GDSC resource

Yang, Wanjuan, et al. "Genomics of Drug Sensitivity in Cancer (GDSC): a resource for therapeutic biomarker discovery in cancer cells." Nucleic acids research 41.D1 (2013): D955-D961.

현재까지 google scholar 기준, 128회 인용되어있다.

Papers refering GDSC resource

Lukey, Michael J., et al. "The oncogenic transcription factor c-Jun regulates glutaminase expression and sensitizes cells to glutaminase-targeted therapy." Nature Communications 7 (2016).

2016년 4월 18일에 나온 논문으로, 실험적으로 발견한 Oncogenic transcription factor c-Jun의 특징을 GDSC database를 이용하여 validation 하고 있다.

Menghi, Francesca, et al. "The tandem duplicator phenotype as a distinct genomic configuration in cancer." Proceedings of the National Academy of Sciences 113.17 (2016): E2373-E2382.

자신들의 정의한 TDP: tandem duplicator phenotype (TDP) characterized by frequent and distributed tandem duplications (TDs). 이것이 GDSC의 breast cancer에서 marker for drug sensitivity로 작용하고 있다는 것을 통해, validation 한다.

Zhang, Min, et al. "Copy number deletion of RAD50 as predictive marker of BRCAness and PARP inhibitor response in BRCA wild type ovarian cancer." Gynecologic Oncology 141.1 (2016): 57-64.

Informatics만으로 Gynecologic oncology에 나온 페이퍼.. 나도 이런 페이퍼를 쓸 수 있을까?..

Ung, M. H., et al. "Integrated Drug Expression Analysis for leukemia: an integrated in silico and in vivo approach to drug discovery." The pharmacogenomics journal (2016).

이 논문에서는 우리 연구실의 Drug Score와 비슷한 개념의 DRS를 만들었다.

We use a drug regulatory score (DRS) to measure the similarity between drug-induced cell line and patient tumor gene expression profiles, and show that these computed scores are highly correlated with in vitro metrics of pharmacological activity.

in vivo experiment와 함께 Drug-sensitivity 관련 다양한 데이터베이스, Survival data까지 잘 통합하여 연구한 논문.