Major Study./Journal study

Integrating genomic and transcriptomic and functional data

sosal 2015. 7. 11. 13:12
반응형

 

/*

 http://sosal.kr/
 * made by so_Sal
 */

 


 

Suo, Chen, et al. "Integration of somatic mutation, expression and functional data reveals potential driver genes predictive of breast cancer survival." Bioinformatics (2015): btv164.

 

bioinformatics 학회지에 실린 논문. 제목만으로는 평범한 gene scoring 논문인줄 알았는데, 의외로 너무 재밌는 논문이었다.

 

초록에서는 다음과 같은 문장으로 시작된다.

Genome and transcriptome analyses can be used to explore cancers comprehensively, and it is increasingly common to have multiple omics data.

 

여기서 Genome은 somatic mutation을 의미하고 transcriptome (expression)은 RNASeq의 isoform counts matrix를 의미한다. 그리고 multiple omics data(functional data)는 Network enrichment analysis(NEA)를 의미한다.

 

Alexeyenko, Andrey, et al. "Network enrichment analysis: extension of gene-set enrichment analysis to gene networks." BMC bioinformatics 13.1 (2012): 226.

NEA는 HUPO에 존재하는 16,288개의 genes/proteins를 대상으로 약 140만개의 functional interaction을 제공한다.

 

 

 

그래서 mutation, isoform RNASeq, NEA 3가지를 짬뽕해서 DGscore라는것을 만들어내면 그 값은 환자별로 독립적인 하나의 값을 가지게 되는데, 그 수치가 TCGA breast cancer의 60명의 환자들의 cox proportional-harzard regression survival analysis에서 0.004라는 어메이징한 p-value가 나온다.

 

 

univariate regression 결과 이 논문에서 도출한 DGscore와 이미 알려진 prognostic factor들의 비교

 

 

 

 

DGscore를 만드는 알고리즘은 다음과 같다.

 

 

이 논문에서 Figure1을 장식하고 있는 DGscore를 도출해내는 멋진 workflow다.

 

1. Somatic mutation

fig1에서 2~4에 해당하는 내용으로, Exome-seq으로부터 GATK, PICARD 등의 소프트웨어로 초기 리드들을 정제하고 카이제곱 테스트 p-value 0.01로 threshold를 걸고, 환자별로 최대 1000개까지의 somatic variant calling을 해낸다.

그리고 snpEff라는 소프트웨어가 있는데, 각 variant들을 4가지의 impact로서 분류해준다.

 

 

ex) Reference genome GRCh37.66을 snpEff로 분석한 결과

이처럼 High, Moderate, Low, Modifier 4가지로 분류한다.

Cingolani, Pablo, et al. "A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3." Fly 6.2 (2012): 80-92.

 

FGS - Functional Gene Set의 약자로, NEA에서 사용하는 용어이기 때문에 이 논문에서는 FGS라는 단어를 사용하였다고 한다.

somatic mutation이 존재하는 Gene이 실제로 FGS에 들어가기 위한 조건은 다음과 같다.

1) 10명 이상의 환자가 variant를 가지고 있을것

2) 2명 이상의 환자가 Moderate 또는 High impact를 가지는 variant를 가지고 있을 것.

 

위 두개의 조건을 만족하는 gene은 바로 FGS에 들어가게 된다.

 

 

2. RNASeq

Sequgio라는 소프트웨어는 bam파일로부터 counts matrix를 추출한 후에 자신들이 만든 model에 fitting 하는 구조로 되어있으며,

Gene isoform expression estimation을 위한 R패키지이다.

Suo, Chen, et al. "Joint estimation of isoform expression and isoform-specific read distribution using multi-sample RNA-Seq data." Bioinformatics (2013): btt704.

(이 논문의 저자와 같은사람이다.)

 

결국 isoform RNASeq expression level에서 normal sample에 비해 tumor sample이 Differential expression을 가지는 gene들이 AGS에 들어가는데, 이 논문에서 DEG를 구하는 방식은 2가지다.

 

1) common drivers

모든 환자들의 Normal sample vs Tumor sample의 비교를 통해, Differential expression을 일으키는 isoform을 가지는 gene들을 출여내 top 100을 도출하는 것이다. 따라서 모든 환자는 똑같은 100개의 common drivers gene list를 가진다.

 

2) patient-specific drivers

이 방법은 각각의 환자가 가지는 isoform의 Tumor sample, Normal sample의 expression - fold change를 구해, 절대값이 가장 큰 100개의 gene을 환자마다 뽑는 방식이다.

 

over- 또는 under-expression의 top 100 목록은 각자 환자마다 다르며, 환자별로 다르게 접근하는 scoring 방식이므로 DISCUSSION 부분에서는 이점을 부각시켜 personal treatment 이야기도 꺼낸다.

 

그래서 결국 RNASeq 데이터로부터 Common drivers, Patient-specific drivers를 추출하게 되고, 그 유전자들의 집합을 AGS라고 한다. Altered Gene Set의 약자인데, 이것도 역시 NEA 논문에서 사용되는 용어이기 때문에 AGS로 두었다고 한다.

 

 

 

3. Network enrichment analysis(NEA)

이제 AGS, FGS를 모두 구했으니 NEA 분석만 하면 바로 이 논문에서 도출한 DGscore를 구할 수 있다.

중요한것은 "FGS에 들어있는 각각의 유전자들이 AGS에 얼마나 연결되어있느냐" 이다.

 

다시말하면 Somatic mutation 데이터로부터 구한 Functional gene set(FGS)에 속해있는 A라는 유전자가

Differential expression을 가지는 Altered gene set(AGS)의 목록과 얼마나 많이 연결되어있느냐 이다.

 

 

 

4. z-score와 DGscore 

이 논문에서 z score는 실제로 통계에서 이야기하는 z와 공식과 같고, FGS에 포함된 모든 유전자들에게 부여되는 수치이다.

따라서 FGS에 속하는 모든 유전자들에 대해 z-score를 구한다.

 

dAF는 FGS에 속하는 하나의 유전자가 NEA의 네트워크에서 AGS와 연결된 유전자가 몇개인지를 뜻하며,

μAF and σAF는 평균과 표준편차를 뜻한다.

 

그렇게 한명의 환자가 가지는 모든 FGS에 z-score가 부여되며, 그것들의 총합이 바로 DGscore가 된다.

60명의 breast cancer로부터 DGscore를 구하면 score는 0 to 11.8이 되고 median은 0.54가 된다고 한다.

 

단순히 0.54를 기준으로 Higher group, Lower group으로 나눠서 Kaplan-Meier plots과 log-rank test를 한 결과는 다음과 같다.

 

figure 3.a

p-value가 무려 0.001이다.

 

 

 

논문 본문을 보면 특정한 값에 biased 되어있지 않다는걸 증명하기 위해 다양한 test를 한다.

isoform이 아닌 gene level을 이용한 test

FGS의 수를 이용한 test

Extreame expression을 빼고 test

AGS에서 common driver를 빼고 test

AGS에서 common driver만을 이용한 test

AGS에서 patient-specific driver만을 이용한 test 등등.

 

실제로 DGscore을 제대로 구하여 사용한 것이 제일 성능이 좋으며, 나머지 test에서는 처참한 결과가 나온다.


 

 

 

 

TCGA에서는 normal sample에 대한 RNASeq data를 제공하는 경우가 드물기 때문에

1000명이 넘는 Breast cancer에도 불구하고 60명으로밖에 연구할 수 없었던게 가장 아쉬운 것 같다.

 

내 낮은 수준에서 이 논문을 비판하기에는 이 논문에서 스스로 얘기하고 있는 한계점들 외에는 딱히 떠오르는게 없다.

1. sample의 수가 작은점

2. exome sequencing이기 때문에, non-coding region에 존재할 수 있는 variant에 대해서는 가중치를 줄 수 없는점

3. NEA에서 알려진 interaction에 의존하는 점

4. non-directional biological network

5. impact의 불명확성

 

등을 언급하고 있다.

 

지도교수님께서 이 논문을 같이 보셨더라면 어떠한 비판을 해주셨을지, 어떠한 코멘트를 남겨주셨을지 정말 궁금하다.

 

 

 

 

+

 

2015.07.11

나는 너무 methodology에만 집착하고 있는데, 이 논문에서 얻을점은 오히려 biological meaning인 것 같다.

 

논문에서는 method 뿐 만 아니라 Isoform에 대한 interpretation을 RESULTS에서 꾀나 다루고 있다.

하나의 Gene에서 isoform들을 분리하는건 중요하며, Gene과 isoform들을 잘 분리하지 않는다면 분명히 Differential expression pattern이 일어나는 상황인데도 불구하고 그 영향이 없어지는 수가 있다, 다양한 질병과 관련되어 있다, 등..

 

간단히 논문검색만 해봐도 isoform expression level과 mutation의 연관성에 관련된 연구가 많이 검색 되는데,

난 TCGA에서 isoform expression level을 배포하는 이유도 몰랐을까..

사실 생각조차 안해본것 같다.