Gene expression data and Survival analysis
Springer 2005, Peter J. Park
Methods of Microarray Data Analysis IV
Gene Expression Data and Survival Analysis
http://link.springer.com/chapter/10.1007%2F0-387-23077-7_3
상당히 오래된 문서이지만, Microarray를 사용한 Survival analysis에서 다뤄지는 다양한 알고리즘과 문제점들이 소개된다.
Gene expression을 이용한 survival analysis를 공부하면서 살짝 간출여서 정리해보려고 노력해봤다.
ABSTRACT.
Expression profiles와 Phenotypic data의 association study와, Expression data를 이용한 classification algorithms 들이 많이 연구되어왔다. 하지만 Survival analysis에서는 Censoring (중도절단) 문제가 있는데, 이들을 제거하고서는 데이터가 충분치 않다. 따라서 이들을 해결하는 progress, challenge들을 리뷰하도록 한다.
INTRODUCTION.
Microarray technology 기술을 이용하여 binary response variable(1/0 problem. Cancer / Normal tissue 구분 등 )과 연관짓는 classification 연구들이 많이 진행되었다. Cancer / Normal tissue, Disease progression (stage) 등등.. 그리고 정말 많은 알고리즘 및 모델링 feature 들이 소개되었다.
하지만 최근 가장 중요하게 다뤄지는 데이터는 바로 Survival time이다. Survival analysis는 Survival/failure time 또는 event들의 분포를 설명하는 통계분석들의 collection이며, 최근 Gene Expression과 survival data의 상관관계를 분석하는 연구가 활발하다.
Survival data를 다룰 땐 아주 조심스러워야 한다. classification 연구에서는 prediction이 selection bias 때문에 prediction rate가 높게 나오는 경향을 보일 수 있으며 [Ambroise and McLachlan, 2002], randomly generated data에서도 high classification rate를 보일 수 있다는 연구도 진행되었다 [ Simon et al., 2003].
CURRENT USE OF SURVIVAL DATA
'Censoring' (중도절단)은 환자를 더이상 관찰할 수 없는 상황을 뜻한다. 임상실험에서 대부분의 환자가 죽는경우는 흔치 않고, 연구가 끝날 때 까지 죽지 않은 경우가 있기 때문에, 모든 환자들의 정확한 생존기간을 측정하는 것은 불가능하다. 그리고 질병의 진단일은 알 수 있지만, 실제로 환자가 언제부터 질병을 앓기 시작했는지 알 수 없다. 이것을 'Left-censoring' 라고 한다. 그래서 우리는 진단일이 병의 시작과 가깝다고 가정하고, 중도절단이 아닌것으로 가정한다. 이보다 더 심각한, 무시할 수 없는 문제가 바로 'Right-censoring' 인데, 환자를 더이상 추적할 수 없는 경우를 뜻한다. 여기서 환자가 다른지역으로 이동하는 등의 condition과 관계 없이 following이 종료되는 경우 Uninformative라고 가정하고, 환자의 상태가 너무 좋지 않아 followling이 종료되는 등의 condition과 관계된 경우에는 Informative 라고 가정하고 분석을 한다. 이러한 Censoring은 아주 심각한 이슈로, 연구에서 필히 효율적으로 다뤄져야 할 문제이다.
초기의 연구는 생존이 짧은 환자와 긴 환자를 미리 나누어 Expression을 분석하는 등의 비효율 적인 방식이 사용되었다. 이 경우, 연구기간 이상 살아남은 환자들이 서로 같이 묶이는 문제가 발생하는 등 데이터를 효율적으로 사용할 수 없는 문제가 발생하였다.
하지만 최근의 연구에서는 Expression profiles를 이용하여 환자들을 먼저 clustering 한 후에 cluster에 따른 환자들의 차이를 보는 방식을 채택하였다. Hierarchical clustering과 Kaplan-Meier curve 및 Log-rank test가 아주 대표적인 알고리즘들이다. 이러한 방법은 Expression profile과 survival의 관계를 잘 설명해주지만, 방향성이 없고 데이터 활용면에서는 비효율적이다. 어떤 면에서는 Survival data가 오직 clustering algorithm이 잘 만들어 졌는지 확인하는 작업에만 사용된다고도 생각할 수 있다.
CHALLENGES
i) Technological limitations
Expression analysis에서 데이터의 consistency, reproducibility의 부족이 큰 문제다. 작은 cDNA array와 25-mer probes가 달린 high-density Affymetrix array의 실험결과가 불일치 한다는 연구 결과가 있다 [Kuo et al., 2002; Yuen et al., 2002; Ten et al., 2003]. 데이터들은 각각 샘플, 기구, 프로토콜, 회사, 플랫폼 등이 다르며 또한 합의되어있지 않기에 큰 문제가 발생한다. 심지어 같은 플랫폼에서도 probe set의 수에 따라서 결과가 달라지기도 한다. 또한 데이터의 'Robustness'가 떨어지기 때문에, 어떤 검정 알고리즘을 사용하느냐에 따라 결과가 달라진다.
ii) Dealing with high-demensionality
Microarray data에서 High-dimensional(고차원의 데이터)는 즉 Gene의 수가 매우 많음을 의미한다. 따라서 발현이 되지 않거나 미미한 유전자들을 제거하나, 서로 다른 모집단의 비교에서 변동성이 매우 작은 유전자들을 제거하는 방법을 통해 기초적인 filtering을 거친다. 그이후에 중요한 gene들을 선별하기 위해 다양한 방법들이 존재한다.
그중에 하나는 Dimensionalit reduction을 위한 수학적인 방법들이다. Principal component analysis, Singular value decomposition들이 전형적인 방법이다. 하지만 이 방법들로부터 나온 낮은 차원의 데이터는 높은 상관관계를 보장하지는 않으며, 아주 간단한 케이스를 제외하고서는 의미를 부여하기도 힘들다.
비슷한 성격의 유전자들을 그룹화 하는 방법도 있다. 그룹화 된 유전자들은 'metagene' 혹은 'supergenes'라고 불리며 다양한 방법들이 존재한다 [Turkey, 1993; Hedenfalk et al., 2001; Radmacher et al., 2002; Golub et al., 1999; Hastie et al., 2001;]. Rosenwald et al, [2002] 에서는 Cox proportional harzard model을 각각의 유전자에 적용하여 중요한 유전자들만 필터링 한 후, 비슷한 유전자들끼리 clustering을 하여, 각 유전자들 그룹마다 평균값을 이용하여 multivariate cox model에 적용하는 방식을 사용하였다.
Prediction을 목적으로는 partial least squares를 이용하는 방법이 각광 받고있다. PCA는 variability는 좋지만 correlation이 낮으며, Linear regression으로 variable을 selection 하면 correlation은 좋지만 variability 면에선 설명력이 떨어진다. Partial least squares는 위 두개의 알고리즘 사이에 놓여있는데, predictor space의 Variability도 잡는 동시에 predictive gene들의 combination orthogonal set까지 잡아 준다. 이 알고리즘은 많은 변수들에 대해 적용하기가 쉬우며, 변수가 케이스보다도 많더라도 사용할 수 있다. [Nguyen and Rocke, 2002a; Johansson et al., 2003; Perez-Enciso and Tenenhaus, 2003] 등의 다양한 논문에서 nominal phenotype에 대해 Gene expression analysis를 적용한 예들이 있다.
iii) Incorporating other patient data
다양한 clinical factor들은 disease subtype이나 survival과 association들은 크게 연관이 없었다. Microarray의 부재로 인한 결과라고 저자는 이야기를 풀어나간다. BRCA1과 BRCA2의 mutation이 특정 유전자들의 expression에 영향을 주며 [Hedenfalk et al., 2001], immunohistochemical staining과 같이 expression profiling보다 더 값싸고 쉽게 수행할 수 있는 방법들이 많이 있다. 따라서 더 나은 classification, prediction model을 만들기 위해서는 다양한 prognostic factor들을 결합하여 multivariate model을 구성해야 한다고 이야기 한다.
CONCLUSION
지금까지 많은 연구들은 Survival data를 효율적으로 사용하지 못했으며, 다양한 알고리즘과 데이터를 잘 활용할 수 있는 방안을 내놓는것이 중요하다고 이야기를 마친다.