Major Study./Journal study

MinION nanopore sequencer 를 위한 향상된 데이터 분석

sosal 2015. 6. 3. 23:51
반응형

 

/*

 http://sosal.kr/
 * made by so_Sal
 */

 

 

 

 

 

Nature Methods지에 실린 논문입니다.

NGS 이후에 3세대 Sequencer중에 하나인 MinION Nanopore sequencer로부터 얻은 데이터에 대해

정확한 sequencing을 위한 데이터분석 관련 논문입니다.

 

 

MinION Nanopore sequencer는 위의 그림처럼 usb크기의 아주 작은 sequencer다. 기존의 NGS sequencer와 달리, 다량의 잘려진 sequence fragment를 읽어들이는 것이 아닌, 하나의 DNA strand 전체를 한번에 읽어들일 수 있다는 장점이 있다. 현재까지는 variant가 아주 많은 부위 [예를들면 면역관련이나 류마티스 관절렴 등등, variant가 아주 심해 sequencing을 하지 못하는 부위]에 대해서는 mapping이 불가능 하기 때문에 시퀀싱이 불가능 한 위치였지만, 3세대 시퀀서가 그 문제를 해결해주고 가격 또한 어마어마하게 단가를 낮출 수 있을 것이라 기대되고 있다. 기본적으로 저항을 통해 DNA sequence를 읽어내는 방식이기에 시료값이 전혀 들지 않아 유지비 또한 굉장히 낮출 수 있을것이다.

 

 

 

Abstract

speed, single-base sensitivity, long read length라는 장점을 언급하며 MinION Nanopore의 퍼포먼스를 최적화 하기 위한 실험을 했다고 한다. InDel(삽입, 결실) 및 Substitution(치환)에 대해 최적의 우도(Maximum-likelihood estimates)를 얻기 위해 Expectation Maximization(EM) 알고리즘을 썼다고 하며 그를 이용한 SNV(Single nucleotide variant) detection tool 툴을 만들었고, M13 genomic DNA에 대해서 성공적으로 테스트를 마쳐 데이터와 함께 Nanopore도 이젠 괜찮은 sequencing accuracy를 보인다고 줒아한다. 최종적으로 기존의 NGS 시퀀서가 읽어내지 못하는 부위 - The copy number for a cancer-testis gene family(CT47) 를 시퀀싱 하는데에 성공하여 다량의 관련 데이터의 supplementary를 제공하고 있다.

 

 

 

 

- MinION nanopore sequencer

Input sequence의 구조부터 설명하면 파란색, 노란색, 빨간색, 초록색(?), 갈색의 5가지 부위로 구성되어 있다.

 

1. Lead adaptor: loads the processive enzyme and facilitates DNA capture in the applied electric field
2. The DNA insert template strand of interest
3. A hairpin adaptor: permits consecutive reading of the template and complement strands by nanopores
4. Complement strand
5. Trailing adaptor: concentrates DNA at the membrane surface

 

 

Double strand로 존재하는 DNA sequence가 위에 언급한것 처럼 몇가지 adaptor를 달고 시퀀서에 들어간다.

파란색의 Lead adaptor로부터 시퀀싱이 시작되며 노란색과 초록색(?)의 두가지 상보서열이 순서대로 읽히기 때문에, 한 서열로부터 두번의 sequencing을 한다고 생각하면 될 것 같다.

 

 

 

(b)를 보면 시간에 따른 전류의 값을 알 수 있다. 즉 전류에 따라서 sequence가 결정되는 것이다. MinION은 5개의 sequence 구성에 따라 달라지는 저항을 이용하여 흐르는 전류의 양을 통해 sequence를 예측한다. 한번에 5개씩 읽어들이는게 아니라 window size를 5로 두어 한 base-pair씩 읽어나가는 방식이다.

 

....ACGTGGTA....란 서열이 있다면

....ACGTGGTA....

....ACGTGGTA....

....ACGTGGTA....

....ACGTGGTA....

이와 같이 window size를 5로 하여 base-pair를 읽어나간다.

 

 

 

x축의 Identity라는 말은 정확히 무엇인지 언급은 되어있지 않지만, sequencing을 try 했을 때 sequencing을 성공하느냐에 대한 이야기인듯 하다. 얼마나 잘 읽었는지가 아니라, nanopore sequencer가 try 했을 때, 읽는것에 성공을 했느냐에 대한 이야기인듯 하다.

2014년 6월만 해도 Identity가 66%로 저조했지만 고작 몇개월 후인 11월에는 85%까지 Identity를 올렸다고 한다. 그만큼 빠르게 MinION nanopore sequencer가 상용화에 다가서고 있단 얘기인 듯 하다.

 

 

그리하여 이 시퀀서 요물을 이용하여 기존에 존재하는 4가지 mapping software를 비교한다.

- BLASR
- BWA-MEM Release 0.7.11
- LAST Version 490
- LASTZ Release 1.0.2.00

 

주형, 그리고 상보서열, 그리고 2D 서열(computational 하게 template read와 complement read를 합친)에 대해서 각각의 소프트웨어들 이용하여 parameter 최적화를 거치고, 결국에는 그 소프트웨어들이 읽어들인 sequence 데이터를 얼마나 잘 align 하는지, 그리고 mapping 하는지를 비교하였더니 LAST가 제일 좋았다고 한다.


그래서 LAST를 이용하여 Expectation-Maximization 알고리즘을 이용하여 성능을 향상시켰다는게 이 논문의 결론이다.

 

 

 

시퀀서가 잘 읽어 나갈것 같지만, 2.6%에 해당되는 부분이 Underrepresent 되었는데, 그중의 약 50%가 reference의 시작과 끝부분이며, 여기서 사용하는 base calling software인 Metrichor가 adaptor에 대해서 trimming 과정에서 생기는 문제라고 한다.

그리고 나머지에 대한 문제점인 '5-mers rich in polymeric nucleotide runs' 에 대해 이야기 하고 있다.

 

 

 

이와 같이 A 혹은 T가 연속적으로 많이 나오는 것에 대해서는 정확도가 떨어진다고 한다. 반면 GC가 많은 부위에 대해서는 base calling이 아주 잘 되어 over-represent 되는 부분은 대부분 GC-rich 부위라고 한다. (poly(dA) 혹은 poly(dT) 부분은 저항이 안정적이지 않아아, 전류가 좀 예측할 수 없는 값을 띄는 듯 합니다.)

 

 

 

 

 

그리고 MinION의 강점인 Long read length를 이용하여 기존의 기술로는 sequencing 할 수 없었던 unfinished region of genome을 시퀀싱 한다. (CT47 repeats가 존재하여 fragment를 조합하는 기존의 NGS 기술로는 sequencing 할 수 없었음)

 

이 그림과 같이 8개의 tandem copies of the repeat을 제대로 관측했다는 증거로, 제대로 sequencing 했음을 말하며 논문을 마친다.

 

 

 

DISCUSSION

 

M13 phage dsDNA를 이용하여 MinION sequence의 performance를 측정했다.

대략 99%의 read가 mapping 되었고, 2014년 11월 기준으로 nanopore가 85%의 성공률로 sequencing이 작동된다.

HMM - Expectation-maximization을 이용하여 Insertion, deletion, substitution 혹은 error들을 잡는데 성능을 높혔다.

High-confidence alignment는 결국 SNV를 잘 찾아내며, variant가 아주 극심하게 일어나거나 혹은 repeat이 많아 기존에 sequencing 할 수 없었던 부위까지 이제 sequencing 할 수 있게 되었다.

이미 MinION은 충분히 중요한 biological 문제를 해결할 수 있는 정확도를 가지고 있다.