Centrifuge - BLAST보다 3000배 이상 빠른 프로그램
/*
* http://sosal.kr/
* made by so_Sal
*/
https://ccb.jhu.edu/software/centrifuge/manual.shtml
Facebook korean bioinformatics에서 김대환 박사님께서 언급하신 프로그램.
BLAST보다 3,000배 이상 빠른 Centrifuge라는 프로그램 (https://ccb.jhu.edu/software/centrifuge)도 있습니다.
Centrifuge 웹사이트에서 NCBI nucleotide non-redundant sequences (nt)인덱스를 다운로드 받으셔서 사용하시면 될것 같습니다.
이 nt 인덱스는 viruses, archaea, bacteria, eukaryotes등의 genome sequence를 포함하는 광범위한 데이터 베이스입니다.
(human genome도 포함).
정체모를 read들의 source genome을 파악하는데 유용할수 있을듯 합니다.
unmapped sequence가 어떤것이 존재하는지 확인하기 위한 작업에 유용할 것 같다.
e-val 0.0001으로 threshold를 걸고 1등의 taxonomy id를 찾아서 정리
-> unmapped가 많이 나오는 사람의 경우 상당수는 오염이거나 바이러스로 나오는 경우가 존재.
5000개나 1만개만 해도 패턴은 충분히 알수있다고 한다.
RNASeq 이후에 unmapped sequence에 virus 감염여부를 확인하는것도 가능할 것 같다(?).
보건대에 있으신 분들이 이런것은 전문적으로 하시던데..
언제 배울 기회가 있을까?