Major Study./Bioinformatics

snpEff: predicting the effects of SNP

sosal 2015. 10. 7. 22:19
반응형

 

/*

 http://sosal.kr/
 * made by so_Sal
 */

 


 

http://snpeff.sourceforge.net/

Cingolani, Pablo, et al. "A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3." Fly 6.2 (2012): 80-92.

 

variant의 position, allele 정보를 주면 얼마나 위험한지 HIGH / MODERATE / LOW 3가지로 분류해줍니다. (그 외 MODIFIER)

 

A high impact: mutation leads to exon deletion, frame shift and stop lost.
Moderate impact: includes non-synonymous coding, codon insertion or deletion, etc.
low impact: categorized Synonymous start/stop, synonymous coding, etc.

 

 

 

위는 GRCh37.66 reference에 대한 snpEff annotation 통계

High Impact effect variant가 178,680개 되네요.

SIFT에서 지정한 Loss of function 수치인 SIFT score < 0.05의 통계랑 비교해보고 싶네요.

(이정돈 당연히 알아야 하는 것 같은데.. 제가 멍청합니다 ㅠㅠ)

 

 

 

이 프로그램의 Input은 VCF 형태입니다.

사용하기 정말 쉽습니다.

 

아래에 간단하게 정리해봤습니다.

 

 

- example.sh

 

#!/bin/sh
genome="GRCh37.75"
java -Xmx4g -jar ../snpEff.jar $genome ./input.vcf > ./output.vcf


 

 

- Input file과 snpEff로 annotation한 결과 output file

Input file:
1       889455  .       G       A,T     .       .       .

 

output:
1       889455  .       G       A,T     .       .       ANN=A|stop_gained|HIGH|NOC2L|ENSG00000188976|transcript|ENST00000327044|protein_coding|7/19|c.706C>T|p.Gln236*|756/2790|70
6/2250|236/749||,T|missense_variant|MODERATE|NOC2L|ENSG00000188976|transcript|ENST00000327044|protein_coding|7/19|c.706C>A|p.Gln236Lys|756/2
790|706/2250|236/749||,A|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000487214|processed_transcript||n.*865C>T||
|||351|,T|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000487214|processed_transcript||n.*865C>A|||||351|,A|downs
tream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000469563|retained_intron||n.*878C>T|||||4171|,T|downstream_gene_variant|
MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000469563|retained_intron||n.*878C>A|||||4171|,A|non_coding_exon_variant|MODIFIER|NOC2L|ENSG
00000188976|transcript|ENST00000477976|retained_intron|5/17|n.2153C>T||||||,T|non_coding_exon_variant|MODIFIER|NOC2L|ENSG00000188976|transcr
ipt|ENST00000477976|retained_intron|5/17|n.2153C>A||||||;LOF=(NOC2L|ENSG00000188976|6|0.17);NMD=(NOC2L|ENSG00000188976|6|0.17)

 

빨갛게 강조해놓은 HIGH 뿐 만 아니라, 다양한 정보들이 함께 annotation 됩니다.

 

언젠가 제 연구에 유용하게 쓰일 일이 있었으면 좋겠네요.