http://snpeff.sourceforge.net/
Cingolani, Pablo, et al. "A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3." Fly 6.2 (2012): 80-92.
variant의 position, allele 정보를 주면 얼마나 위험한지 HIGH / MODERATE / LOW 3가지로 분류해줍니다. (그 외 MODIFIER)
A high impact: mutation leads to exon deletion, frame shift and stop lost.
Moderate impact: includes non-synonymous coding, codon insertion or deletion, etc.
low impact: categorized Synonymous start/stop, synonymous coding, etc.
위는 GRCh37.66 reference에 대한 snpEff annotation 통계
High Impact effect variant가 178,680개 되네요.
SIFT에서 지정한 Loss of function 수치인 SIFT score < 0.05의 통계랑 비교해보고 싶네요.
(이정돈 당연히 알아야 하는 것 같은데.. 제가 멍청합니다 ㅠㅠ)
이 프로그램의 Input은 VCF 형태입니다.
사용하기 정말 쉽습니다.
아래에 간단하게 정리해봤습니다.
- example.sh
#!/bin/sh
genome="GRCh37.75"
java -Xmx4g -jar ../snpEff.jar $genome ./input.vcf > ./output.vcf
- Input file과 snpEff로 annotation한 결과 output file
Input file:
1 889455 . G A,T . . .
output:
1 889455 . G A,T . . ANN=A|stop_gained|HIGH|NOC2L|ENSG00000188976|transcript|ENST00000327044|protein_coding|7/19|c.706C>T|p.Gln236*|756/2790|70
6/2250|236/749||,T|missense_variant|MODERATE|NOC2L|ENSG00000188976|transcript|ENST00000327044|protein_coding|7/19|c.706C>A|p.Gln236Lys|756/2
790|706/2250|236/749||,A|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000487214|processed_transcript||n.*865C>T||
|||351|,T|downstream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000487214|processed_transcript||n.*865C>A|||||351|,A|downs
tream_gene_variant|MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000469563|retained_intron||n.*878C>T|||||4171|,T|downstream_gene_variant|
MODIFIER|NOC2L|ENSG00000188976|transcript|ENST00000469563|retained_intron||n.*878C>A|||||4171|,A|non_coding_exon_variant|MODIFIER|NOC2L|ENSG
00000188976|transcript|ENST00000477976|retained_intron|5/17|n.2153C>T||||||,T|non_coding_exon_variant|MODIFIER|NOC2L|ENSG00000188976|transcr
ipt|ENST00000477976|retained_intron|5/17|n.2153C>A||||||;LOF=(NOC2L|ENSG00000188976|6|0.17);NMD=(NOC2L|ENSG00000188976|6|0.17)
빨갛게 강조해놓은 HIGH 뿐 만 아니라, 다양한 정보들이 함께 annotation 됩니다.
언젠가 제 연구에 유용하게 쓰일 일이 있었으면 좋겠네요.
'Major Study. > Bioinformatics' 카테고리의 다른 글
유전체의학 Genomics 수업 정리 (0) | 2015.11.02 |
---|---|
bayes rule - 베이즈 정리 (0) | 2015.10.08 |
affymetrix cdf 파일, 아무리 찾아도 없다 (0) | 2015.09.30 |
R - ReadAffy() .CEL file read Error (0) | 2015.09.16 |
Survival analysis - Log Rank, Coxph (2) | 2015.08.12 |