0. Input으로 사용할 Sequence data 준비.
ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/mRNA_Prot/
에서 아무거나... faa 확장자 파일 준비.
모든 파일들을 하나로 합쳐서 sequences.faa 라는 파일로 완성..
# head sequences.faa
1. BLAST Linux executable 파일 다운로드
URL: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/
NCBI에서, 소프트웨어 다운로드란에 들어가서 BLAST를 다운받는다.
2. wget으로 위의 blast x64-linux.tar.gz파일 다운로드.
wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ncbi-blast-2.7.1+-x64-linux.tar.gz
(주소는 바뀔 수 있음)
3. blast x64-linux.tar.gz 압축풀기
tar -xvzf ncbi-blast-2.7.1+-x64-linux.tar.gz
압축을 풀면 다음과 같은 파일이 존재.
bin 폴더에 makeblastdb, psiblast 있는것 확인..
./psiblast -help
Requirements
1. BLAST DB
2. INPUT (= Query Sequence)
4. blastdb 생성
makeblastdb -dbtype prot -in ../sequences.faa
이로서 human refseq sequence에 대한 database 완성.
5. BLAST로 search할 p53 유전자 서열 획득
> https://www.ncbi.nlm.nih.gov/protein/AKI70249.1?report=fasta
위에서 p53 sequence fasta format을 획득하여, p53_sequence.faa로 저장.
cat > p53_sequence.faa
>AKI70249.1 TP53, partial [synthetic construct] MEEPQSDPSVEPPLSQETFSDLWKLLPENNVLSPLPSQAMDDLMLSPDDIEQWFTEDPGPDEAPRMPEAA PRVAPAPAAPTPAAPAPAPSWPLSSSVPSQKTYQGSYGFRLGFLHSGTAKSVTCTYSPALNKMFCQLAKT CPVQLWVDSTPPPGTRVRAMAIYKQSQHMTEVVRRCPHHERCSDSDGLAPPQHLIRVEGNLRVEYLDDRN TFRHSVVVPYEPPEVGSDCTTIHYNYMCNSSCMGGMNRRPILTIITLEDSSGNLLGRNSFEVRVCACAGR DRRTEEENLRKKGEPHHELPPGSTKRALPNNTSSSPQPKKKPLDGEYFTLQIRGREHFEMFRELNEALEL KDAQAGKEPGGSRAHSSHLKSKKGQSTSRHKKLMFKTEGPDSD
(ctrl + c로 종료)
6. psiblast로 p53 sequene 돌려보기
./bin/psiblast -db ../sequences.faa -query ../p53_sequence.faa > p53_result
# head ./p53_result
PSIBLAST 2.7.1+
Reference: Stephen F. Altschul, Thomas L. Madden, Alejandro A.
Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J.
Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of
.... (중략)
Sequences producing significant alignments: Score (Bits) E Value
NP_001119584.1 cellular tumor antigen p53 isoform a [Homo sapiens] 806 0.0
NP_000537.3 cellular tumor antigen p53 isoform a [Homo sapiens] 806 0.0
NP_001119590.1 cellular tumor antigen p53 isoform g [Homo sapiens] 729 0.0
NP_001263690.1 cellular tumor antigen p53 isoform g [Homo sapiens] 729 0.0
NP_001263689.1 cellular tumor antigen p53 isoform g [Homo sapiens] 729 0.0
NP_001119586.1 cellular tumor antigen p53 isoform b [Homo sapiens] 683 0.0
NP_001119585.1 cellular tumor antigen p53 isoform c [Homo sapiens] 682 0.0
NP_001263625.1 cellular tumor antigen p53 isoform i [Homo sapiens] 606 0.0
NP_001263624.1 cellular tumor antigen p53 isoform h [Homo sapiens] 605 0.0
NP_001119587.1 cellular tumor antigen p53 isoform d [Homo sapiens] 543 0.0
NP_001263626.1 cellular tumor antigen p53 isoform j [Homo sapiens] 485 8e-174
7. PSSM
./bin/psiblast -db ../sequences.faa -query ../p53_sequence.faa -save_pssm_after_last_round -out_ascii_pssm p53_pssm_ascii.txt > p53_res_psiblast.txt
head p53_pssm_ascii.txt
PSSM 완성
'Major Study. > Bioinformatics' 카테고리의 다른 글
gsutil - google cloud platform 리눅스 사용법 (3) | 2018.03.16 |
---|---|
R package를 이용하여 TCGA 데이터 다운받기 (0) | 2017.10.31 |
Functional Comparison of Cancer Driver Gene Detection Tool (0) | 2016.12.30 |
Centrifuge - BLAST보다 3000배 이상 빠른 프로그램 (1) | 2016.12.08 |
ECCB 학회 노트필기 (0) | 2016.12.04 |