Major Study./Bioinformatics 75

gsutil - google cloud platform 리눅스 사용법

gsutil은 google sotrage를 다루기 위한 툴인데,GnomAD, 1000 genome 등등 공개 빅데이터를 다운받으려면 gsutil 이라는 툴을 사용해야 하는 경우가 많다. 프로그램에 대한 자세한 설명은 안나와있지만, 다운로드 속도가 빠른걸 보니아마 UDP 기반으로 만들어진 파일전송 시스템이 아닐까 싶다. ;; [sosal@cipher reference]$ uname -aLinux cipher.snubi.org 2.6.32-642.4.2.el6.x86_64 #1 SMP Tue Aug 23 19:58:13 UTC 2016 x86_64 x86_64 x86_64 GNU/Linux 리눅스에서 uname -a라고 치면, 64비트인지 32비트인지 알 수 있다.x86_64 이기 때문에, 64비트이며 아래..

R package를 이용하여 TCGA 데이터 다운받기

http://www.liuzlab.org/TCGA2STAT/ https://cran.r-project.org/web/packages/TCGA2STAT/index.html TCGA2STAT: Simple TCGA Data Access for Integrated Statistical Analysis in R Automatically downloads and processes TCGA genomics and clinical data into a format convenient for statistical analyses in the R en environment. R을 이용해서 TCGA 데이터를 바로 불러올 수 있는 패키지. 2015. 11. 14. Wan, Ying-Wooi, Genevera I. Allen..

BLAST 리눅스 서버 command에서 실행하기

0. Input으로 사용할 Sequence data 준비. ftp://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/mRNA_Prot/에서 아무거나... faa 확장자 파일 준비.모든 파일들을 하나로 합쳐서 sequences.faa 라는 파일로 완성.. # head sequences.faa 1. BLAST Linux executable 파일 다운로드URL: ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/ NCBI에서, 소프트웨어 다운로드란에 들어가서 BLAST를 다운받는다. 2. wget으로 위의 blast x64-linux.tar.gz파일 다운로드. wget ftp://ftp.ncbi.nlm.nih.gov/blast/exe..

Centrifuge - BLAST보다 3000배 이상 빠른 프로그램

/* * http://sosal.kr/ * made by so_Sal */ https://ccb.jhu.edu/software/centrifuge/manual.shtml Facebook korean bioinformatics에서 김대환 박사님께서 언급하신 프로그램.BLAST보다 3,000배 이상 빠른 Centrifuge라는 프로그램 (https://ccb.jhu.edu/software/centrifuge)도 있습니다.Centrifuge 웹사이트에서 NCBI nucleotide non-redundant sequences (nt)인덱스를 다운로드 받으셔서 사용하시면 될것 같습니다. 이 nt 인덱스는 viruses, archaea, bacteria, eukaryotes등의 genome sequence를 포함하..

ECCB 학회 노트필기

세션 들으면서 정리했던건데.. 벌써 갔다온지 몇달이 훌쩍 지났다. 노트필기 하면서 무슨 생각을 했는지 사실 기억도 안나는데,이거 이러다가 잊어버릴 것 같아서 그냥 블로그에 흔적을 남겨본다. A survey of best practices for RNA-seq data analysis - Genome BiologyPerturbation biology nominates upstream–downstream drug combinations in RAF inhibitor resistant melanoma cellshttp://www.intogen.org : Cancer Drivers Database - 이거 내가 만드는 네트워크에서 한번 비교해보자http://CancerGenomeInterpreter.org/Ja..

Molecular description in chemical informatics

Molecular structure - // - > Properties (바로 Properties를 표현하긴 힘들다)Molecular structure -> Representation -> Description -> Modeling -> Properties. Description Global descriptorsBased on the whole molecule - LogP - Volume - surface aeas (polar, non-polar) - Dipole moment - Refractive index, etc. No problem with 3D alignmentNo information about favorable interactions Local descriptorsDescribes a par..

MDS (Multi dimensional scaling)와 PCA 알고리즘

/* * http://sosal.kr/ * made by so_Sal */ MDS - Multi dimensional scaling PCA - principal component analysis MDS - Multi dimensional scaling 데이터 분석 관련 서적들에서는 '다차원척도법'으로 직역하는 것 같다. MDS 기법은 numeric 변수로만 이루어 졌을 때 사용이 가능하다. 자료들의 '비유사성' 거리를 바탕으로, 다중의 변수들을 2차원 혹은 3차원으로 낮추어 나타내는 기법이다. 낮은 차원에서의 자료들이 거리가 멀리 떨어져 위치한다는 것은 비유사성이 높다는 뜻이고, 자료가 가까울수록 비유사성이 낮다 (즉 유사성이 높다)는 뜻이 된다. MDS를 이용하여 데이터를 시각화 하는 방법의 가장 큰 ..

EMT - 상피간엽이행 (Epithelial to Mesenchymal Transition)

/* * http://sosal.kr/ * made by so_Sal */ 전이(Metastasis)의 위키피디아 정의는 다음과 같다. 전이 - Metastasis 암세포 따위가 옮겨다니는 일이다. 전이 능력이 없는 종양을 양성 종양이라고 하여 전이 능력의 존재 여부는 암과 양성 종양을 구분하는 기준이 된다. https://ko.wikipedia.org/wiki/%EC%A0%84%EC%9D%B4_(%EC%9D%98%ED%95%99) primary tumor은 실제로 암이 발생한 위치의 종양을 말한다. 사전상으로 한국어로 '원발성 종양' 로 불리는 것 같다. 암에 의한 죽음은 대부분 Primary tumor보다 metastasis가 사망의 주요한 원인이 된다. (약 90%) 전이는 Primary tumor..

하나의 variant rsID에 여러 유전자가 annotation

/* * http://sosal.kr/ * made by so_Sal */ GWAS Catalog 데이터를 보고있던 중, 어떤 강의자료를 만들면서 Obesity와 association이 있는 variant를 찾아보고자 하였다. Gene 단위로, 어떤 유전자가 Obesity와 연관성이 있느냐, 유전자를 count 하던 와중 하나의 GWAS loci variant(rsID)에서 2개의 유전자가 annotation이 되는 경우가 있었다. DISEASE.TRAIT MAPPED_GENE SNPS 1749 Obesity (extreme) OXNAD1, RFTN1 rs12635698 OXNAD1, RFTN1 각기 다른 유전자가 어떻게 동일한 rsID에 annotation이 될 수 있을까? 고민하다가 유전자의 over..