Major Study./Bioinformatics 69

bayes rule - 베이즈 정리

/* * http://sosal.kr/ * made by so_Sal */ 통계 데이터는 다음과 같이 주어졌다고 가정해보자. 유방 X선 검사는 유방암을 진단하는 척도로 사용된다. 10명의 양성반응을 일으키는 여성에서는 1명이 실제로 유방암을 진단받았고, 10만명의 음성반응을 일으키는 여성에서 20명만이 유방암을 진단받았다. 우리는 모든 모집단 정보를 가지고 있기 때문에, 사전확률과 사후확률을 모두 쉽게 구할 수 있다. 사전 확률: 유방암을 진단받기 이전에 유방암을 가질 확률 = (1+20) / (1+20+9+99980) = 21/100010 = 0.000209979.. (즉 0.0209979%) 사후 확률: 유방암에 양성반응으로 진단받은 후에, 유방암을 가질 확률 = (1/9+1) = 1/10 = 0.1..

snpEff: predicting the effects of SNP

/* * http://sosal.kr/ * made by so_Sal */ http://snpeff.sourceforge.net/ Cingolani, Pablo, et al. "A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3." Fly 6.2 (2012): 80-92. variant의 position, allele 정보를 주면 얼마나 위험한지 HIGH / MODERATE / LOW 3가지로 분류해줍니다. (그 외 MODIFIER) A high impact..

affymetrix cdf 파일, 아무리 찾아도 없다

/* * http://sosal.kr/ * made by so_Sal */ Microarray로 분석을 하고있었다. chip type: HuGene-2_0-st로 작업을 하고 있기에, Affymetrix Power Tool (APT)를 사용하기 위해서는 cdf파일이 input으로 들어가는 상황이었다. - Affymetrix library 파일을 받을 수 있는곳 http://www.affymetrix.com/support/technical/byproduct.affx?product=hugene-1_0-st-v1 그러나 library 파일을 아무리 다운받아봐도 cdf파일이 없었다. bgp, cif, clf, grc, mps, pgf, ps, qcc, smd.. 뭐 이런파일들은 있는데.. 나와 비슷한 사람들이 ..

R - ReadAffy() .CEL file read Error

/* * http://sosal.kr/ * made by so_Sal */ library(limma) library(gcrma) > ReadAffy() Error: The affy package is not designed for this array type. Please use either the oligo or xps package. Cell file 배열 type이 기존의 ReadAffy() 함수로 읽어지는 형태가 아닌가보다. array type에 대해 찾아보려면 찾아볼 수 있지만 귀찮아서 에러에서 말한대로 oligo 패키지를 이용해서 CEL 파일을 읽어들이기로 했다. Bioconductor로 쉽게 설치하면 끝난다. > source("http://bioconductor.org/biocLite.R")..

Survival analysis - Log Rank, Coxph

/* * http://sosal.kr/ * made by so_Sal */ 1. 파일의 구조 및 데이터 정보 2. 생존과 관련된 환자정보 3. LogRank test로 위의 두 그룹이 유의하게 생존에서 차이를 보이는지 확인하기 4. Cox-proprtional harzard regression analysis: 회귀를 이용한 생존분석 Log rank test 독립변수를 통해 group화 된 샘플이, 그룹간에 생존분포 차이가 있는지 확인할 수 있는 가설검정 (hypothesis test) 유의한 결과가 나온다면 즉 해당 독립변수는 prognostic factor로써 좋은 기능을 한다는 것. Cox-proprtional harzard regression analysis 콕스 비례위험모형, 줄여서 coxph라..

RNASeq 플랫폼 선정원칙 및 플랫폼 주요 특성

/* * http://sosal.kr/ * made by so_Sal */ RNASeq (RNA seqeencing)은 Microarray의 정확도 및 Saturation 문제를 비롯하여 novel transcript, Alternative splicing case 등을 잡아낼 수 있는 장점이 있어서 최근 Transcriptome analysis에서 아주 많이 사용되고 있다. RNASeq 데이터를 생산해내는 플랫폼이 다양하지만, 어떤것을 써야 하느냐에 대한 답은 없다. 일반적으로 PubMed에서 비슷한 실험 및 연구에 사용된 데이터의 플랫폼을 따라가는 것이 쉬운 답이지만 실험의 디자인 및 실험 과정 또한 빠르게 바뀌고 있기 때문에, 따라가는 것 역시 항상 옳은 방법이 될 수 없다. 따라서 일반적인 실험디..

TCGA data FTP, wget을 통해 받는 방법

/* * http://sosal.kr/ * made by so_Sal */ TCGA Data Portal에서는 다양한 데이터를 제공한다. https://tcga-data.nci.nih.gov/tcga/ 웹사이트에서 직접 데이터를 받는것은 아무리 bulk download를 하더라도, 필요없는 데이터까지 한번에 받아야 하며 캔서 type마다 단순반복적인 행동을 해야하기 때문에 좋은 방법이 아닌 것 같다. 리눅스에서 wget으로 원하는 파일만 wildcard를 사용하여 다운받을 수 있기 때문에 FTP를 이용한다면 원하는 파일을 쉽고 빠르게 받을 수 있다. FTP Link - https://tcga-data.nci.nih.gov/tcgafiles/ftp_auth/distro_ftpusers/anonymous/t..

Hg18 데이터 Hg19로 liftover 하기

/* * http://sosal.kr/ * made by so_Sal */ Hg는 UCSC browser에서 사용되는 Human genome reference 명명법입니다. Hg**은 UCSC의 명명법이며, 또 다른 Release name도 가집니다. - List of UCSC genome releases SPECIES UCSC VERSION RELEASE DATE RELEASE NAME STATUS MAMMALS Human hg38 Dec. 2013 Genome Reference Consortium GRCh38 Available hg19 Feb. 2009 Genome Reference Consortium GRCh37 Available hg18 Mar. 2006 NCBI Build 36.1 Availab..

DNA Mutation - 돌연변이의 종류

/* * http://sosal.kr/ * made by so_Sal */ 돌연변이(Mutation): 세포의 DNA를 구성하는 nucleotide가 바뀌는 현상 DNA에서의 돌연변이는 결국 암호화되는 단백질 구조에 기능에 영향을 미치거나, 세포내의 다양한 역할을 하는 RNA의 구조, 기능에 영향을 미쳐 기능의 변화가 유발시킨다. 따라서 생체는 돌연변이를 방지하고 복구하는 기작도 갖추게 되었다. 돌연변이는 크게 체세포 돌연변이(Somatic mutation), 생식세포 돌연변이(Germline mutation)로 구분된다. 체세포 돌연변이는 암유전자 형성 등의 예가 있으며, 해당 세포에만 영향을 주기 때문에 자손에게는 유전되지 않지만, 난자 및 정자에 해당하는 생식세포 돌연변이는 자손에게 유전되므로 종의..

ORF vs Coding sequence (cds) 차이점

/* * http://sosal.kr/ * made by so_Sal */ - https://www.biostars.org/p/47022/ Open Reading Frame (ORF) vs Coding sequence (CDS) - Open reading frame DNA sequence는 6가지 reading frame이 존재한다. [ATG][CAT]GC A[TGC][ATG]C AT[GCA][TGC] Double strand로 존재하기 때문에, 상보서열까지 총 6가지의 경우의 수가 존재한다. 이 모든 reading frame에서 존재할 수 있는 Start codon 'ATG' (not always) 에서부터 Stop codon (TAA, TAG, TGA)으로 둘러쌓인 sequence를 ORF라고 할 수..