Major Study./Bioinformatics 75

A manually curated database for deleterious synonymous mutations

/* * http://sosal.kr/ * made by so_Sal */ dbDSM: A manually curated database for deleterious synonymous mutations bioinformatics 저널에 2016년 2월 15일에 나온 논문이다. Synonymous mutation은 Amino acid sequence에 변화를 주지 않기 때문에 무시되는 경우가 많았지만 이러한 mutation이 쌓이게 되면 Splicing accuracy, mRNA stability, translation fidelity, protein folding, expression 등에 영향을 주고 결론적으로 disease에 영향을 주게 된다고 말하고 있다. dbDSM(Database of dele..

RNASeq data analysis 워크샵 내용정리

간단하게 RNASeq 데이터분석 관련하여 발표를 듣게 되었는데 심심해서 블로그에 정리하면서 들어봤다. RNA Sequencing pipeline Sample (Treated - Untreated, or Case - Control) -> cDNA로 변환 (illumina 기술에서), 실제로 RNA를 sequencing 하는 방법이 있긴 하지만, cDNA로 바꾼 후 시퀀싱 하는것이 일반적 -> Gene expression quantifying -> Normalization -> Signal pathway / Gene ontology RNASeq 결과로 얻을 수 있는 것 - Differential gene expression - Differential transcript expression - alternat..

The 10th GDA, 유전체 데이터 분석 워크샵, 2/22-26

/* * http://sosal.kr/ * made by so_Sal */ 일 시 | 2016년 2월 22일(월)- 26일(금) 장 소 | 서울의대 동창회관 3층 가천홀 주 관 | 서울의대 정보의학실, 시스템 바이오 정보의학 연구센터 (SBI-NCRC) 주 최 | 서울대학교병원 유전체 임상 정보분석 훈련센터 제10차 Genome Data Analysis Workshop을 개최하며 안녕하십니까? Genome Data Analysis 웍샵이 어느 새 제10회를 맞이하게 되었습니다. 그간의 많은 시행착오에도 변함없이 보내주신 뜨거운 성원과 격려에 깊이 감사드립니다. GDA 실습자료를 묶어 발간한 ‘유전체 데이터 분석’ (범문에듀케이션)도 2015년 수정한 2판을 발간했습니다. 올해는 Springer사에서 영문..

haplotype과 GATK HaplotypeCaller

/* * http://sosal.kr/ * made by so_Sal */ Haplotype(일배체형)은 Haploid(반수체) + genotype(유전형) 이다. 유전학에서는 같은 염색체상에 있는 대립형질의 조합을 말한다. 또한 연관되어있는 SNP(Single Nucleotide Polymorphism) 집합을 의미하기도 한다. - https://ko.wikipedia.org/wiki/하플로타입 연관되어 있다는 건, 동일한 염색체 위에 가까이 존재하는 2개의 유전좌위는 함께 다음세대에 전달된다는 뜻이다. 다른 염색체이 있는 경우는 독립적으로 유전될 것이고, 한 염색체에서 매우 먼 위치에 존재하는 경우 유전자 재조합에 의해 함께 전달되지 않을 수 있다. htSNP: Haplotype-tagging SNP..

TCGA Somatic mutation

/* * http://sosal.kr/ * made by so_Sal */ Cancer와 관련된 공개서열 데이터에서 가장 유명한 TCGA (The Cancer Genome Atlas)에서는 Somatic mutation data를 특정한 포맷으로 제공한다. - LINK https://wiki.nci.nih.gov/display/TCGA/Mutation+Annotation+Format MAF (Mutation Annotation Format) 파일로서 제공된다. TCGA data portal에서 직접 검색하여 받을 수 있지만, MAF 파일은 https://wiki.nci.nih.gov/display/TCGA/TCGA+MAF+Files 에서 매우 쉽게 파일의 정보들과 데이터 파일의 링크를 찾아볼 수 있다. ..

유전체의학 Genomics 수업 정리

n개의 allele이 존재하는 locus에서 나타날 수 있는 유전형의 수 n -> nH2 (중복조합) 2 = 2+1 3 -> 3+2+1 4 = 4+3+2+1 n = n(n+1)/2 allele이 n개: homozygote: n개 : heterozygote: nC2 -> 따라서 유전형의 수는 n + n*(n-1)/2 = n(n+1)/2개 ex) 혈액형의 경우 Allele은 3개이다. 따라서 나타날 수 있는 유전형의 수는 6개다. -> AA, AB, AO, BB, BO, OO (하지만 dominant allele인 A, B에 의해서 표현형은 A, B, O 3가지만 나타나게 된다.) * Genotype Frequency AA:7 AO:27 BB:5 BO:22 AB:12 OO:27 allele, number, ..

bayes rule - 베이즈 정리

/* * http://sosal.kr/ * made by so_Sal */ 통계 데이터는 다음과 같이 주어졌다고 가정해보자. 유방 X선 검사는 유방암을 진단하는 척도로 사용된다. 10명의 양성반응을 일으키는 여성에서는 1명이 실제로 유방암을 진단받았고, 10만명의 음성반응을 일으키는 여성에서 20명만이 유방암을 진단받았다. 우리는 모든 모집단 정보를 가지고 있기 때문에, 사전확률과 사후확률을 모두 쉽게 구할 수 있다. 사전 확률: 유방암을 진단받기 이전에 유방암을 가질 확률 = (1+20) / (1+20+9+99980) = 21/100010 = 0.000209979.. (즉 0.0209979%) 사후 확률: 유방암에 양성반응으로 진단받은 후에, 유방암을 가질 확률 = (1/9+1) = 1/10 = 0.1..

snpEff: predicting the effects of SNP

/* * http://sosal.kr/ * made by so_Sal */ http://snpeff.sourceforge.net/ Cingolani, Pablo, et al. "A program for annotating and predicting the effects of single nucleotide polymorphisms, SnpEff: SNPs in the genome of Drosophila melanogaster strain w1118; iso-2; iso-3." Fly 6.2 (2012): 80-92. variant의 position, allele 정보를 주면 얼마나 위험한지 HIGH / MODERATE / LOW 3가지로 분류해줍니다. (그 외 MODIFIER) A high impact..

affymetrix cdf 파일, 아무리 찾아도 없다

/* * http://sosal.kr/ * made by so_Sal */ Microarray로 분석을 하고있었다. chip type: HuGene-2_0-st로 작업을 하고 있기에, Affymetrix Power Tool (APT)를 사용하기 위해서는 cdf파일이 input으로 들어가는 상황이었다. - Affymetrix library 파일을 받을 수 있는곳 http://www.affymetrix.com/support/technical/byproduct.affx?product=hugene-1_0-st-v1 그러나 library 파일을 아무리 다운받아봐도 cdf파일이 없었다. bgp, cif, clf, grc, mps, pgf, ps, qcc, smd.. 뭐 이런파일들은 있는데.. 나와 비슷한 사람들이 ..

R - ReadAffy() .CEL file read Error

/* * http://sosal.kr/ * made by so_Sal */ library(limma) library(gcrma) > ReadAffy() Error: The affy package is not designed for this array type. Please use either the oligo or xps package. Cell file 배열 type이 기존의 ReadAffy() 함수로 읽어지는 형태가 아닌가보다. array type에 대해 찾아보려면 찾아볼 수 있지만 귀찮아서 에러에서 말한대로 oligo 패키지를 이용해서 CEL 파일을 읽어들이기로 했다. Bioconductor로 쉽게 설치하면 끝난다. > source("http://bioconductor.org/biocLite.R")..