Major Study./Bioinformatics 73

Transition vs Transversion

/* * http://sosal.kr/ * made by so_Sal */ Figure 1 - http://www.mun.ca/biology/scarr/Transitions_vs_Transversions.html DNA substitution mutation(염기 치환)은 DNA 염기서열 길이의 변화 없이, 염기의 조성이 변하는 것을 말합니다. - A, C, G, T 의 4가지 염기가 다른 염기로 변이하는 경우. DNA는 Purine 계열과 Pyrimidine 계열로 나뉩니다. Figure 2 - http://chemistry2.csudh.edu/rpendarvis/NuclAcids.html Transition: Interchanging of purines(A ↔ G), or pyrimidines (C ..

DNAI1 - ENSG, Variant Interpretation

/* * http://sosal.kr/ * made by so_Sal */ 한 환자의 variant(mutation: rsid)를 알 때, 그 variant를 이용하여 여러가지 정보를 얻을 수 있다. 이 포스팅에선 rsid: rs76334696를 예로, 해당 mutation의 allel frequency, SIFT score 등을 구하는 방법을 알아보고이 mutation에 해당되는 gene에 문제가 생겼을 때, 어떤 phenotype(표현형) 이 생기는지, 어떤 pathway를 가지고 있는지 등을 알아보고자 한다. Variant Information - rsid 정보를 이용하여 Variant information 구하기.: Ensembl 에 해당 rsid를 검색한다. Figure 1.1, 1.2 Refe..

주어진 DNA의 역상보서열 만들기

/* * http://sosal.kr/ * made by so_Sal */ 서점에서 지나가는듯 Bioinformatics 책을 봤는데역상보서열 만들기 주제로 단원이 하나 있길래 심심해서 저도 만들어봅니다 ㅎㅎ. 커맨드 인수 argv를 통해서 input을 받고, 해당 서열의 역상보 서열을 출력합니다. #include#include#includeusing namespace std; string convert(string str); int main(int argc, char* argv[]){ string str(argv[1]); string revcomp = convert(str); cout

Ensembl로 Gene symbol 알아내기

/* * http://sosal.kr/ * made by so_Sal */ 1. 웹서비스로 알아내기2. R 프로그래밍을 이용하여 알아내기 1. 웹서비스로 알아내기 Ensembl로 Gene name을 알아내야 하는 일이 생겼다. ENSG00000116783ENSG00000139656ENSG00000196987ENSG00000216560...... bioinformatics의 아주 기본적인 일인듯 한데, 모르니 일단 구글링으로 GeneCards라는 사이트를 알아 냈다.들어가니 바로 Human gene database 검색기능이 있었다. ENSG00000116783Ensembl을 이용하여 검색하니 바로 결과가 뜬다. Advanced Search를 이용하면 한번에 많은 Ensembl을 이용하여 검색도 가능하다...

SAM/BAM 포맷, 구조 분석

/* * http://sosal.kr/ * made by so_Sal */ NGS data analysis의 workflow를 공부하면서, SAM과 BAM format을 공부하게 되었습니다. SAM 포맷의 간단한 예는 다음과 같습니다. 적당히 구글에 sam file example 정로로 검색하면 나오는 파일입니다.정확한 URL은 다음과 같습니다.https://code.google.com/p/bamseek/downloads/detail?name=ex1.sam http://samtools.github.io/hts-specs/링크에 들어가시면 다음과 같은 포맷들의 specification 문서가 나옵니다. 여기서 SAMv1 파일을 열람하여 SAM file의 구조를 공부하였습니다. BAM과 SAM의 format..

NGS vs Sanger sequencing

/* * http://sosal.kr/ * made by so_Sal */ 생물정보학 면접준비 겸 Sequencing의 역사에 대해서 좀 살펴보았다.구글링 도중에, 기본적인 시퀀싱과 NGS에 대한 리뷰가 포함된 국내논문이 있어서 가져왔다. bioinformatics의 새로운 기술-ngs의 현재 그리고 미래, 라는 제목으로간단한 시퀀싱의 역사와 각 시퀀싱 기술들로 만들어지는 데이터의 사용, 연구주제 등이 나와있어서이 분야에 대한 흥미와 기본적인 지식들을 알 수 있었다. 다운로드: http://me2.do/F7zuhYlG 시퀀싱의 세대 역사에 관한 본문의 내용을 그대로 인용해보면 다음과 같다. 1세대 Sequencing 기술은 DNA 합성 과정을 이용하여 염기서열을 밝혀낸 생거 방법을 기반으로 하였고 [2]..

Major Study./Bioinformatics 2014.10.21 (10)

Microarray와 differentially expressed genes (DEG)

/* * http://sosal.kr/ * made by so_Sal */ Microarray 데이터 분석의 목표중 하나 Differentially expressed genes (DEG: 차별 발현 유전자) 대조군에 비해 실험군의 발현량이 유의하게 증가하거나 감소하는 유전자를 찾기 위한 방법이다. 각 유전자의 발현량을 나타내는 Microarray 데이터에서, 실제 발현량의 차이를 비교하기 위한 기법으로는 T-Test와 ANOVA가 있다. T-test[T검정]: t-검정은 두 집단 간 평균을 비교하는 통계분석 기법이다. 다시 말해 t-검정은 두 집단 간 평균 차이에 대한 통계적 유의성을 검증하는 방법이다. ANOVA[분산분석]: 분산분석은 두 개 이상 집단들의 평균을 비교하는 통계분석 기법이다. 다시 말해..

TCGA Data structure & survival analysis

/* * http://sosal.kr/ * made by so_Sal */ TCGA 사이트에서 데이터를 받아봅시다. http://cancergenome.nih.gov/ 오른쪽 위의 Launch Data Portal 버튼을 누르셔서 Data download 탭에서 원하는 데이터를 받으시면 됩니다. R 프로그래밍과 예제로 위의 데이터를 이용하여 데이터 구조를 분석해보겠습니다. > setwd("D:/Analysis_data") # 데이터가 있는 경로로 R의 현재풀더 바꾸기 > dir() [1] "BRCA1_Methyl.txt" "Clinical.csv" "Expression.txt" [4] "Mutation.txt" "lecture03_code.txt" > cli mut met exp head(mut) Sam..

대용량 FastA file에서 sequence 검색하기 / C#

/* * http://sosal.kr/ * made by so_Sal */ 1. FastA File format 및 포스팅 목적2. 시현 영상3. 프로그램 소개4. C# 소스 다운로드 1. FastA File format 및 포스팅 목적 대용량 FastA file에서 sequence name을 검색하여 실제 sequence를 찾는 프로그램을 만들어보았습니다.프로그램 테스트용으로 사용될 FastA data는 uscs gene browser에서 다운받을 수 있습니다. http://hgdownload.soe.ucsc.edu/goldenPath/hg38/multiz7way/alignments/file: knownCanonical.exonAA.fa.gz 06-Jun-2014 15:22 41M 해당파일의 크기는 약..

Blosum62 Codon table / matrix C++

/* * http://sosal.kr/ * made by so_Sal */ BLOSUM: Blocks of aAmino acid substitution matrix 블로섬의 퍼센트 동일성 중에서, 흔히 60%의 동일성에 기반한 매트릭스를 많이 사용한다. 이것은 기존의 PAM(Point Accepted Mutation ) 매트릭스보다 성능이 더 좋다. 블로섬 60등은 아래와 같은 공식으로 만들어진다.B[i,j]= (1/λ)log {(P i,j)/(ƒi,ƒj)} 출처: http://en.wikipedia.org/wiki/File:BLOSUM62.gif 예전에 짜놨던 코돈테이블을 우연히 발견해서 올려봅니다.수치로 나와있는 그림은 많지만 이 테이블을 만드는건 여간 귀찮은게 아니죠 --; Sequence alig..