반응형

Major Study./Bioinformatics 77

Microarray와 differentially expressed genes (DEG)

/* * http://sosal.kr/ * made by so_Sal */ Microarray 데이터 분석의 목표중 하나 Differentially expressed genes (DEG: 차별 발현 유전자) 대조군에 비해 실험군의 발현량이 유의하게 증가하거나 감소하는 유전자를 찾기 위한 방법이다. 각 유전자의 발현량을 나타내는 Microarray 데이터에서, 실제 발현량의 차이를 비교하기 위한 기법으로는 T-Test와 ANOVA가 있다. T-test[T검정]: t-검정은 두 집단 간 평균을 비교하는 통계분석 기법이다. 다시 말해 t-검정은 두 집단 간 평균 차이에 대한 통계적 유의성을 검증하는 방법이다. ANOVA[분산분석]: 분산분석은 두 개 이상 집단들의 평균을 비교하는 통계분석 기법이다. 다시 말해..

TCGA Data structure & survival analysis

/* * http://sosal.kr/ * made by so_Sal */ TCGA 사이트에서 데이터를 받아봅시다. http://cancergenome.nih.gov/ 오른쪽 위의 Launch Data Portal 버튼을 누르셔서 Data download 탭에서 원하는 데이터를 받으시면 됩니다. R 프로그래밍과 예제로 위의 데이터를 이용하여 데이터 구조를 분석해보겠습니다. > setwd("D:/Analysis_data") # 데이터가 있는 경로로 R의 현재풀더 바꾸기 > dir() [1] "BRCA1_Methyl.txt" "Clinical.csv" "Expression.txt" [4] "Mutation.txt" "lecture03_code.txt" > cli mut met exp head(mut) Sam..

대용량 FastA file에서 sequence 검색하기 / C#

/* * http://sosal.kr/ * made by so_Sal */ 1. FastA File format 및 포스팅 목적2. 시현 영상3. 프로그램 소개4. C# 소스 다운로드 1. FastA File format 및 포스팅 목적 대용량 FastA file에서 sequence name을 검색하여 실제 sequence를 찾는 프로그램을 만들어보았습니다.프로그램 테스트용으로 사용될 FastA data는 uscs gene browser에서 다운받을 수 있습니다. http://hgdownload.soe.ucsc.edu/goldenPath/hg38/multiz7way/alignments/file: knownCanonical.exonAA.fa.gz 06-Jun-2014 15:22 41M 해당파일의 크기는 약..

Blosum62 Codon table / matrix C++

/* * http://sosal.kr/ * made by so_Sal */ BLOSUM: Blocks of aAmino acid substitution matrix 블로섬의 퍼센트 동일성 중에서, 흔히 60%의 동일성에 기반한 매트릭스를 많이 사용한다. 이것은 기존의 PAM(Point Accepted Mutation ) 매트릭스보다 성능이 더 좋다. 블로섬 60등은 아래와 같은 공식으로 만들어진다.B[i,j]= (1/λ)log {(P i,j)/(ƒi,ƒj)} 출처: http://en.wikipedia.org/wiki/File:BLOSUM62.gif 예전에 짜놨던 코돈테이블을 우연히 발견해서 올려봅니다.수치로 나와있는 그림은 많지만 이 테이블을 만드는건 여간 귀찮은게 아니죠 --; Sequence alig..

c++ 개발환경에서 libsvm 사용하기 / visual studio

/* * http://sosal.kr/ * made by so_Sal */ 메인사진 출처: http://www.turn.com/news/the-magic-of-machine-learning 0. 서론1. LIBSVM 다운받기2. 튜토리얼용 Dataset 다운받기3. C++ 프로젝트 생성하여 libsvm 사용하기3.1 Cross-validation으로 데이터 feature의 성능 측정하기3.2 Training으로 모델 만들기3.3 Model을 이용하여 test 데이터 판별하기 0. 서론libsvm은 supervised-machine learning으로, 학습용으로 주어진 데이터들로부터 모델을 만들고모델에 없는 데이터셋에 대해서 정답 (classification: 1 or 0)을 예측하는 도구중 하나입니다...

C#에서 gene expression data 불러오기

/* * http://sosal.kr/ * made by so_Sal */ raw data를 읽어와 r=5, d=0.5를 이용하여 filtering 한 이후textBox1 텍스트박스에 result.Count 결과 출력해주는 프로그램 private void load_GEO_rawdata(){ List result = new List(); System.IO.StreamReader sr = new System.IO.StreamReader(@"C:\Users\bpark\Desktop\Gene_expression.csv"); while (sr.Peek() > -1) { string[] tokens = sr.ReadLine().Split(new string[] { ",", "8888" },StringSplitOpt..

Gene expression data Thresholding

/* * http://sosal.kr/ * made by so_Sal */ Gene_expression.csvhttp://genome-www.stanford.edu/cellcycle/ Spellman et al., (1998) 에서 raw data - tab / Tab delimited data에서 다운로드 받았습니다.빈칸(blank or null )인 경우 8888로 미리 채워놓은 데이터이기 때문에,아래 소스를 그대로 사용하실 경우에는 수정을 해주셔야 합니다. #include#include#include#include#includeusing namespace std; #define TIME_POINTS 81#define MAX_VALUE 1#define MIN_VALUE 0double threshold..

C++ / Shotgun sequencing implementation

/* * http://sosal.kr/ * made by so_Sal */ 출처: http://www.wiley.com/college/boyer/0470003790/cutting_edge/shotgun_seq/shotgun.htm http://sosal.tistory.com/612Shotgun sequencing 이론에 대한 내용은 위 링크를 참조하세요. 예~전에 bioinformatics 경진대회에 참가하면서 구현했던 프로그램이었는데블로그에 공유해봅니다 ^^ #include #include #include #include #include #include #include #include #include #include #include #include #include #include #include #de..

Image J를 이용하여 이미지 피크점 분석하기

/* * http://sosal.kr/ * made by so_Sal */ 생명공학도 학생들이 세포를 분석할 때 많이 쓰는 프로그램이라고 합니다.저는 딱히 사용할일이 없지만 ; (오히려 이런 프로그램을 만들어야 하는 전공이지만 ^^:)나중에 사용할 일이 혹 있을것 같아서 제가 보기 위해 포스팅 해봅니다! ^^ 이 프로그램을 이용하여, 사진에 사람이 몇명이 있는지, 점이 몇개인지, 세포가 몇개인지 등등을 찾을 수 있습니다. 다운로드 및 설치http://rsbweb.nih.gov/ij/ 위 url에 들어가시면 download 메뉴에 os별로 설치프로그램을 받으실 수 있습니다.25메가 정도 크기로 매우 가벼운 프로그램이네요. Figure 1. 설치화면 설치도 그냥 Next > 버튼만 눌러주시면 됩니다. 매우 ..

Gibbs sampling을 이용한 Multiple alignment implementation (C++)

/* * http://sosal.kr/ * made by so_Sal */ Gibbs sampling 1. Multiple alignment2. Gibbs sampling3. Motif란?4. Gibbs sampling의 동작5. Gibbs sampling의 실제 구현 (C++ programming)6. 프로그램 실행 결과 1. Multiple alignment DNA alignment는 DNA들을 정렬하여 비슷한 인자들을 찾아 유전학적으로 유용한 DNA서열을 뽑아내는 작업중 하나인데, 진핵생물의 특성상 유전자들 사이에서도 반복 DNA서열이 존재하기 때문에 분자생물학에서 많은 DNA들을 정렬하는건 큰 의미가 있는 작업입니다. DNA alignment는 각각의 N1, N2 갯수만큼 유전자 정보(A,C,G,..

반응형