반응형

Major Study. 164

SAM/BAM 포맷, 구조 분석

/* * http://sosal.kr/ * made by so_Sal */ NGS data analysis의 workflow를 공부하면서, SAM과 BAM format을 공부하게 되었습니다. SAM 포맷의 간단한 예는 다음과 같습니다. 적당히 구글에 sam file example 정로로 검색하면 나오는 파일입니다.정확한 URL은 다음과 같습니다.https://code.google.com/p/bamseek/downloads/detail?name=ex1.sam http://samtools.github.io/hts-specs/링크에 들어가시면 다음과 같은 포맷들의 specification 문서가 나옵니다. 여기서 SAMv1 파일을 열람하여 SAM file의 구조를 공부하였습니다. BAM과 SAM의 format..

CentOS 최신버전 리눅스 다운받기

/* * http://sosal.kr/ * made by so_Sal */ http://www.centos.org/download/ 위 사이트에 접속한 후, 바로 iso 이미지를 받을 수 있다. 이미지에 대한 설명은 각 미러사이트에 접속해서 readme.txt 를 읽어보면 나온다.편의를 위해 내용을 같이 포스팅합니다. CentOS-7.0-1406-x86_64-DVD.iso This DVD image contains all the packages that can be installed using the installer. This is the recommended image for most users.CentOS-7.0-1406-x86_64-Everything.iso This image contains t..

NGS vs Sanger sequencing

/* * http://sosal.kr/ * made by so_Sal */ 생물정보학 면접준비 겸 Sequencing의 역사에 대해서 좀 살펴보았다.구글링 도중에, 기본적인 시퀀싱과 NGS에 대한 리뷰가 포함된 국내논문이 있어서 가져왔다. bioinformatics의 새로운 기술-ngs의 현재 그리고 미래, 라는 제목으로간단한 시퀀싱의 역사와 각 시퀀싱 기술들로 만들어지는 데이터의 사용, 연구주제 등이 나와있어서이 분야에 대한 흥미와 기본적인 지식들을 알 수 있었다. 다운로드: http://me2.do/F7zuhYlG 시퀀싱의 세대 역사에 관한 본문의 내용을 그대로 인용해보면 다음과 같다. 1세대 Sequencing 기술은 DNA 합성 과정을 이용하여 염기서열을 밝혀낸 생거 방법을 기반으로 하였고 [2]..

Ffilter approach vs Wrapper approach

/* * http://sosal.kr/ * made by so_Sal */ machine learning을 공부하면 꼭 보는것이 Feature selection 입니다. 상관분석에서 이러한 Feature selection은 All feature에서 subset으로 나누는 것인데, 크게 2가지로 분류됩니다. Filter approace vs Wrapper approach 1. Machine learning 2. filter approach 3. wrapper approach 1. Machine learning 일단 filter & wrapper function을 알기 전에 machine learning에 대해 알지 못한다면 이 포스팅의 내용을 이해하지 못할것입니다. machine learning은 supe..

Microarray와 differentially expressed genes (DEG)

/* * http://sosal.kr/ * made by so_Sal */ Microarray 데이터 분석의 목표중 하나 Differentially expressed genes (DEG: 차별 발현 유전자) 대조군에 비해 실험군의 발현량이 유의하게 증가하거나 감소하는 유전자를 찾기 위한 방법이다. 각 유전자의 발현량을 나타내는 Microarray 데이터에서, 실제 발현량의 차이를 비교하기 위한 기법으로는 T-Test와 ANOVA가 있다. T-test[T검정]: t-검정은 두 집단 간 평균을 비교하는 통계분석 기법이다. 다시 말해 t-검정은 두 집단 간 평균 차이에 대한 통계적 유의성을 검증하는 방법이다. ANOVA[분산분석]: 분산분석은 두 개 이상 집단들의 평균을 비교하는 통계분석 기법이다. 다시 말해..

TCGA Data structure & survival analysis

/* * http://sosal.kr/ * made by so_Sal */ TCGA 사이트에서 데이터를 받아봅시다. http://cancergenome.nih.gov/ 오른쪽 위의 Launch Data Portal 버튼을 누르셔서 Data download 탭에서 원하는 데이터를 받으시면 됩니다. R 프로그래밍과 예제로 위의 데이터를 이용하여 데이터 구조를 분석해보겠습니다. > setwd("D:/Analysis_data") # 데이터가 있는 경로로 R의 현재풀더 바꾸기 > dir() [1] "BRCA1_Methyl.txt" "Clinical.csv" "Expression.txt" [4] "Mutation.txt" "lecture03_code.txt" > cli mut met exp head(mut) Sam..

대용량 FastA file에서 sequence 검색하기 / C#

/* * http://sosal.kr/ * made by so_Sal */ 1. FastA File format 및 포스팅 목적2. 시현 영상3. 프로그램 소개4. C# 소스 다운로드 1. FastA File format 및 포스팅 목적 대용량 FastA file에서 sequence name을 검색하여 실제 sequence를 찾는 프로그램을 만들어보았습니다.프로그램 테스트용으로 사용될 FastA data는 uscs gene browser에서 다운받을 수 있습니다. http://hgdownload.soe.ucsc.edu/goldenPath/hg38/multiz7way/alignments/file: knownCanonical.exonAA.fa.gz 06-Jun-2014 15:22 41M 해당파일의 크기는 약..

Windows :: 32bit, 64bit system.

/* * http://sosal.kr/ * made by so_Sal */ 64bit와 32bit의 구분? 1. 한번에 송수신 가능한 데이터 크기 (I/O bus) 2. 데이터 처리능력 (cpu가 전체적으로 한번에 읽을 수 있는 크기) 두가지 모두 64bit 여야 64bit라고 할 수 있겠습니당. (두개가 일치하지 않을 시 오류 발생 가능성이 높아짐..) 32bit = 4byte. 우리가 흔히 알고있는 포인터 자료형의 크기. 64bit = 8byte. 64비트 컴퓨터에서 사용하는 포인터 자료형의 크기입니다. pointer의 크기가 크면 클수록 접근할 수 있는 메모리의 영역이 넓어집니다. 하지만 I/O bus가 한번에 전송할 수 있는 메모리 크기 이상이 된다면 I/O bus가 2번을 전송해야 하나의 명령어..

Blosum62 Codon table / matrix C++

/* * http://sosal.kr/ * made by so_Sal */ BLOSUM: Blocks of aAmino acid substitution matrix 블로섬의 퍼센트 동일성 중에서, 흔히 60%의 동일성에 기반한 매트릭스를 많이 사용한다. 이것은 기존의 PAM(Point Accepted Mutation ) 매트릭스보다 성능이 더 좋다. 블로섬 60등은 아래와 같은 공식으로 만들어진다.B[i,j]= (1/λ)log {(P i,j)/(ƒi,ƒj)} 출처: http://en.wikipedia.org/wiki/File:BLOSUM62.gif 예전에 짜놨던 코돈테이블을 우연히 발견해서 올려봅니다.수치로 나와있는 그림은 많지만 이 테이블을 만드는건 여간 귀찮은게 아니죠 --; Sequence alig..

c++ 개발환경에서 libsvm 사용하기 / visual studio

/* * http://sosal.kr/ * made by so_Sal */ 메인사진 출처: http://www.turn.com/news/the-magic-of-machine-learning 0. 서론1. LIBSVM 다운받기2. 튜토리얼용 Dataset 다운받기3. C++ 프로젝트 생성하여 libsvm 사용하기3.1 Cross-validation으로 데이터 feature의 성능 측정하기3.2 Training으로 모델 만들기3.3 Model을 이용하여 test 데이터 판별하기 0. 서론libsvm은 supervised-machine learning으로, 학습용으로 주어진 데이터들로부터 모델을 만들고모델에 없는 데이터셋에 대해서 정답 (classification: 1 or 0)을 예측하는 도구중 하나입니다...

반응형