반응형

Major Study./Bioinformatics 77

Gene Expression data로부터 PCA 분석하기

/* * http://sosal.kr/ * made by so_Sal */ 1. Gene Expression Data 구조 2. ALL 공개데이터를 이용한 PCA 분석 3. TCGA BRCA RNAseq V2를 이용한 PCA 분석 1. Gene Expression Data 구조 Gene expression 데이터는 대표적으로 Microarray와 RNA-seq이 있습니다. 일반적으로 이 데이터는 matrix 구조로 되어있으며, 구조는 다음과 같습니다. column: sample row: gene value: expression - TCGA Gene Expression 데이터 예 특정 유전자가 각 환자별로 얼마나 많이 발현되었는지 알 수 있습니다. TCGA 등의 공개데이터나 혹은 가지고 계신 express..

Burrow-wheeler transform 쉽게 이해하기

Burrow-wheeler Transform (BWT) mississippi라는 문자열을 Burrow-wheeler Transform으로 변형시키는 과정은 다음과 같다. 1. 문자열 끝에 #을 추가시킨 후, n by n 테이블을 만든다. (n은 #을 포함한 문자열 길이) 2. 1칸씩 rotate 시킨다. rotate 시키는 방향은 우측이든 좌측이든 관계 없다. 모든 경우의수가 나오도록만 하면 된다. 이 matrix를 Conceptual matrix 𝑀𝑇 라고 한다. 3. roate 시킨 문자열들을 정렬한다. (정렬하는 과정에서 같아지기 때문에 rotate 방향은 상관이 없다.) 정렬된 각 서열의 우측에있는 문자들이 BWT의 결과 sequence이다. 따라서 mississippi#라는 문자열의 B-W tr..

생물정보학을 위한 IT 기초 - MYSQL

DATABASE * Relational database란 무엇인가? 관계형 데이터베이스는 row와 column의 table 형태로 데이터를 저장하는 관계형 데이터 모델이다. 하나의 데이터베이스는 여러개의 테이블을 가진다. 테이블의의 column은 instance의 attribute의 나열이며, row는 실제 개체의 instance 정보를 담고있다. row는 고유한 unique key를 가질 수 있고, foreign key로서 다른 테이블과 연결될 수 있다. 관계형 데이터베이스는 데이터 시스템을 관리하고 질의하는데 Structured Query Language(SQL)를 사용한다. * Cursor: SQL은 data set을 return한다. 이 모든 데이터 셋을 처리하는것은 불가능하기 때문에, curso..

RNA-seq 데이터로 DEG 구하기 - R

/* * http://sosal.kr/ * made by so_Sal */ DEG (Differential Expression Gene). 차별 유전자 발현 Definitions: 1. gene expression that responds to signals or triggers; a means of gene regulation, effects of certain hormones on protein biosynthesis. 실험군이 대조군에 비해 특별히 expression이 많이 일어나거나 적게 일어나는 gene들을 DEG라고 합니다. 예를들어, 10명에 해당하는 환자들을 모아, 그들의 tumor cell과 normal cell을 분석하여, DEG 분석을 통해 tumor cell에서 expression ..

Transition vs Transversion

/* * http://sosal.kr/ * made by so_Sal */ Figure 1 - http://www.mun.ca/biology/scarr/Transitions_vs_Transversions.html DNA substitution mutation(염기 치환)은 DNA 염기서열 길이의 변화 없이, 염기의 조성이 변하는 것을 말합니다. - A, C, G, T 의 4가지 염기가 다른 염기로 변이하는 경우. DNA는 Purine 계열과 Pyrimidine 계열로 나뉩니다. Figure 2 - http://chemistry2.csudh.edu/rpendarvis/NuclAcids.html Transition: Interchanging of purines(A ↔ G), or pyrimidines (C ..

DNAI1 - ENSG, Variant Interpretation

/* * http://sosal.kr/ * made by so_Sal */ 한 환자의 variant(mutation: rsid)를 알 때, 그 variant를 이용하여 여러가지 정보를 얻을 수 있다. 이 포스팅에선 rsid: rs76334696를 예로, 해당 mutation의 allel frequency, SIFT score 등을 구하는 방법을 알아보고이 mutation에 해당되는 gene에 문제가 생겼을 때, 어떤 phenotype(표현형) 이 생기는지, 어떤 pathway를 가지고 있는지 등을 알아보고자 한다. Variant Information - rsid 정보를 이용하여 Variant information 구하기.: Ensembl 에 해당 rsid를 검색한다. Figure 1.1, 1.2 Refe..

주어진 DNA의 역상보서열 만들기

/* * http://sosal.kr/ * made by so_Sal */ 서점에서 지나가는듯 Bioinformatics 책을 봤는데역상보서열 만들기 주제로 단원이 하나 있길래 심심해서 저도 만들어봅니다 ㅎㅎ. 커맨드 인수 argv를 통해서 input을 받고, 해당 서열의 역상보 서열을 출력합니다. #include#include#includeusing namespace std; string convert(string str); int main(int argc, char* argv[]){ string str(argv[1]); string revcomp = convert(str); cout

Ensembl로 Gene symbol 알아내기

/* * http://sosal.kr/ * made by so_Sal */ 1. 웹서비스로 알아내기2. R 프로그래밍을 이용하여 알아내기 1. 웹서비스로 알아내기 Ensembl로 Gene name을 알아내야 하는 일이 생겼다. ENSG00000116783ENSG00000139656ENSG00000196987ENSG00000216560...... bioinformatics의 아주 기본적인 일인듯 한데, 모르니 일단 구글링으로 GeneCards라는 사이트를 알아 냈다.들어가니 바로 Human gene database 검색기능이 있었다. ENSG00000116783Ensembl을 이용하여 검색하니 바로 결과가 뜬다. Advanced Search를 이용하면 한번에 많은 Ensembl을 이용하여 검색도 가능하다...

SAM/BAM 포맷, 구조 분석

/* * http://sosal.kr/ * made by so_Sal */ NGS data analysis의 workflow를 공부하면서, SAM과 BAM format을 공부하게 되었습니다. SAM 포맷의 간단한 예는 다음과 같습니다. 적당히 구글에 sam file example 정로로 검색하면 나오는 파일입니다.정확한 URL은 다음과 같습니다.https://code.google.com/p/bamseek/downloads/detail?name=ex1.sam http://samtools.github.io/hts-specs/링크에 들어가시면 다음과 같은 포맷들의 specification 문서가 나옵니다. 여기서 SAMv1 파일을 열람하여 SAM file의 구조를 공부하였습니다. BAM과 SAM의 format..

NGS vs Sanger sequencing

/* * http://sosal.kr/ * made by so_Sal */ 생물정보학 면접준비 겸 Sequencing의 역사에 대해서 좀 살펴보았다.구글링 도중에, 기본적인 시퀀싱과 NGS에 대한 리뷰가 포함된 국내논문이 있어서 가져왔다. bioinformatics의 새로운 기술-ngs의 현재 그리고 미래, 라는 제목으로간단한 시퀀싱의 역사와 각 시퀀싱 기술들로 만들어지는 데이터의 사용, 연구주제 등이 나와있어서이 분야에 대한 흥미와 기본적인 지식들을 알 수 있었다. 다운로드: http://me2.do/F7zuhYlG 시퀀싱의 세대 역사에 관한 본문의 내용을 그대로 인용해보면 다음과 같다. 1세대 Sequencing 기술은 DNA 합성 과정을 이용하여 염기서열을 밝혀낸 생거 방법을 기반으로 하였고 [2]..

반응형