Major Study./Bioinformatics 71

DNA Mutation - 돌연변이의 종류

/* * http://sosal.kr/ * made by so_Sal */ 돌연변이(Mutation): 세포의 DNA를 구성하는 nucleotide가 바뀌는 현상 DNA에서의 돌연변이는 결국 암호화되는 단백질 구조에 기능에 영향을 미치거나, 세포내의 다양한 역할을 하는 RNA의 구조, 기능에 영향을 미쳐 기능의 변화가 유발시킨다. 따라서 생체는 돌연변이를 방지하고 복구하는 기작도 갖추게 되었다. 돌연변이는 크게 체세포 돌연변이(Somatic mutation), 생식세포 돌연변이(Germline mutation)로 구분된다. 체세포 돌연변이는 암유전자 형성 등의 예가 있으며, 해당 세포에만 영향을 주기 때문에 자손에게는 유전되지 않지만, 난자 및 정자에 해당하는 생식세포 돌연변이는 자손에게 유전되므로 종의..

ORF vs Coding sequence (cds) 차이점

/* * http://sosal.kr/ * made by so_Sal */ - https://www.biostars.org/p/47022/ Open Reading Frame (ORF) vs Coding sequence (CDS) - Open reading frame DNA sequence는 6가지 reading frame이 존재한다. [ATG][CAT]GC A[TGC][ATG]C AT[GCA][TGC] Double strand로 존재하기 때문에, 상보서열까지 총 6가지의 경우의 수가 존재한다. 이 모든 reading frame에서 존재할 수 있는 Start codon 'ATG' (not always) 에서부터 Stop codon (TAA, TAG, TGA)으로 둘러쌓인 sequence를 ORF라고 할 수..

R에서의 Ensembl IDs와 Entrez IDs

/* * http://sosal.kr/ * made by so_Sal */ 옛날에 적은글이라.. bioconductor가 업데이트 되면서 사용법이 바꼈습니다.install만 아래로 해주세요~! if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("org.Hs.eg.db") if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("AnnotationDbi") ############# Ensembl ID 또는 Entrez ID를 알고 있..

RNASeq normalization 비교 - RPKM/TPM/TMM

/* * http://sosal.kr/ * made by so_Sal */ 일반적으로 RNA-seq data는 DEG분석 (Differential expression analysis)를 하기에 앞서 정규화(normalization) 된다. RNASeq normalization은 다음의 이유로 사용된다. - 샘플간의 비교 - 유전자(Gene)의 비교 - 통계 모델을 RNASeq 데이터에 대해 사용하기 위해 RPKM:Reads (Fragments) Per Kilobase per Million(mappeD)은 샘플간, 혹은 샘플에서 유전자들간의 비교를 위해 고안되었다. (or paired-end equivalent FPKM) Mortazavi, Ali, et al. "Mapping and quantifying..

Gene Expression data로부터 PCA 분석하기

/* * http://sosal.kr/ * made by so_Sal */ 1. Gene Expression Data 구조 2. ALL 공개데이터를 이용한 PCA 분석 3. TCGA BRCA RNAseq V2를 이용한 PCA 분석 1. Gene Expression Data 구조 Gene expression 데이터는 대표적으로 Microarray와 RNA-seq이 있습니다. 일반적으로 이 데이터는 matrix 구조로 되어있으며, 구조는 다음과 같습니다. column: sample row: gene value: expression - TCGA Gene Expression 데이터 예 특정 유전자가 각 환자별로 얼마나 많이 발현되었는지 알 수 있습니다. TCGA 등의 공개데이터나 혹은 가지고 계신 express..

Burrow-wheeler transform 쉽게 이해하기

Burrow-wheeler Transform (BWT) mississippi라는 문자열을 Burrow-wheeler Transform으로 변형시키는 과정은 다음과 같다. 1. 문자열 끝에 #을 추가시킨 후, n by n 테이블을 만든다. (n은 #을 포함한 문자열 길이) 2. 1칸씩 rotate 시킨다. rotate 시키는 방향은 우측이든 좌측이든 관계 없다. 모든 경우의수가 나오도록만 하면 된다. 이 matrix를 Conceptual matrix 𝑀𝑇 라고 한다. 3. roate 시킨 문자열들을 정렬한다. (정렬하는 과정에서 같아지기 때문에 rotate 방향은 상관이 없다.) 정렬된 각 서열의 우측에있는 문자들이 BWT의 결과 sequence이다. 따라서 mississippi#라는 문자열의 B-W tr..

생물정보학을 위한 IT 기초 - MYSQL

DATABASE * Relational database란 무엇인가? 관계형 데이터베이스는 row와 column의 table 형태로 데이터를 저장하는 관계형 데이터 모델이다. 하나의 데이터베이스는 여러개의 테이블을 가진다. 테이블의의 column은 instance의 attribute의 나열이며, row는 실제 개체의 instance 정보를 담고있다. row는 고유한 unique key를 가질 수 있고, foreign key로서 다른 테이블과 연결될 수 있다. 관계형 데이터베이스는 데이터 시스템을 관리하고 질의하는데 Structured Query Language(SQL)를 사용한다. * Cursor: SQL은 data set을 return한다. 이 모든 데이터 셋을 처리하는것은 불가능하기 때문에, curso..

RNA-seq 데이터로 DEG 구하기 - R

/* * http://sosal.kr/ * made by so_Sal */ DEG (Differential Expression Gene). 차별 유전자 발현 Definitions: 1. gene expression that responds to signals or triggers; a means of gene regulation, effects of certain hormones on protein biosynthesis. 실험군이 대조군에 비해 특별히 expression이 많이 일어나거나 적게 일어나는 gene들을 DEG라고 합니다. 예를들어, 10명에 해당하는 환자들을 모아, 그들의 tumor cell과 normal cell을 분석하여, DEG 분석을 통해 tumor cell에서 expression ..

Transition vs Transversion

/* * http://sosal.kr/ * made by so_Sal */ Figure 1 - http://www.mun.ca/biology/scarr/Transitions_vs_Transversions.html DNA substitution mutation(염기 치환)은 DNA 염기서열 길이의 변화 없이, 염기의 조성이 변하는 것을 말합니다. - A, C, G, T 의 4가지 염기가 다른 염기로 변이하는 경우. DNA는 Purine 계열과 Pyrimidine 계열로 나뉩니다. Figure 2 - http://chemistry2.csudh.edu/rpendarvis/NuclAcids.html Transition: Interchanging of purines(A ↔ G), or pyrimidines (C ..

DNAI1 - ENSG, Variant Interpretation

/* * http://sosal.kr/ * made by so_Sal */ 한 환자의 variant(mutation: rsid)를 알 때, 그 variant를 이용하여 여러가지 정보를 얻을 수 있다. 이 포스팅에선 rsid: rs76334696를 예로, 해당 mutation의 allel frequency, SIFT score 등을 구하는 방법을 알아보고이 mutation에 해당되는 gene에 문제가 생겼을 때, 어떤 phenotype(표현형) 이 생기는지, 어떤 pathway를 가지고 있는지 등을 알아보고자 한다. Variant Information - rsid 정보를 이용하여 Variant information 구하기.: Ensembl 에 해당 rsid를 검색한다. Figure 1.1, 1.2 Refe..