반응형

Major Study. 164

MinION nanopore sequencer 를 위한 향상된 데이터 분석

/* * http://sosal.kr/ * made by so_Sal */ Nature Methods지에 실린 논문입니다. NGS 이후에 3세대 Sequencer중에 하나인 MinION Nanopore sequencer로부터 얻은 데이터에 대해 정확한 sequencing을 위한 데이터분석 관련 논문입니다. MinION Nanopore sequencer는 위의 그림처럼 usb크기의 아주 작은 sequencer다. 기존의 NGS sequencer와 달리, 다량의 잘려진 sequence fragment를 읽어들이는 것이 아닌, 하나의 DNA strand 전체를 한번에 읽어들일 수 있다는 장점이 있다. 현재까지는 variant가 아주 많은 부위 [예를들면 면역관련이나 류마티스 관절렴 등등, variant가 아주..

R에서의 Ensembl IDs와 Entrez IDs

/* * http://sosal.kr/ * made by so_Sal */ 옛날에 적은글이라.. bioconductor가 업데이트 되면서 사용법이 바꼈습니다.install만 아래로 해주세요~! if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("org.Hs.eg.db") if (!requireNamespace("BiocManager", quietly = TRUE)) install.packages("BiocManager") BiocManager::install("AnnotationDbi") ############# Ensembl ID 또는 Entrez ID를 알고 있..

RNASeq normalization 비교 - RPKM/TPM/TMM

/* * http://sosal.kr/ * made by so_Sal */ 일반적으로 RNA-seq data는 DEG분석 (Differential expression analysis)를 하기에 앞서 정규화(normalization) 된다. RNASeq normalization은 다음의 이유로 사용된다. - 샘플간의 비교 - 유전자(Gene)의 비교 - 통계 모델을 RNASeq 데이터에 대해 사용하기 위해 RPKM:Reads (Fragments) Per Kilobase per Million(mappeD)은 샘플간, 혹은 샘플에서 유전자들간의 비교를 위해 고안되었다. (or paired-end equivalent FPKM) Mortazavi, Ali, et al. "Mapping and quantifying..

Matrix multiplication와 index에 따른 속도차이

/* * http://sosal.kr/ * made by so_Sal */ Matrix Multiplication (매트릭스 행렬 곱연산)은 사실 어려운 개념은 아닙니다. 중학교? 쯤에 배웠던것 같은데, 이 개념을 바로 프로그래밍에 써먹기도 그다지 어렵진 않은 내용인것 같습니다. 2 by 2 matrix라고 생각했을 때 예를 들어보면 다음과 같습니다. - A matrix a1 a2 a3 a4 - B matrix b1 b2 b3 b4 A와 B의 matrix multiplication 결과를 C matrix (A**B)라고 할 때, C matrix를 구하는 방법은 다음과 같다. - C matrix a1*b1 +a2*b3 a1*b2 + a2*b4 a3*b1 + a4*b3 a3*b2 + a4*b4 A matri..

Gene Expression data로부터 PCA 분석하기

/* * http://sosal.kr/ * made by so_Sal */ 1. Gene Expression Data 구조 2. ALL 공개데이터를 이용한 PCA 분석 3. TCGA BRCA RNAseq V2를 이용한 PCA 분석 1. Gene Expression Data 구조 Gene expression 데이터는 대표적으로 Microarray와 RNA-seq이 있습니다. 일반적으로 이 데이터는 matrix 구조로 되어있으며, 구조는 다음과 같습니다. column: sample row: gene value: expression - TCGA Gene Expression 데이터 예 특정 유전자가 각 환자별로 얼마나 많이 발현되었는지 알 수 있습니다. TCGA 등의 공개데이터나 혹은 가지고 계신 express..

Burrow-wheeler transform 쉽게 이해하기

Burrow-wheeler Transform (BWT) mississippi라는 문자열을 Burrow-wheeler Transform으로 변형시키는 과정은 다음과 같다. 1. 문자열 끝에 #을 추가시킨 후, n by n 테이블을 만든다. (n은 #을 포함한 문자열 길이) 2. 1칸씩 rotate 시킨다. rotate 시키는 방향은 우측이든 좌측이든 관계 없다. 모든 경우의수가 나오도록만 하면 된다. 이 matrix를 Conceptual matrix 𝑀𝑇 라고 한다. 3. roate 시킨 문자열들을 정렬한다. (정렬하는 과정에서 같아지기 때문에 rotate 방향은 상관이 없다.) 정렬된 각 서열의 우측에있는 문자들이 BWT의 결과 sequence이다. 따라서 mississippi#라는 문자열의 B-W tr..

생물정보학을 위한 IT 기초 - MYSQL

DATABASE * Relational database란 무엇인가? 관계형 데이터베이스는 row와 column의 table 형태로 데이터를 저장하는 관계형 데이터 모델이다. 하나의 데이터베이스는 여러개의 테이블을 가진다. 테이블의의 column은 instance의 attribute의 나열이며, row는 실제 개체의 instance 정보를 담고있다. row는 고유한 unique key를 가질 수 있고, foreign key로서 다른 테이블과 연결될 수 있다. 관계형 데이터베이스는 데이터 시스템을 관리하고 질의하는데 Structured Query Language(SQL)를 사용한다. * Cursor: SQL은 data set을 return한다. 이 모든 데이터 셋을 처리하는것은 불가능하기 때문에, curso..

하드디스크 배드섹터, 스캔 프로그램

/* * http://sosal.kr/ * made by so_Sal */ 본 프로그램은 하드디스크 및 플래쉬 메모리에 대한 배드섹터 검사/기록면 컨디션 체크 프로그램입니다. 컴퓨터 사용중 잦은다운 및 알수없는 오류증상/느려지는 데이터 읽기속도 등.. 하드디스크로 일어날 수 있는 오류에 대해 검사하여 사용자가 데이터 관리에 도움을 주고자 개발된 툴입니다. - 기능 1.물리드라이브 검사에서 논리드라이브 검사기능 추가 (ex:c:\ , d:\ ...) 2.배드섹터 검출기능 강화 및 절대섹터 출력기능 추가 - 기존 배드블럭측정만했던것에 반해 배드블럭내 발생한 배드섹터의 정확한 위치파악 후 LBA값출력. 3.스캔버퍼 선택 (64KB,128KB) 4.스캔 그래프출력기능 강화. - 그래프 페이지별 빠른이동 - 페이..

윈도우8에서 TCP/IP로 프린트 추가하기

/* * http://sosal.kr/ * made by so_Sal */ 프린트가 로컬로 직접 연결되지 않은 경우에는일반적으로 IP를 이용하여 프린터를 추가하여, 네트워크를 이용하여 인쇄를 하는게 보편적입니다. 프린트 IP를 알고 있는 상태에서, TCP/IP를 이용하여 프린트를 추가하는 방법을 알아보겠습니다. 1. 제어판 -> "장치 및 프린터 보기"- 제어판에서 '프린터'로 검색하시면 쉽게 찾으실 수 있습니다. 2. 상단부의 '프린터 추가' 클릭 같은 네트워크 단이면 목록에 뜨지만, 그렇지 않은경우 '원하는 프린터가 목록에 없습니다' 를 클릭해줍니다.프린터 목록에 뜬다면 해당 프린터로 아래와 같이 진행해주시면 됩니다. 3. TCP/IP주소 또는 호스트 이름으로 프린터 추가 4. 장치 유형(T): 에는..

RNA-seq 데이터로 DEG 구하기 - R

/* * http://sosal.kr/ * made by so_Sal */ DEG (Differential Expression Gene). 차별 유전자 발현 Definitions: 1. gene expression that responds to signals or triggers; a means of gene regulation, effects of certain hormones on protein biosynthesis. 실험군이 대조군에 비해 특별히 expression이 많이 일어나거나 적게 일어나는 gene들을 DEG라고 합니다. 예를들어, 10명에 해당하는 환자들을 모아, 그들의 tumor cell과 normal cell을 분석하여, DEG 분석을 통해 tumor cell에서 expression ..

반응형