반응형

Programing/R- programming 59

R deep learning with Keras

/* * http://sosal.kr/ * made by so_Sal */ Data 분석은 주로 R,딥러닝 모델 구현은 Python을 이용했었다. 파이썬은 General 한 프로그램을 구현하기엔 좋지만,데이터를 분석하기에는 불편한 점이 굉장히 많다. 데이터 분석 중간 중간마다 어떤 process를 거쳤을 때, 중간 분석 과정에서 결과가 어떻게 나오는지 상세히 확인해줄 필요가 많은데Python은 실시간으로 데이터의 특징을 파악하기엔 불편한 점이 너무 많다.특히 Visualization도 굉장히 불편하고.. (물론 불가능한 건 아니지만, 개인적으로 시간과 노력이 R에 비해서 5배 이상은 더 드는 것 같다.) 그런데 이제는 딥러닝도 R로 구현이 가능해졌다 !!KERAS 덕분에.. GPU와 연동때문에, 딥러닝은..

R에서 ROC curve 그리기

/* * http://sosal.kr/ * made by so_Sal */ R 프로그래밍에서 Logistic regression, SVM, 혹은 딥러닝 결과 등을 정리할 때ROC curve와 AUC를 계산하기 위해서 매번 pROC, ROCR 등의 라이브러리로허접한 기본 figure들을 만들었었다. 항상 찝찝한 마음으로 기본적인 figure를 그리다가..오늘 찾아보니 Epi라는 패키지를 쓰면 매우 쉽게 좋은 ROC curve 그래프를 그릴 수 있다는 것을 발견했다. install.packages("Epi")간단하게 설치해주고.. library(Epi) ROC(predicted, label) # also try adding plot="sp"코드 한줄이면 그래프가 그려진다. ex) library(Epi) pr..

통계, 데이터 정리 기본 개념

/* * http://sosal.kr/ * made by so_Sal */ 보건통계학 수업..수업때 블로깅하면서 듣는게 좋아서 두서없이 작성한 글. 기술 통계학(descriptive statistics)는 측정이나 실험에서 수집한 자료의 정리, 표현, 요약, 해석 등을 통해 자료의 특성을 규명하는 통계적 방법이다.한 표본의 조사로부터 전체 집단의 현상을 추리하는 통계학. 확률론 따위의 방법을 쓴다. 그룹화된 데이터: 도수 분포Sturge's rule: 데이터가 N개일 때, histogram에서 breaks의 수를 k = 1 + 3.322 * log_10(N)로 하면 좋다. 라는 뜻.N이 만약 500이라면, 1+3.322 * log_10(500) = 1 + 3.322*2.69897 = 9.9659789.9..

Expectation–maximization과 R을 이용한 구현

/* * http://sosal.kr/ * made by so_Sal */ Expectation Maximization 알고리즘에 대해 어렴풋이 알고있었는데,이번기회에 R프로그래밍을 이용하여 직접 구현해보았다. 라이브러리를 사용하면 쉽게 사용할 수 있지만,수리통계와 확률론에 평소에 약했다고 느끼는 터라, 이번 기회에 한번 직접 구현해보았다.EM 알고리즘을 적용할 수 있는 예는 방대하지만, Clustering을 예제로 하여 이 글을 작성한다.Clustering의 대상은 DNA Sequence로 한다. 샘플: 데이터변수: 하나의 데이터(샘플)가 가지는 다양한 값 Clustering은 비슷한 변수를 가지고 있는 샘플들을 군집화 시켜주는 알고리즘이다. K-meansClustering 기법중, k-means cl..

WARNING: Only g++ version 4.6 or greater can be used with RcppArmadillo

/* * http://sosal.kr/ * made by so_Sal */ R 설치할 때, 다른 package에 dependency가 있을 경우 혼란스러운 경우가 많다. RcppArmadillo 패키지를 설치하려는데 에러가 발생했다.ERROR 메시지에는 Configuration failed가 뜨는데 딱히 도움이 되는 에러가 아니다. WARNING을 찾아보니, G++가 4.6버전보다 높아야 한다고 한다. [sosal@piano GEODATA]$ R CMD INSTALL RcppArmadillo_0.7.100.3.1.tar.gz * installing to library '/storage/home/sosal/programs/R/R-devel/library' * installing *source* packag..

R: Chisq post hoc. 다중 카이제곱검정

/* * http://sosal.kr/ * made by so_Sal */ R 프로그래밍에서 독립성 검정을 하는데, 3군 이상의 경우에는, 카이제곱에서 어떤 그룹간의 차이가 있는지 알 수 없다. 찾아보니까 다중 카이제곱 검정을 해주는 패키지가 있었다. library: fifer 설치 (install) > install.packages("fifer") 로드 > library(fifer) - 데이터 예쩨 > M dimnames(M) chisq.post.hoc(M) 결과값과 raw pvalue, adjust p-value (default FDR) FDR 값으로 multiple testing 결과 adjust pvalue값까지 나오는 것을 확인할 수 있다.

반응형