반응형

Programing/R- programming 58

R을 이용하여 엑셀(excel) 파일 읽고 쓰기

/* * http://sosal.kr/ * made by so_Sal */ Informatics 하는 사람의 입장에서 MS-office Excel을 쓴다는건 영 환영받지 못할 일이다. 소수점 처리에 문제가 많으며, 빅데이터의 경우 열람이 굉장히 힘들고 느리고, 제한적이기 때문이다. 하지만 작은 데이터의 경우, 쉽게 통계적으로 그래프를 그린다거나 눈으로 쉽게 볼 수 있기 때문에 활용도가 높다. 적당히 콘솔로 보기 힘들지만, 엑셀로 GUI로 볼 때 편한 데이터의 경우 Excel 파일로 열람하거나 혹은 엑셀(Excel)로 저장되어있는 데이터를 불러 올 때 gdata 패키지를 쓴다면 R에서도 쉽게 Excel과 연동이 가능하다. - 공식 gdata 패키지 문서 http://cran.r-project.org/web..

R을 이용한 기본 Linear regression 선형회귀

/* * http://sosal.tistory.com/ * made by so_Sal */ - '선형회귀' 란 무엇인가? - 데이터 준비 - 선형 회기모델로 최적선 구하기 - 선형회귀 결과해석 및 단순 예측 - 분산분석 - 신뢰구간과 예측 - '선형회귀' 란 무엇인가? - (X1, X2, …, Xn)을 n차원의 확률 변수로 하여 조건부 기댓값 - 하나의 설명 변수에 기반한 경우에는 단순선형회귀, 둘 이상의 복수의 설명 변수에 기반한 경우에는 다중선형회귀라고 한다. [네이버 지식백과] 선형 회귀 분석 [linear regression] 단순 선형회귀를 기준으로 y = ax + b 라는 회귀 함수 (회귀 곡선) 를 구하여 독립변수(x)에 따른 종속변수(y)값을 예측하는 모델링이라고 할 수 있겠습니다. 간단하..

리눅스에서 R 가로넓이 조절하기

/* * http://sosal.kr/ * made by so_Sal */ 서버: Linux CentOS 리눅스에서 R을 쓰게되면, 처음에 가로 넓이가 짧아서 답답하게 느껴질 것입니다. 모니터는 충분 하지만, 리눅스의 R 자체에서 witdh 길이가 제한되어있기 때문에, 모니터를 충분히 사용하지 못하고 있죠. 이 경우에, options() 이란 함수를 사용하면 됩니다. https://stat.ethz.ch/R-manual/R-patched/library/base/html/options.html 가로 넓히기: options("width"=300) 이 명령어 한방이면 끝! options() 함수에서 "width" parameter를 조절 한 후의 같은 명령어 결과 모습. 모니터 전체의 넓이를 모두 활용할 수 ..

R - One sample T-test / T 검정

/* * http://sosal.kr/ * made by so_Sal */ T검정을 검색했을 떄, 백과사전이나 위키에서 나오는 내용을 요약하면 다음과 같다. - Introduction T검정이란? - t 검정은 표본으로부터 추정된 분산이나 표준편차를 가지고 아래에 있는 두 가설을 검정하는 방법 H0(귀무가설): 두 모집단은 평균간의 차이가 없다. H1(대립가설): 두 모집단은 평균간의 차이가 있다. 결론은 비교하는 두 대상의 평균의 차이가 있느냐, 없느냐다. 그렇다면 one sample t-test 란 무엇일까? - one sample t-test 전체 모집단에 대한 정보가 없을 때, 표본이 과연 모집단으로부터 나온것인지를 판단할 때 사용한다. - t.test 문법 t.test(x, y = NULL, a..

IQR Rule for Outliers - 이상치

/* * http://sosal.kr/ * made by so_Sal */ 이상치가 보일만한 boxplot 그림을 완성하기 위해, sample과 직접 데이터를 추가해서 이상치를 가지는 데이터 a를 만들었다. a 이상치 (낮은값) > which(a 이상치 (높은값) > which(a > fivenum(a)[4] + 1.5*IQR(a)) [1] 103 104 따라서 a[101], a[102]가 이상치 (낮은값) a[103], a[104]가 이상치 (높은값) 이 되겠습니다. a의 101, 102번 index가 낮은 값의 이상치로 판별됨 a의 103, 104번 index가 높은 값의 이상치로 판별됨 Q3 + 1.5*IQR 보다 크거..

R을 이용한 정규분포와 확률밀도함수

/* * http://sosal.kr/ * made by so_Sal */ * 확률 밀도함수 (probability density function) 통계를 내고자 하는 실험의 데이터가 측정할 수 있는 값인 경우, 우리는 이를 연속적으로 변화할 수 있는 값이라고 생각한다. 예를 들면 몸무게나 키, 수면시간 등, 이들이 데이터가 무한할 경우 모두 연속적인 값들이라고 생각할 수 있다. 이러한 연속적인 확률변수의 분포를 연결된 선으로 연결하여 나타내며, 어느 한 값(점) 에서의 높이는 그 값이 나올 확률이 어느정도 되는지, 데이터에서 얼마나 밀집하는지 나타낸다. 한 회사의 남성들의 키를 데이터로 생각해보자. 이들의 평균 키는 약 173cm정도가 될 것이며, 크게는 190cm, 작게는 150cm 키를 가진 사람들..

R 변동계수의 정의와 의미(coefficient of variation)

/* * http://sosal.kr/ * made by so_Sal */ 변동계수(CV) - Coefficient of Variation 변동계수는 위와 같이, 표준편차에 평균값을 나눈 값입니다. * 변동계수 = 표준편차 / 평균 * CV(x) = sd(x) / mean(x) 표준편차는 절대적인 수치의 떨어진 정도를 나타냅니다.따라서 수의 평균이 커질수록 표준편차 역시 커지는 경향이 있습니다. ex 1)> v1 = c(1, 3, 5)> v2= c(5, 15, 25) 위의 세 숫자로 이루어진 두 벡터(v1, v2)는 비율이 1:3:5 로 동일하지만절대적인 수치가v2가 크기 때문에 표준편차 역시 v2가 높은 경향을 띄게 됩니다. > sd(v1)[1] 2> sd(v2)[1] 10> 따라서 v2의 표준편차는 ..

R에서 히스토그램(Histogram), 줄기잎그림(stem)

/* * http://sosal.kr/ * made by so_Sal */ 막대 도표 (Histogram).히스토그램이라고 불리는 그래프 통계방식. 데이터의 집합인 샘플에서 계급을 나누어, 계급에 속하는 데이터의 개수(빈도) 를 나타내는 방법 그림 출처 - 네이터 백과사전http://terms.naver.com/entry.nhn?docId=707162&cid=42318&categoryId=42318 - 데이터 생성> a = sample(1:100, 200, replace=T) - 히스토그램 그리기> hist(a) 0~10, 11~20, 21~30... 이렇게 각 계급을 나누어 빈도수(Frequency)를 나타낸다.단순한 빈도가 아니라, 백분율(%)을 구하고 싶다면, 함수의 인자로 probability=T..

R에서 사분위수와 box plot

/* * http://sosal.kr/ * made by so_Sal */ 표본(sample)의 데이터들이 대칭적인 구조거나 outlier가 있는경우, 극단적으로 크거나 작은 값들에 영향을 받는다. * 국회의원 재산 평균을 낼 때, 정몽준 현대중공업 회장의 재산을 제외하는 경우 이런 경우에는 평균값이 표본의 데이터를 대표한다고 보기 힘들기 때문에, 순서통계량(order statistics)을 사용하는 경우가 많다. 4분위수(Quartiles) - minumujm - Q1 * 25%에 위치하는 수 - Q2 * 50%에 위치하는 수 - Q3 * 75%에 위치하는 수 - maximum 데이터의 개수가 짝수일 경우, 중위수(median. Q2)값은 중간에 위치한 두 데이터의 평균이 된다. 표본만들기 (Rando..

반응형