반응형

Programing 145

R을 이용한 정규분포와 확률밀도함수

/* * http://sosal.kr/ * made by so_Sal */ * 확률 밀도함수 (probability density function) 통계를 내고자 하는 실험의 데이터가 측정할 수 있는 값인 경우, 우리는 이를 연속적으로 변화할 수 있는 값이라고 생각한다. 예를 들면 몸무게나 키, 수면시간 등, 이들이 데이터가 무한할 경우 모두 연속적인 값들이라고 생각할 수 있다. 이러한 연속적인 확률변수의 분포를 연결된 선으로 연결하여 나타내며, 어느 한 값(점) 에서의 높이는 그 값이 나올 확률이 어느정도 되는지, 데이터에서 얼마나 밀집하는지 나타낸다. 한 회사의 남성들의 키를 데이터로 생각해보자. 이들의 평균 키는 약 173cm정도가 될 것이며, 크게는 190cm, 작게는 150cm 키를 가진 사람들..

R 변동계수의 정의와 의미(coefficient of variation)

/* * http://sosal.kr/ * made by so_Sal */ 변동계수(CV) - Coefficient of Variation 변동계수는 위와 같이, 표준편차에 평균값을 나눈 값입니다. * 변동계수 = 표준편차 / 평균 * CV(x) = sd(x) / mean(x) 표준편차는 절대적인 수치의 떨어진 정도를 나타냅니다.따라서 수의 평균이 커질수록 표준편차 역시 커지는 경향이 있습니다. ex 1)> v1 = c(1, 3, 5)> v2= c(5, 15, 25) 위의 세 숫자로 이루어진 두 벡터(v1, v2)는 비율이 1:3:5 로 동일하지만절대적인 수치가v2가 크기 때문에 표준편차 역시 v2가 높은 경향을 띄게 됩니다. > sd(v1)[1] 2> sd(v2)[1] 10> 따라서 v2의 표준편차는 ..

R에서 히스토그램(Histogram), 줄기잎그림(stem)

/* * http://sosal.kr/ * made by so_Sal */ 막대 도표 (Histogram).히스토그램이라고 불리는 그래프 통계방식. 데이터의 집합인 샘플에서 계급을 나누어, 계급에 속하는 데이터의 개수(빈도) 를 나타내는 방법 그림 출처 - 네이터 백과사전http://terms.naver.com/entry.nhn?docId=707162&cid=42318&categoryId=42318 - 데이터 생성> a = sample(1:100, 200, replace=T) - 히스토그램 그리기> hist(a) 0~10, 11~20, 21~30... 이렇게 각 계급을 나누어 빈도수(Frequency)를 나타낸다.단순한 빈도가 아니라, 백분율(%)을 구하고 싶다면, 함수의 인자로 probability=T..

R에서 사분위수와 box plot

/* * http://sosal.kr/ * made by so_Sal */ 표본(sample)의 데이터들이 대칭적인 구조거나 outlier가 있는경우, 극단적으로 크거나 작은 값들에 영향을 받는다. * 국회의원 재산 평균을 낼 때, 정몽준 현대중공업 회장의 재산을 제외하는 경우 이런 경우에는 평균값이 표본의 데이터를 대표한다고 보기 힘들기 때문에, 순서통계량(order statistics)을 사용하는 경우가 많다. 4분위수(Quartiles) - minumujm - Q1 * 25%에 위치하는 수 - Q2 * 50%에 위치하는 수 - Q3 * 75%에 위치하는 수 - maximum 데이터의 개수가 짝수일 경우, 중위수(median. Q2)값은 중간에 위치한 두 데이터의 평균이 된다. 표본만들기 (Rando..

오토마우스 만들기 - autohotkey

/* * http://sosal.kr/ * made by so_Sal */ Autohotkey 사용법 위 글을 참조하셔서 autohotkey를 설치하시고, 간단한 사용법을 익히세요. - 인터넷에 떠도는 exe파일로 된 매크로를 잘못 설치하시면 바이러스 위험이 있으니 꼭 조심해주세요. - MouseClick examples; Example #1: Send, {Control down} MouseClick, left, 55, 233 Send, {Control up}; Example #2: Send, {Shift down} MouseClick, left, 55, 233 Send, {Shift up}- loop examples Loop, 3 { MsgBox, Iteration number is %A_Index%...

two-way ANOVA

/* * http://sosal.kr/ * made by so_Sal */ > teaching_time ageGroup method days1 50 C 14 two-way ANOVA > aov.out summary(aov.out) Df Sum Sq Mean Sq F value Pr(>F) ageGroup 4 24.933 6.233 14.38 0.001002 ** method 2 18.533 9.267 21.39 0.000617 ***Residuals 8 3.467 0.433 ---Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1> 연령대에 따라 학습능률에 차이가 있고,가르치는 방법에 따라서도 학습능률에 차이가 있다.

범주형 자료의 통계분석 R programming

/* * http://sosal.kr/ * made by so_Sal */ 1. 적합성 검정 ( goodness of fit ) 관찰된 비율값이 기대값과 같은지 조사하는 검정방법. - Heart attack 발생 1년 후 생존률은 0.7이라고 가정하자. 따라서 환자 40명중 28명이 생존할것으로 기대된다. 실제로 40명중 24명이 생존, 16명이 죽었다면 생존률이 0.7이라는 귀무가설을 기각할 수 있는가? > # Goodness of Fit > chisq.test( c(24, 16), p=c(0.7, 0.3) ) Chi-squared test for given probabilities data: c(24, 16) X-squared = 1.9048, df = 1, p-value = 0.1675 자유도가 1..

상관관계 분석 R programming

/* * http://sosal.kr/ * made by so_Sal */ Pearson 상관분석은 변수들이 얼마나 직선적인 관계를 가지는지 분석하는 기법으로 상관계수를 이용하여 측정한다. 상관계수: Correlation coefficient > attach(iris) > cor(Sepal.Length, Petal.Width)[1] 0.8179411# Pearson 상관계수: 0.8179... > cor.test(Sepal.Length, Petal.Width) Pearson's product-moment correlation data: Sepal.Length and Petal.Widtht = 17.2965, df = 148, p-value < 2.2e-16alternative hypothesis: tru..

데이터 검정 R programming

/* * http://sosal.kr/ * made by so_Sal */ DataPima Indian: 9~13세기에 걸쳐 아메리카로 이주해온 몽골리언계주식: 식물성. (나무의 순, 잡초, 밀, 콩, 호박 등)1960년대 이후 고지방/고칼로리 식습관으로 당뇨환자 증가. Pima.tr data 8개의 변수npreg: number of pregnancies.glu: plasma glucose concentration in an oral glucose tolerance test.bp: diastolic blood pressure (mm Hg).skin:triceps skin fold thickness (mm).bmi: body mass index (weight in kg/(height in m)\^2).pe..

반응형