본문 바로가기

분류 전체보기

(46)
Simulate 이번 포스팅에서는 Radiant 에서 시뮬레이션을 돌리는 것에 대해 알아보도록 하겠다. 시뮬레이션이라고 하면 모호한 느낌이 많이 드는데, 서로 다른 분포를 따르는 변수를 가지고 어떤 결과가 궁금할 때 사용할 수 있다. 이 기능은 Model -> Simulate 에 있다. 1. Simulate 먼저 아래와 같은 창이 보인다. - Select types 에서는 어떤 분포를 사용할 것인지 모두 선택해주면 된다. 분포를 선택하면 각 분포별로 매개변수를 입력하면 된다. Name 은 변수의 이름을 말한다. 마지막에 '+' 를 클릭하여 아래의 칸에 넣어주는 것을 잊지 않도록 하자! 한꺼번에 여러 값을 입력해도 되고 Constant 도 입력할 수 있으니 참고하자. 변수를 모두 입력한 후에는 시뮬레이션 돌리는 것과 관련..
Prediction based on OLS 지금까지 Radiant 로 하는 회귀분석 모델을 살펴봤는데 이번 포스팅에서는 OLS 를 사용해서 예측하는 방법을 알아보도록 하겠다. OLS 에서 Summary 와 Plot 가운데에 있는 Predict 탭으로 들어가면 된다. 가장 먼저 보이는 것은 Prediction input type 이다. 내가 x 변수를 어떻게 설정할 것인지 결정하면 된다. - Data: x 값으로 데이터를 사용 - Command: x 값을 직접 입력할 것 - Data & Command: 함께 사용 1. Prediction input type: Data 먼저 Prediction input type : Data 를 선택하면 아래에 Prediction data 가 뜬다. Prediction data 에서 어떤 데이터를 가지고 예측을 할 ..
회귀 가정 확인 지금까지 회귀모델을 만드는 방법과 해석하는 방법을 살펴봤는데, 이렇게 만들기 위해서는 몇 가지 가정을 충족해야 한다. 어떤 가정이 있는지, Radiant 에서 확인은 어떻게 하는지 살펴보도록 하겟다. 1. Linearity (선형성) 선형회귀인 경우, 회귀모델이 선형이라는 가정을 만족해야 한다. - k = 1 : 단순회귀인 경우, scatter plot 으로 볼 수 있다. - k = 2 : 다중회귀인 경우, R^2 값을 확인하거나 "sanity check" 를 할 수 있음. 즉, coefficient 의 부호를 확인해서 선형이 아닌 이유를 찾을 수 있다. 2. Normality of errors (정규성) error(잔차)가 정규분포를 따르는 가정이다. 이 가정은 사실 만족하기가 쉽지 않지만, 다행히 해..
다중 회귀(2) - 범주형 변수 범주형 변수를 설명변수로 넣었을 경우 해석을 어떻게 해야 하는지 보자. 먼저 범주형 변수는 '더미 변수'로 표현되는데, 0과 1로 나타내어진다. 예를 들어, 품질 변수로 '좋음, 보통, 안 좋음' 세 가지가 있다면, 다음과 같이 표현할 수 있다. 좋음: 1 0 0 보통: 0 1 0 안 좋음: 0 0 1 이렇게 0과 1로 보이는 각 변수를 '더미 변수'라고 하며 필요한 더미 변수의 개수는 (#수준 - 1)개이다. 위의 예시에서 필요한 더미 변수의 개수는 2개인 것이다. 아래의 예시에서 wholesaler_eff 가 더미 변수이다. 수준은 Poor, Fair, Good, Excellent 4 이다. 설명변수에서 해당 변수를 선택하고 모델을 돌리면 오른쪽에 3개의 더미변수가 생성된 것을 볼 수 있다. 나머지는..
다중 회귀 (multiple linear regression) 오늘은 Radiant 로 회귀분석을 하는 방법을 알아보도록 하겠다. 먼저 Model -> Linear regression (OLS) 로 들어간다. 그러면 아래와 같은 창이 뜬다. 회귀식을 만드는 데에는 기본적으로 반응변수와 설명변수가 필요하다. - Response variable : 회귀식을 만들 때 일반적으로 'y' 에 해당하는 것으로, 반응변수를 말한다. - Explanatory variables: 회귀식을 만들 때 일반적으로 'x' 에 해당하는 것으로, 설명변수를 말한다. 만약 설명변수 하나를 선택한다면, 아래와 같은 결과가 나온다. - 회귀식의 p.value 와 설명변수의 p.value 가 같다는 것을 볼 수 있다. - R^2 = correlation^2 만약 설명변수를 두 개 이상 선택한다면, ..
독립성 검정 (Test of Independence) 오늘은 두 개의 변수가 독립인지 확인하고 싶을 때의 방법을 살펴보도록 하겠다. 먼저 두 변수가 모두 범주형 (categorical) 일 때의 경우부터 보자. 1. 두 변수가 범주형일 때 1.1. Cross tabs (분할표) Basics -> Cross-tabs 으로 들어가면 된다. Pivot 과는 또 다르니 유의하자. 먼저 왼쪽에서 두 개의 범주형 변수를 선택하면 오른쪽에 Summary 가 나온다. Summary 의 내용은 귀무가설, 대립가설, 카이제곱 값 (chi-squared test statistic), p-value 가 있다. 지금까지 나오지 않았던 내용 위주로 부가 설명을 하자면, 카이제곱 분포의 자유도는 다음과 같이 구할 수 있다. df = (열의 개수 - 1) * (행의 개수 - 1) 또,..
이표본 가설검정 (Two sample hypothesis test) 일표본 가설검정에 이어서 이표본 가설검정을 보도록 하겠다. 두 집단의 모평균 비교 : basics -> compare means 두 집단의 모비율 비교 : basics -> compare proportions 1. 모평균 비교 (basics -> compare means) 모평균 비교는 단일검정과 마찬가지로 모표준편차를 알 때는 z 분포를, 모를 때는 t 분포를 사용해야 하지만, Radiant 에서는 t 분포를 가정하고 사용하니 조심하자. 대체로 일표본 평균비교와 비슷하지만, Sample type 의 선택사항이 추가되었다. 우리는 sample type 만 보도록 하자. 표본끼리 독립인지 아닌지를 체크해주면 된다. 이 가정에 따라 표준편차를 계산하는 방법이 달라진다. 또한 독립인 경우, 표본크기(n)가 같..
신뢰구간과 표본 크기 (Confidence interval & sample size) 지난 포스팅에서는 단일표본의 가설검정에 대해 알아보았다. 이표본 가설검정으로 넘어가기 전에, 가설검정에서 항상 따라오는 신뢰구간을 구하는 방법과 적절한 표본 크기를 찾는 방법을 알아보도록 하겠다. 먼저, 신뢰구간 (confidence interval, CI) 을 계산할 때 모표준편차를 아는지 여부에 따라 사용하는 분포가 다르다는 것부터 짚고 넘어가도록 하겠다. (1) 모표준편차를 안다면 : z 분포 (2) 모표준편차를 모른다면 : t 분포 (자유도 필요) 자주 쓰이는 용어 정리: - standard error (se, 표준오차) : 표준편차 / route(n) - margin of error (me, 허용오차): +- 의 뒷부분 1. 신뢰구간 구하기 Radiant 에서 신뢰구간을 구하는 방법은 두 가지가..