본문 바로가기

Radiant

Prediction based on OLS

지금까지 Radiant 로 하는 회귀분석 모델을 살펴봤는데 이번 포스팅에서는 OLS 를 사용해서 예측하는 방법을 알아보도록 하겠다. OLS 에서 Summary 와 Plot 가운데에 있는 Predict 탭으로 들어가면 된다.

가장 먼저 보이는 것은 Prediction input type 이다. 내가 x 변수를 어떻게 설정할 것인지 결정하면 된다.

- Data: x 값으로 데이터를 사용

- Command: x 값을 직접 입력할 것

- Data & Command: 함께 사용

 

1. Prediction input type: Data

먼저 Prediction input type : Data 를 선택하면 아래에 Prediction data 가 뜬다.

Prediction data 에서 어떤 데이터를 가지고 예측을 할 것인지 정하는 것이다.

 

이 prediction 은 OLS regression 을 기반으로 하기 때문에 여기서의 설명변수와 반응변수는 Summary 에서 회귀 모델을 만들 때 우리가 선택했던 변수와 동일하다.

 

예를 들어 아래와 같이 OLS 를 시행하고 

Predict 에서 diamonds 데이터를 선택하면 오른쪽에 결과창이 뜨는데 각 설명변수 별로 Response variable 인 price 의 expected value 를 보여준다. 그리고 95% 신뢰구간이 나오는데, 그 이유는 Prediction 값이 말 그대로 '예측값' 이기 때문이다.

 

 

한편, 이 diamonds 데이터에는 3000개의 열이 있는데 Predict 결과창에는 10개의 열의 예측값만 보인다.

모든 예측값은 오른쪽 위에서 csv 파일로 저장한 후 확인할 수 있다.

 

 

 

**잔차 데이터 만들기

앞선 회귀분석에서 잔차 가정을 확인하는 것이 중요했다. Predict 를 사용하면 이 잔차의 데이터를 직접 얻을 수 있다.

 

먼저 Predict 를 시행하고 아래쪽에 Store predictions 을 한다. 아래의 예시에서 pred_price 의 이름으로 저장되는 것이다.

그 다음 Data -> Transform 으로 가서 새로운 변수를 만든다.

잔차 = 관측값 - 예측값 이므로

error = price - pred_price 로 'error' 이라는 새로운 변수를 생성하면 이 것이 잔차가 된다.

 

그러면 이 error 의 분포를 Visualize 에서 볼 수 있다.

 

 

2. Prediction input type: Command

여기서는 내가 어떤 설명변수 값을 가지고 예측을 하고 싶은지 정하는 것이다.

OLS 의 회귀모델을 사용하는 것은 동일하다.

 

예를 들어, 동일한 diamond 데이터에서 내가 carat = 1.3 이고 clarity = "SI2" 인 경우의 price 를 예측하고 싶다면 아래와 같이 입력하면 된다. Command 예시를 보며 주의해야 할 사항을 보자.

 

- 먼저 숫자가 아닌 값은 "따옴표" 안에 적어주어야 한다.

- 한꺼번에 여러 개의 값을 지정하고 싶은 때는 c( ) 로 묶어주어야 한다. 이 문법은 Rstudio 와 동일하다.

- seq(a, b, c) 의 의미: a 부터 b 까지 c 의 간격으로 지정

- 숫자 뿐만 아니라 문자도 c( ) 로 묶어주어야 한다.

이렇게 Command 를 사용하면 내가 궁금한 설명변수를 사용하여 예측값을 도출할 수 있다.

'Radiant' 카테고리의 다른 글

Simulate  (0) 2022.06.15
회귀 가정 확인  (0) 2022.06.14
다중 회귀(2) - 범주형 변수  (0) 2022.06.03
다중 회귀 (multiple linear regression)  (0) 2022.06.03
독립성 검정 (Test of Independence)  (0) 2022.04.27