본문 바로가기

Radiant

Radiant 사용하기 (4) Visualize 탭

이번에는 Visualize 탭에서 그래프 그리는 방법을 간단하게 알아보도록 하겠다.

 

먼저 데이터셋을 선택한 후 밑에 세 가지 옵션 중 'Main' 에만 체크해보자 (필요에 따라 필터링도 동시에 할 수 있다)

Main 의 세부항목에서 다양한 그래프 설정이 가능하며 이런 설정을 마친 후 초록색 버튼인 'Create plot' 을 클릭하면 된다. 몇 가지 기본적인 세부항목을 정리해보자면, 

 

- Plot type : 그래프 종류

- X-variable : x축 변수

- facet row / facet column : 변수 별 그래프 만들기 (그래프 정렬을 어떻게 하느냐에 따라 row/column 이 다르다)

- flip : 가로, 세로축 변경

 

이 때 세부항목은 그래프의 종류에 따라 달라진다. 

 

그래프를 몇 가지 그려보며 옵션을 자세히 살펴보도록 하겠다.

 

 

 

1. Distribution

 

가장 기본적인 Distribution, 즉 분포도를 만들어보겠다.

 

우리의 목표는 가격대의 분포를 살펴보는 것이다.

 

이 때, 가격대의 분포를 bedroom 의 개수에 따라 보고 싶다면, facet row/column 을 설정해주면 된다. 그러면 아래와 같이 bedroom 의 개수 별 분포도가 만들어진다. 

 

facet row : bedrooms 일 때의 distribution of price

 

 

2. Scatterplot

 

다음으로 Scatterplot, 즉 산점도를 만들어보자. 산점도는 두 개 이상의 숫자형 변수의 관계를 보고 싶을 때 사용한다. 

 

우리는 Sales 와 Date 의 관계를 보기 위해 가로축은 'date' , 세로축은 'sales' 로 설정해보겠다. 아래에 보이는 것이 기타 설정을 변경하지 않은 기본적인 산점도이다. 

 

date, sales 의 산점도

 

이 상태에서 우리가 'Line' 옵션을 선택하면 회귀 직선이, 

'Loess' 옵션을 선택하면 포물선이 점선으로 표시된다.

 

Line, Loess 추가한 산점도

 

 

 

그런데 x 축의 변수가 factor/불연속인 경우는 어떻게 될까?

 

즉, 여기서 x 축을 'date' 가 아니고 'month' 로 바꾼다면, 산점도가 아래와 같이 일직선인 형태로 나타나게 된다.

(여기서 보이는 파란선은 평균이다)

 

본래 산점도라고 하면 보다 고르게 분포되어 있는 것을 생각하는 우리를 위해 또 옵션이 있다.

바로 'Jitter'. 이 옵션을 선택하면 자동으로 점들을 보다 고르게 분포시켜 준다.

'Jitter' 를 선택한 산점도

 

 

 

이외에도 산점도에는 더 많은 옵션이 있다.

 

먼저 'Size' 옵션. 말 그대로 점의 크기를 조절하는 것이다. 이 때, 점의 크기를 조절하는 변수로 y 축에 사용된 변수 이외의 변수를 사용할 수도 있다.

 

여기서 점은 변수가 클수록 커지고, 겹치는 점이 많을수록 진해진다.

 

'Size' 옵션을 sales 로 선택

 

 

그 위에 'Color' 옵션도 간단하다. 내가 선택한 변수별로 색깔을 다르게 하겠다는 뜻이다.

 

Color 와 Size 옵션을 동시에 선택한 산점도를 보면 사람에 따라 더 보기 좋게 느껴질 수도 있을 것이다.

 

 

3. Density 

Density, 즉 밀도는 distribution 의 옵션과 비슷하다. 

 

추가된 옵션은 Log X 이다. 지금 아래에 보이는 그래프는 

Fill: retire 로 선택해서 은퇴 여부에 따른 density 가 그려진다. 그런데 문제는 그 차이가 잘 보이지 않는다는 점이다.

 

이 때, Log X 옵션을 선택해주면 아래와 같이 구분하기 편하게 그래프가 나타난다. 

 

 

오늘은 여기까지 하고, 나중에 더 배우면 추가하도록 하겠다.