이번에는 Visualize 탭에서 그래프 그리는 방법을 간단하게 알아보도록 하겠다.
먼저 데이터셋을 선택한 후 밑에 세 가지 옵션 중 'Main' 에만 체크해보자 (필요에 따라 필터링도 동시에 할 수 있다)
Main 의 세부항목에서 다양한 그래프 설정이 가능하며 이런 설정을 마친 후 초록색 버튼인 'Create plot' 을 클릭하면 된다. 몇 가지 기본적인 세부항목을 정리해보자면,
- Plot type : 그래프 종류
- X-variable : x축 변수
- facet row / facet column : 변수 별 그래프 만들기 (그래프 정렬을 어떻게 하느냐에 따라 row/column 이 다르다)
- flip : 가로, 세로축 변경
이 때 세부항목은 그래프의 종류에 따라 달라진다.
그래프를 몇 가지 그려보며 옵션을 자세히 살펴보도록 하겠다.
1. Distribution
가장 기본적인 Distribution, 즉 분포도를 만들어보겠다.
우리의 목표는 가격대의 분포를 살펴보는 것이다.
이 때, 가격대의 분포를 bedroom 의 개수에 따라 보고 싶다면, facet row/column 을 설정해주면 된다. 그러면 아래와 같이 bedroom 의 개수 별 분포도가 만들어진다.
2. Scatterplot
다음으로 Scatterplot, 즉 산점도를 만들어보자. 산점도는 두 개 이상의 숫자형 변수의 관계를 보고 싶을 때 사용한다.
우리는 Sales 와 Date 의 관계를 보기 위해 가로축은 'date' , 세로축은 'sales' 로 설정해보겠다. 아래에 보이는 것이 기타 설정을 변경하지 않은 기본적인 산점도이다.
이 상태에서 우리가 'Line' 옵션을 선택하면 회귀 직선이,
'Loess' 옵션을 선택하면 포물선이 점선으로 표시된다.
그런데 x 축의 변수가 factor/불연속인 경우는 어떻게 될까?
즉, 여기서 x 축을 'date' 가 아니고 'month' 로 바꾼다면, 산점도가 아래와 같이 일직선인 형태로 나타나게 된다.
(여기서 보이는 파란선은 평균이다)
본래 산점도라고 하면 보다 고르게 분포되어 있는 것을 생각하는 우리를 위해 또 옵션이 있다.
바로 'Jitter'. 이 옵션을 선택하면 자동으로 점들을 보다 고르게 분포시켜 준다.
이외에도 산점도에는 더 많은 옵션이 있다.
먼저 'Size' 옵션. 말 그대로 점의 크기를 조절하는 것이다. 이 때, 점의 크기를 조절하는 변수로 y 축에 사용된 변수 이외의 변수를 사용할 수도 있다.
여기서 점은 변수가 클수록 커지고, 겹치는 점이 많을수록 진해진다.
그 위에 'Color' 옵션도 간단하다. 내가 선택한 변수별로 색깔을 다르게 하겠다는 뜻이다.
Color 와 Size 옵션을 동시에 선택한 산점도를 보면 사람에 따라 더 보기 좋게 느껴질 수도 있을 것이다.
3. Density
Density, 즉 밀도는 distribution 의 옵션과 비슷하다.
추가된 옵션은 Log X 이다. 지금 아래에 보이는 그래프는
Fill: retire 로 선택해서 은퇴 여부에 따른 density 가 그려진다. 그런데 문제는 그 차이가 잘 보이지 않는다는 점이다.
이 때, Log X 옵션을 선택해주면 아래와 같이 구분하기 편하게 그래프가 나타난다.
오늘은 여기까지 하고, 나중에 더 배우면 추가하도록 하겠다.
'Radiant' 카테고리의 다른 글
Radiant 사용하기 (6) Pivot 탭 (0) | 2022.03.11 |
---|---|
Radiant 사용하기 (5) Transform 탭 (0) | 2022.03.11 |
Radiant 사용하기 (3) View 탭 (0) | 2022.03.10 |
Radiant 사용하기 (2) 데이터 불러오기, 저장하기 (0) | 2022.03.08 |
Radiant 사용하기 (1) 설치, 실행 (0) | 2022.03.08 |