로운's 기술노트

태블로(Tableau)_3~4강 본문

내배캠_데이터분석가_'24.04~08/BI

태블로(Tableau)_3~4강

로운's 2024. 6. 27. 23:49

[ 차트 ]

ㅇ 효과적인 차트 선택

* 출처 - Chart Suggestions A Thought Scatter (by. Andrew Abela)

 

 

ㅇ 태블로 차트 종류

  • 텍스트 테이블
  • 히트맵
  • 맵 차트
  • 파이 차트
  • 막대 차트
  • 트리맵
  • 라인 차트
  • 영역 차트
  • 분산형 차트
  • 박스 플랏 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1. 선 그래프(Line Plot)

- 간단하고 사용하기 쉽습니다.
- 시계열 데이터(시간에 따른 추이)를 시각화할 경우, 변화량과 트렌드를 한눈에 보기에 용이합니다.
- 연속적인 데이터에 사용하기 적합합니다. 연속형 데이터는 온도(25도, 30도), 시간(시, 분, 초)를 말합니다.

 

2. 막대 그래프(Bar Plot)

  • 간단하고 사용하기 쉽습니다.
  • 범주 간의 차이나 분포를 시각적으로 이해하기 쉽습니다.
  • 범주형 데이터(성별, 혈액형, 이름 등)에 사용하기 적합합니다.

3. 맵 차트(Map Chart)

  • 지도를 활용해서 지리적 위치를 살펴볼 수 있습니다.
  • 각 지역별 데이터의 분포 및 비중을 한눈에 확인할때 주로 사용합니다.

 

4. 파이 차트(Pie Chart)

  • 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있습니다.
  • 데이터의 구성 비율과 분포를 한눈에 파악할 수 있습니다.
  • 다양한 변수를 다루기에는 적합하지 않을 수 있습니다. 변수가 적을 때 직관적으로 사용하기 용이합니다.

 

5. 트리맵 차트(Treemap Chart)

  • 데이터를 계층적으로 표현하는데 사용됩니다.
  • 카테고리별로 특정 데이터 집합이 전체 데이터에서 차지하는 비율을 면적으로 표현하여 카테고리별 구성 요소를 한눈에 파악할 수 있어요.

 

6. 도넛 차트(Donut Chart)

  • 파이 차트와 비슷한 형태로 가운데 구멍이 뚫린 경우를 도넛 차트라고 불립니다.
  • 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있습니다.
  • 태블로에서는 대시보드의 KPI 카드로 많이 활용됩니다.

 

7. 히트맵 차트(Heatmap Chart)

  • 색상을 활용해서 데이터 값을 시각적으로 강조할 수 있어요. 색상의 그라데이션을 통해 측정값들을 한눈에 비교할 수 있습니다.
  • 태블로에서 하이라이트 테이블이라고도 불립니다.

 

8. 영역 차트(Area Chart)

  • 영역 차트는 선 아래 영역을 색으로 채워서 데이터의 영역 크기를 파악할 수 있어요.
  • 시간에 따른 데이터의 추이를 시각적으로 나타냅니다. 데이터의 변화 및 흐름을 쉽게 파악할 수 있습니다.

 

9. 스택 플랏(Stacked Plot)

  • 상대적인 비율을 직관적으로 시각화 할 수 있습니다.
  • 시간에 따라 데이터가 어떻게 변하는지 시각적으로 알 수 있습니다.
  • 단순 누적 그래프는 기준선이 일정하지 않기 때문에 비교하기가 어렵습니다.
  • 100% 누적 그래프를 활용하면 기준을 비교하기 쉽습니다.

 

10. 이중 축(콤보 차트)  > 시각화 Level Up❗️

  • 이중 축 차트를 사용하면 두 가지 서로 다른 데이터 집합을 한번에 비교할 수 있어요.
  • 축에 서로 다른 단위나 기준을 가지고 있는 경우, 그래프를 볼때 한눈에 알아보기 어렵습니다.

 

11. 평균선/참조선

  • 분석 패널에서 평균선 라인/상수 라인/참조선을 추가해서 의사결정을 빠르게 할 수 있습니다.

 

12. 박스 플랏(Box Plot) - 데이터 분석

  • 데이터의 분포와 이상치(outlier)를 시각적으로 파악할때 사용하는 그래프입니다.

13. 파레토 차트(Pareto Chart)

파레토 법칙이란? 전체 결과의 80%가 전체 원인의 20%에서 일어난다는 마케팅 기법
(다수의 결과는 소수의 원인에 의해 생겨난다)

예를 들어, 간단하게 데이터를 분석하고자 할때 80%의 수익이 판매 상품 중 20%에서 발생한다고 의사 결정 할 수 있어요! 매출의 80%가 고객의 20%에 의해 발생한다고 의사 결정을 효율적으로 할 수 있습니다.

 

14. 상관 관계(Scatter Plot)

  • 표간 어떤 선형적인 관계가 있는지 알아보기 위해 상관 분석을 자주 활용합니다.

 

  • (참고) 피어슨 상관 관계 설명
    • 상관 관계 r이 -1이나 1에 가까울수록 x와 y 사이의 관계가 더 강력합니다.
    • r이 0이거나 0에 가까우면 측정값 간의 관계가 약하거나 관계가 없는 것입니다.
    • 일반적인 규칙에 따라, r 값을 다음과 같은 방식으로 해석할 수 있습니다.
      • +.70 이상은 매우 강한 양의 관계를 나타냅니다.
      • +.40에서 +.69 사이는 강한 양의 관계를 나타냅니다.
      • +.20에서 +.39 사이는 중간 정도의 양의 관계를 나타냅니다.
      • .19에서 +.19 사이는 약하거나 상관없는 관계를 나타냅니다.
      • .20에서 -.39 사이는 중간 정도의 음의 관계를 나타냅니다.
      • .40에서 -.69 사이는 강한 음의 관계를 나타냅니다.
      • .70 이하는 매우 강한 음의 관계를 나타냅니다.

15. 시계열 예측

태블로에서 지수 평활법(exponential smoothing)을 활용해서 예측 모델링을 합니다. 과거 데이터에 기반하여 미래를 예측하는 시계열 예측을 해요

 

 

ㅇ 계산과 필터의 작동 순서

아래 이미지는 계산과 필터의 태블로 작업 순서(쿼리 파이프 라인)입니다. 필터를 추가할 때 해당 필터가 항상 작업 순서에 따라 설정된 순서대로 실행됩니다.

 

* 참고 자료 출처: Tableau Order of Operations by Dave Weaver

 

ㅇ Top N 필터와 차원 필터

지역별 필터(차원 필터)와 고객별 상위 매출 Top N 선택하려고 합니다.

Top N 필터는 차원 필터보다 위에서 먼저 작동되기 때문에 지역별 필터(차원 필터)가 적용되지 않는 문제가 발생합니다. 차원 필터를 먼저 동작시키고 싶다면 어떻게 해결해야 할까요?

이때 컨텍스트 필터를 활용해서 해결할 수 있습니다! 상위 필터, 집합, Fixed식과 차원 필터의 문제들이 발생하는 경우, 컨텍스트 필터를 활용해서 작동 순서를 바꿀 수 있어요~

 

 

  • 작동 원리 우선 순위: 컨텍스트 필터 > Top N > 차원 필터

 

 

 

 

[ 함수 ]

ㅇ 태블로 함수

# 1) 논리 함수 
# if 
IF SUM([Sales]) >= 10000
 THEN '상위 매출' ELSE '하위 매출' END
 
 # Case when
 CASE [측정값]
WHEN 'Sales' THEN [매출]
WHEN 'Profit' THEN [수익] 
...
END
 
 
# 2) 날짜 함수
# DATEDIFF 함수: 두 날짜 사이의 차이를 반환
DATEDIFF(단위, 시작 날짜, 끝 날짜)
 
 # DATEADD 함수: 날짜 더하기
 DATEADD(단위, 간격, 기준 날짜)

 

 

ㅇ LOD식

- LOD식(세부 수준 식)이란?
현재 화면(VLOD)에 영향을 받지 않고 원하는 세부 수준에서 값을 계산할 수 있습니다. 

LOD식을 활용하면 계산할 세부 수준을 제어할 수 있습니다. LOD식은 세분화된 수준(INCLUDE), 덜 세분화된 수준(EXCLUDE), 완전히 독립적인 수준(FIXED) 크게 3가지로 나누어집니다.

 

- LOD식 기본 문법 구조

# 전체 LOD식은 {}(중괄호)로 묶어줍니다!
{[FIXED | INCLUDE | EXCLUDE] [차원1], [차원2] : AVG([측정값])}

# 1. FIXED 
# 뷰에 있는 차원과 상관없이 계산된 필드에서 FIXED 계산식을 고정시켜 지정된 차원을 계산합니다
{ FIXED [Region] : AVG([Sales]) }  # 지역별 평균 매출

 

# 2. INCLUDE
# 뷰에 지정된 차원 뿐만 아니라 모든 차원을 포함해서 계산합니다. 
{ INCLUDE [Region]: AVG([Sales]) }  # 지역별 평균 매출

 

 

# 3. EXCLUDE
# 차원을 제거해서 계산합니다.
{ EXCLUDE [Region]: AVG([Sales]) }  # 지역별 평균 매출

* 참고 자료: 상위 15가지 LOD 표현식

 

[ 대시보드 ]

ㅇ 대시보드 설계

- 구성

  • 대시보드 계층 구조화 : 상단과 하단으로 크게 섹션을 나누어 구성합니다. 상단에는 주요 지표를 배치합니다.

  • Z 패턴

일반적인 대시보드 디자인 레이아웃은 Z패턴에 해당됩니다. 대시보드 한 페이지를 볼 때 대시보드 사용자의 눈 초점이 Z 모양을 순서대로 이동하는 패턴을 의미해요.

- 왼쪽 상단: 가장 중요한 지표와 그래프

- 오른쪽 상단: 두번째로 중요한 정보

- 왼쪽 하단: 세번째로 중요한 정보

-그외 세부적인 정보: 오른쪽 하단에 배치

 

- 스케치

좋은 대시보드를 만들기 위해서 대시보드 스케치와 디자인 구성이 중요합니다~

대시보드를 작업하기전에 태블로 워크시트, 종이, PPT 등 툴을 활용해서 초안을 스케치합니다.

실무에서 스케치한 대시보드를 데이터팀 혹은 유관 부서와 리뷰하기도 합니다 (전부 그런 것은 아님!)

 

- 효과적인 시각화

. 데이터 형태

  ㄴ정량적 데이터 : 위치, 그래프 길이, 기울기, 각도 
  ㄴ 순서형 데이터 : 영역의 크기, 히트맵 차트와 같은 강도가 중요
  ㄴ 명목형 데이터 : 컬러, 모양

 

 

 

 

 

 

 

 

 

 

 

. 컬러 조합

  ㄴ 대시보드를 구축 시, RGB 색상 및 컬러 조합을 맞추어서 시각화하면 뷰어 관점에서 직관적으로 인지 가능!

  ㄴ 일관된 색상(무지개 색상 X) 사용 , 특정 정보(변수간의 차이, 카테고리 구분 등) 색상 강조

 

 

- 종류

(1) 매출 대시보드

  • Action: OKR 체크, 매출 현황과 매출 증감 원인 파악

 

(2) 프로덕트 대시보드

  • Action: AARRR, 퍼널 분석, 코호트 분석

 

(3) 마케팅 프로모션 대시보드

  • Action: 캠페인이나 쿠폰의 ROI 측정, 시즌별 프로모션별 성과 비교

 

(4) 실험 대시보드

  • Action: 실험 메트릭(CVR, CTR 등) 비교, 실험군과 대조군 비교, 실험 세그먼트별 사후 분석

 

(5) 머신러닝 모델 모니터링 대시보드

  • Action: 모델 A와 B의 성능 비교 및 모니터링, 이상 탐지 모니터링

 

 

Comments