[ 차트 ]
ㅇ 효과적인 차트 선택
* 출처 - Chart Suggestions A Thought Scatter (by. Andrew Abela)
ㅇ 태블로 차트 종류
- 텍스트 테이블
- 히트맵
- 맵 차트
- 파이 차트
- 막대 차트
- 트리맵
- 라인 차트
- 영역 차트
- 분산형 차트
- 박스 플랏
1. 선 그래프(Line Plot)
- 간단하고 사용하기 쉽습니다.
- 시계열 데이터(시간에 따른 추이)를 시각화할 경우, 변화량과 트렌드를 한눈에 보기에 용이합니다.
- 연속적인 데이터에 사용하기 적합합니다. 연속형 데이터는 온도(25도, 30도), 시간(시, 분, 초)를 말합니다.
2. 막대 그래프(Bar Plot)
- 간단하고 사용하기 쉽습니다.
- 범주 간의 차이나 분포를 시각적으로 이해하기 쉽습니다.
- 범주형 데이터(성별, 혈액형, 이름 등)에 사용하기 적합합니다.
3. 맵 차트(Map Chart)
- 지도를 활용해서 지리적 위치를 살펴볼 수 있습니다.
- 각 지역별 데이터의 분포 및 비중을 한눈에 확인할때 주로 사용합니다.
4. 파이 차트(Pie Chart)
- 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있습니다.
- 데이터의 구성 비율과 분포를 한눈에 파악할 수 있습니다.
- 다양한 변수를 다루기에는 적합하지 않을 수 있습니다. 변수가 적을 때 직관적으로 사용하기 용이합니다.
5. 트리맵 차트(Treemap Chart)
- 데이터를 계층적으로 표현하는데 사용됩니다.
- 카테고리별로 특정 데이터 집합이 전체 데이터에서 차지하는 비율을 면적으로 표현하여 카테고리별 구성 요소를 한눈에 파악할 수 있어요.
6. 도넛 차트(Donut Chart)
- 파이 차트와 비슷한 형태로 가운데 구멍이 뚫린 경우를 도넛 차트라고 불립니다.
- 각 부분의 크기가 상대적인 비율이기 때문에 각 부분이 전체에서 차지하는 비중을 쉽게 이해할 수 있습니다.
- 태블로에서는 대시보드의 KPI 카드로 많이 활용됩니다.
7. 히트맵 차트(Heatmap Chart)
- 색상을 활용해서 데이터 값을 시각적으로 강조할 수 있어요. 색상의 그라데이션을 통해 측정값들을 한눈에 비교할 수 있습니다.
- 태블로에서 하이라이트 테이블이라고도 불립니다.
8. 영역 차트(Area Chart)
- 영역 차트는 선 아래 영역을 색으로 채워서 데이터의 영역 크기를 파악할 수 있어요.
- 시간에 따른 데이터의 추이를 시각적으로 나타냅니다. 데이터의 변화 및 흐름을 쉽게 파악할 수 있습니다.
9. 스택 플랏(Stacked Plot)
- 상대적인 비율을 직관적으로 시각화 할 수 있습니다.
- 시간에 따라 데이터가 어떻게 변하는지 시각적으로 알 수 있습니다.
- 단순 누적 그래프는 기준선이 일정하지 않기 때문에 비교하기가 어렵습니다.
- 100% 누적 그래프를 활용하면 기준을 비교하기 쉽습니다.
10. 이중 축(콤보 차트) > 시각화 Level Up❗️
- 이중 축 차트를 사용하면 두 가지 서로 다른 데이터 집합을 한번에 비교할 수 있어요.
- 축에 서로 다른 단위나 기준을 가지고 있는 경우, 그래프를 볼때 한눈에 알아보기 어렵습니다.
11. 평균선/참조선
- 분석 패널에서 평균선 라인/상수 라인/참조선을 추가해서 의사결정을 빠르게 할 수 있습니다.
12. 박스 플랏(Box Plot) - 데이터 분석
- 데이터의 분포와 이상치(outlier)를 시각적으로 파악할때 사용하는 그래프입니다.
13. 파레토 차트(Pareto Chart)
파레토 법칙이란? 전체 결과의 80%가 전체 원인의 20%에서 일어난다는 마케팅 기법
(다수의 결과는 소수의 원인에 의해 생겨난다)
예를 들어, 간단하게 데이터를 분석하고자 할때 80%의 수익이 판매 상품 중 20%에서 발생한다고 의사 결정 할 수 있어요! 매출의 80%가 고객의 20%에 의해 발생한다고 의사 결정을 효율적으로 할 수 있습니다.
14. 상관 관계(Scatter Plot)
- 표간 어떤 선형적인 관계가 있는지 알아보기 위해 상관 분석을 자주 활용합니다.
- (참고) 피어슨 상관 관계 설명
- 상관 관계 r이 -1이나 1에 가까울수록 x와 y 사이의 관계가 더 강력합니다.
- r이 0이거나 0에 가까우면 측정값 간의 관계가 약하거나 관계가 없는 것입니다.
- 일반적인 규칙에 따라, r 값을 다음과 같은 방식으로 해석할 수 있습니다.
- +.70 이상은 매우 강한 양의 관계를 나타냅니다.
- +.40에서 +.69 사이는 강한 양의 관계를 나타냅니다.
- +.20에서 +.39 사이는 중간 정도의 양의 관계를 나타냅니다.
- .19에서 +.19 사이는 약하거나 상관없는 관계를 나타냅니다.
- .20에서 -.39 사이는 중간 정도의 음의 관계를 나타냅니다.
- .40에서 -.69 사이는 강한 음의 관계를 나타냅니다.
- .70 이하는 매우 강한 음의 관계를 나타냅니다.
15. 시계열 예측
태블로에서 지수 평활법(exponential smoothing)을 활용해서 예측 모델링을 합니다. 과거 데이터에 기반하여 미래를 예측하는 시계열 예측을 해요
ㅇ 계산과 필터의 작동 순서
아래 이미지는 계산과 필터의 태블로 작업 순서(쿼리 파이프 라인)입니다. 필터를 추가할 때 해당 필터가 항상 작업 순서에 따라 설정된 순서대로 실행됩니다.
* 참고 자료 출처: Tableau Order of Operations by Dave Weaver
ㅇ Top N 필터와 차원 필터
지역별 필터(차원 필터)와 고객별 상위 매출 Top N 선택하려고 합니다.
Top N 필터는 차원 필터보다 위에서 먼저 작동되기 때문에 지역별 필터(차원 필터)가 적용되지 않는 문제가 발생합니다. 차원 필터를 먼저 동작시키고 싶다면 어떻게 해결해야 할까요?
이때 컨텍스트 필터를 활용해서 해결할 수 있습니다! 상위 필터, 집합, Fixed식과 차원 필터의 문제들이 발생하는 경우, 컨텍스트 필터를 활용해서 작동 순서를 바꿀 수 있어요~
- 작동 원리 우선 순위: 컨텍스트 필터 > Top N > 차원 필터
[ 함수 ]
ㅇ 태블로 함수
# 1) 논리 함수
# if
IF SUM([Sales]) >= 10000
THEN '상위 매출' ELSE '하위 매출' END
# Case when
CASE [측정값]
WHEN 'Sales' THEN [매출]
WHEN 'Profit' THEN [수익]
...
END
# 2) 날짜 함수
# DATEDIFF 함수: 두 날짜 사이의 차이를 반환
DATEDIFF(단위, 시작 날짜, 끝 날짜)
# DATEADD 함수: 날짜 더하기
DATEADD(단위, 간격, 기준 날짜)
ㅇ LOD식
- LOD식(세부 수준 식)이란?
현재 화면(VLOD)에 영향을 받지 않고 원하는 세부 수준에서 값을 계산할 수 있습니다.
LOD식을 활용하면 계산할 세부 수준을 제어할 수 있습니다. LOD식은 세분화된 수준(INCLUDE), 덜 세분화된 수준(EXCLUDE), 완전히 독립적인 수준(FIXED) 크게 3가지로 나누어집니다.
- LOD식 기본 문법 구조
# 전체 LOD식은 {}(중괄호)로 묶어줍니다!
{[FIXED | INCLUDE | EXCLUDE] [차원1], [차원2] : AVG([측정값])}
# 1. FIXED
# 뷰에 있는 차원과 상관없이 계산된 필드에서 FIXED 계산식을 고정시켜 지정된 차원을 계산합니다
{ FIXED [Region] : AVG([Sales]) } # 지역별 평균 매출
# 2. INCLUDE
# 뷰에 지정된 차원 뿐만 아니라 모든 차원을 포함해서 계산합니다.
{ INCLUDE [Region]: AVG([Sales]) } # 지역별 평균 매출
# 3. EXCLUDE
# 차원을 제거해서 계산합니다.
{ EXCLUDE [Region]: AVG([Sales]) } # 지역별 평균 매출
* 참고 자료: 상위 15가지 LOD 표현식
[ 대시보드 ]
ㅇ 대시보드 설계
- 구성
- 대시보드 계층 구조화 : 상단과 하단으로 크게 섹션을 나누어 구성합니다. 상단에는 주요 지표를 배치합니다.
- Z 패턴
일반적인 대시보드 디자인 레이아웃은 Z패턴에 해당됩니다. 대시보드 한 페이지를 볼 때 대시보드 사용자의 눈 초점이 Z 모양을 순서대로 이동하는 패턴을 의미해요.
- 왼쪽 상단: 가장 중요한 지표와 그래프
- 오른쪽 상단: 두번째로 중요한 정보
- 왼쪽 하단: 세번째로 중요한 정보
-그외 세부적인 정보: 오른쪽 하단에 배치
- 스케치
좋은 대시보드를 만들기 위해서 대시보드 스케치와 디자인 구성이 중요합니다~
대시보드를 작업하기전에 태블로 워크시트, 종이, PPT 등 툴을 활용해서 초안을 스케치합니다.
실무에서 스케치한 대시보드를 데이터팀 혹은 유관 부서와 리뷰하기도 합니다 (전부 그런 것은 아님!)
- 효과적인 시각화
. 데이터 형태
ㄴ정량적 데이터 : 위치, 그래프 길이, 기울기, 각도
ㄴ 순서형 데이터 : 영역의 크기, 히트맵 차트와 같은 강도가 중요
ㄴ 명목형 데이터 : 컬러, 모양
. 컬러 조합
ㄴ 대시보드를 구축 시, RGB 색상 및 컬러 조합을 맞추어서 시각화하면 뷰어 관점에서 직관적으로 인지 가능!
ㄴ 일관된 색상(무지개 색상 X) 사용 , 특정 정보(변수간의 차이, 카테고리 구분 등) 색상 강조
- 종류
(1) 매출 대시보드
- Action: OKR 체크, 매출 현황과 매출 증감 원인 파악
(2) 프로덕트 대시보드
- Action: AARRR, 퍼널 분석, 코호트 분석
(3) 마케팅 프로모션 대시보드
- Action: 캠페인이나 쿠폰의 ROI 측정, 시즌별 프로모션별 성과 비교
(4) 실험 대시보드
- Action: 실험 메트릭(CVR, CTR 등) 비교, 실험군과 대조군 비교, 실험 세그먼트별 사후 분석
(5) 머신러닝 모델 모니터링 대시보드
- Action: 모델 A와 B의 성능 비교 및 모니터링, 이상 탐지 모니터링
'[분석] 데이터 분석 툴' 카테고리의 다른 글
태블로(Tableau)_1~2강 (1) | 2024.06.26 |
---|---|
TableauException: Google BigQuery 서비스에서 이 요청에 대한 액세스를 거부했습니다. (0) | 2024.06.26 |