[강의] 데이터 리터러시 (Data Literacy)

회고/내배캠_데이터분석가_'24.04~08

[강의] 데이터 리터러시 (Data Literacy)

로운's 2024. 4. 25. 19:00

ㅇ 데이터 리터러시란? (Data Literacy)

: 데이터를 분석하여 목적에 맞게 활용할 수 있는 능력을 의미하며, 크게 나누면 아래와 같다.

- 데이터를 읽는 능력

- 데이터를 이해할 수 있는 능력
- 데이터를 비판적으로 분석하는 능력

- 결과를 의사소통에 활용하는 능력

※ 참조 : 데이터 리터러시(Data Literacy) : 네이버 블로그 (naver.com)

ㅇ 데이터 해석의 오류 사례

데이터를 분석, 시각화하다 보면 동일한 데이터를 갖고 전혀 다른 결론을 도출하기도 한다.

아래의 대표적인 오류 예시를 참고하여 동일한 유형의 오류를 대비하자.

1. 심슨의 역설 (Simpson’s Paradox)

: '부분'에서 성립한 대소 관계가 종합된 전체에 대해서는 성립하지 않는 모순적인 경우를 말한다.

※ 참조 : 사례로 알아보는 심슨의 역설(Simpson's.. : 네이버블로그 (naver.com)

2. 시각화를 활용한 왜곡

: 자료의 표현 방법에 따라서 같은 데이터를 각기 다른 방향으로 해석하는 오류 여지가 존재
왼쪽은 '노동자의 임금이 월등히 낮다'고 해석되나, 중앙은 '노동자의 임금 증가폭이 급격'하다고 볼 수 있고, 오른쪽은 '노동자가 자본가의 수입증가를 능가'한다고 해석될 여지가 있다. (오른쪽의 경우, 실제로 뉴스나 기사에서 종종 등장)

(왼쪽) 있는 그대로의 자료 / (중앙) 증가량에 로그를 취한 자료 / (오른쪽) 노동자와 자본가의 최초 수입을 100%로 놓은 증가율에 대한 자료

※ 《The Economist》의 자료

3. 샘플링 편향 (sampling bias)

: 전체를 대표하지 못하는 편향된 샘플 선정으로 인해 분석 결과가 왜곡되는 현상의 의미한다.

[ 실제사례 ]

(현상)

1936년 미국 대선에서 Literary Digest 잡지사가 천만 명에게 우편물을 보내 수행한 대규모 여론조사 사례
240만 명의 응답을 토대로, 랜던이 선거에서 57% 득표를 얻을 것이라고 높은 신뢰도로 예측했지만, 루즈벨트가 62% 득표로 당선

(이유)

여론조사용 주소를 얻기 위해 전화번호부, 자사의 구독자 명부, 클럽 회원 명부 등을 사용. 이런 명부는 모두 공화당(랜던)에 투표할 가능성이 높은 부유한 계층에 편중된 경향이 존재
우편물 수신자 중 25%의 사람이 응답. 이는 정치에 관심 없는 그룹이나 Literary Digest를 싫어하는 그룹 등 다른 중요한 그룹을 제외시킴으로써 역시 표본 편향됨

4. 상관관계와 인과관계

상관관계
- 두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미
- 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름
인과관계
- 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미
- 원인과 결과가 명확한 것

Note) 귀납적인 측면이 있을 수 있겠지만, 상관관계와 인과관계의 공통점은 두 변수가 서로 영향을 준다는 점.
차이점은 상관관계엔 영향을 주는 원인 변수가 다수, 인과관계는 원인변수가 단수인 게 아닐까?

[ 실제사례 ]

1940년대 보건 전문가의 소아마비와 아이스크림 섭취 간의 연구 결과
당시 보건 전문가는 소아마비와 아이스크림 섭취량의 상관관계가 있는 것을 발견, 전국에 소아마비 예방을 위해 아이스크림 섭취량을 줄일 것을 권고
소아마비는 여름에 많이 발생
아이스크림은 여름에 판매량이 급증
즉 소아마비와 아이스크림 섭취 간에는 어떤 인과관계도 존재하지 않음
단순히 날씨라는 변수로 인해 공통으로 영향을 주게 됨

[결론] 상관관계는 인과관계가 아닌 것을 항상 유의해야 함

상관관계만으로 섣불리 의사결정 하지 않기
양쪽을 모두 활용하여 합리적인 의사판단 하기

ㅇ 데이터 리터러시가 필요한 이유

데이터 분석은 크게 3가지 단계로 구분된다.
위 단계 중 ‘생각’이 주요한 단계에서 데이터 리터러시가 필요하다.
데이터 분석이 목적이 되지 않도록 ‘왜?’를 항상 생각해야 한다.

1. 문제 정의란?

데이터 분석 프로젝트의 성공을 위한 초석
분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
프로젝트의 목표를 설정하고 분석 방향을 설정

＊풀고자 하는 문제를 명확하게 정의하지 않을 경우 데이터 분석에 실패 이유가 된다.

2. 문제 정의 방법론

MECE (Mutually Exclusive, Collectively Exhaustive 의 약자, 상호배제와 전체포괄)

: 항목들이 상호 배타적이면서 모였을 때는 완전히 전체를 이루는 것을 의미한다. 이를테면 '겹치지 않으면서 빠짐없이

나눈 것'이라 할 수 있다.

문제 해결과 분석에서 널리 사용되는 접근 방식
문제를 상호 배타적(mutually exclusive)이면서, 전체적으로 포괄적(collectively exhaustive)인 구성요소로 나누는 것
MECE를 통해 복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음

※ 참조 : MECE - 위키백과, 우리 모두의 백과사전 (wikipedia.org)

로직 트리 (Logic Tree)

: 의사 결정 또는 문제를 해결하기 위해 사용되는 그래픽 형태의 결정 트리구조로 일련의 의사 결정 과정을 시각적으로 나타내어 각 단계에서의 선택지와 결과를 명확하게 표현한다.

MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는 데 사용
상위 문제로부터 시작하여 하위 문제로 계층적 접근
일반적으로 도표 형식으로 표현되어 쉽게 파악할 수 있음
로직트리를 활용하여 문제정의 해보기

(예시)

3. 문제정의를 하는 이유

문제 정의는 풀고자 하는 것을 명확하게 정의하고
이것을 해결하기 위한 데이터 분석의 방향성을 정하고
결과를 정리하고 해석하여
더 나아지기 위한 새로운 액션 플랜을 수립하기 위함

문제정의의 핵심은 So What?, Why So?

So what?

- 수집한 정보와 소재에서 ‘결국 어떻다는 것인지’를 알아내는 작업

- 그래서, 따라서, 이렇듯 앞에 오는 정보나 소재에서 과제의 답변에 맞는 중요한 핵심을 추출하는 작업

- 나타난 현상을 바탕으로 과제에 비추어 말할 수 있는 내용의 핵심을 추출하는 작업

Why So?

- 왜 그렇게 말할 수 있는지

- 구체적으로 무슨 뜻인지를 검증하고 확인하는 작업

- So what?한 요소의 타당성을 자료 전체 혹은 그룹핑한 요소로 증명할 수 있다는 사실을 검증하는 작업

4. T i p !

결과를 공유하고자 하는 사람이 누구인지 정의하기
결과를 통해 원하는 변화를 생각하기
회사 소속이라면, 경영자의 입장에서 보려고 노력
많은 사람들과 의견을 나눠보는 것도 방법
반드시 혼자서 오래 고민해 보는 시간을 가질 것

ㅇ 데이터의 유형

1. 정성적 데이터 (Qualitative Data)

비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함해요
대부분 텍스트, 비디오, 오디오 형태로 존재해요
정형되지 않고 구조화되어있지 않아요
데이터를 구조화하기 어려워요
새로운 현상이나 개념에 대한 이해를 심화하는 데 사용해요

2. 정량적 데이터 (Quantitative Data)

수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있어요
데이터가 숫자 형태로 존재하기 때문에 통계적으로 분석하기 쉬워요
개인의 해석이나 주관이 적게 작용하는 객관성을 가지고 있어요
지표로 만들기에 용이해요
설문조사, 실험, 인구 통계, 지표 분석 등에 활용해요

	정량적 데이터	정성적 데이터
유형	정형 데이터 반정형 데이터	비정형 데이터
특징 및 관점	여러 요소의 결합으로 의미 부여 주로 객관적 내용	객체 하나가 함축된 의미 내포 주로 주관적 내용
구성 및 형태	수치나 기호 데이터베이스, 스프레드 시트	문자나 언어 웹 로그, 텍스트 파일
위치	DBMS, 로컬 시스템 등 내부	웹사이트, 모바일 플랫폼 등 외부
분석	통계 분석 시 용이	통계 분석 시 어려움

ㅇ 지표 설정

1. 지표란?

특정 목표나 성과를 측정하기 위한 구체적이고 측정 가능한 기준
목표 달성도를 평가하고 전략적 결정에 필요한 핵심 정보를 제공
정의한 문제에 대해 정확하게 파악하기 위해서 필요

문제 정의 vs 지표 설정

2. Retention Ratio 이란?

정의: 서비스를 사용한 사람이 다시 서비스를 사용하는 비율
리텐션이란, 한번 획득한 유저가 서비스로 다시 돌아왔는가? 에 대한 지표
리텐션이 높은 서비스는 획득비용에 투자한 비용을 빠르게 회수할 수 있음
리텐션은 서비스(특히 앱서비스) 성장에 있어서 매우 중요한 지표

일반적으로 리텐션은 시간이 지남에 따라 자연스럽게 감소 (Product B)
기울기가 점점 완만해지며 안정화되는 그래프를 가지고 있다면, 시장에 적합한 서비스라고 할 수 있음 (Product A)

3. Retention 측정 방법

1) N-Day 리텐션

최초 사용일로부터 N일 후에 재방문한 Active User의 비율
일반적으로 사용하는 리텐션 지표는 N-Day 리텐션
게임, 소셜 등 습관적으로 사용하거나 반복적으로 행동을 유도하는 제품에 적합
유저가 Active User로 집계된 최초 날을 Day 0으로 설정
Day 0에 액티브 상태가 된 모든 유저들의 N일차 리텐션을 계산
e.g. N-Week, N-Month도 가능

2) Unbounded 리텐션

특정 날짜를 포함하여 그 이후에 재방문한 유저의 비율
특정일을 포함하여 그 이후에 한 번이라도 재방문한 유저의 비율
유저가 정기적으로 반복해서 방문하는 서비스가 아닐 경우 적합
해석: Day5는 5일 차 이후에 한 번 더 들어온 유저의 비율
Unbounded 리텐션은 이탈률의 반대 개념

※ Unbounded 리텐션의 한계

다만, 서비스 방문이 없던 고객이 재방문할 경우, 이전의 리텐션 값들이 전부 변동되는 상황이 발생할 수 있음
해당 지표는 절대적인 수치보다는 지표가 어떻게 변화하는지에 대해 트렌드를 보는 용도로 활용하는 것을 권장

3) Bracket 리텐션

설정한 특정 기간을 기반으로 재방문율을 측정
Bracket 리텐션은 N-Day 리텐션을 확장한 개념 > 일/주/월 단위가 아닌 지정한 구간으로 나눔
e.g. 1(0일차) / 2(1-3일차) / 3(4-6일차) / 4(7-11일차)
활성유저가 특정한 활동을 위해 각 Bracket 내 서비스에 재방문 시 잔존 유저로 해석

3. Funnel (퍼널)

1) Funnel의 역할

유저들이 어디서 이탈하는가?를 확인하기 위한 구조화
퍼널은 잠재고객을 유입시키며 최종적인 목표 액션을 달성할 때까지의 과정
모든 서비스와 비즈니스는 각 단계로 갈수록 이용자 수가 줄어들게 됨
각 단계의 전환율 (or 첫 유입 대비 전환율)을 측정

2) AARRR

디지털 마케팅 시 퍼널을 활용하는 프레임워크
단계별 전환율을 지표화 하여 서비스 보완 지점을 찾음
- Acquisition: 유입
- Activation: 활성화
- Retention: 재방문(재구매)
- Revenue: 수익
- Referral: 추천

3) LTV (Life Time Value, 고객 평생 가치)

해당 유저가 우리에게 평생 주는 이익은 얼마나 될까?
고객 생애 주기: 한 명의 유저가 서비스를 사용하기 시작하여 이탈할 때까지의 기간
LTV는 한 명의 유저가 생애 주기 동안 얼마만큼의 이익을 주는지를 정량적으로 지표화 한 것
LTV는 유저와의 관계를 측정하고, 이를 사업적 이익으로 가져가는데 중요한 지표
LTV가 높다는 것은 해당 서비스와 관계가 좋고, 충성도가 높은 고객이 많다는 것
LTV 추측이 가능하다면, 신규 유저를 데려오는 비용(CAC: Customer Acquisition Cost)의 산출 및 효율적인 예산 운용이 가능

LTV를 늘리기 위한 방안
- 객단가 상승
- 구매 빈도를 높임
- 이탈률 감소, 이용시간을 증가 등
LTV는 가정을 베이스로 하는 지표이기 때문에 꾸준한 모니터링이 필요

※ LTV 산출 방법

이익 x Life Time x 할인율(미래 비용에 대한 현재 가치)
연간 거래액 x 수익률 x 고객 지속 연수
고객의 평균 구매 단가 x 평균 구매 횟수
(매출액 – 매출 원가) / 구매자 수
평균 구매 단가 x 구매 빈도 x 구매 기간
(평균 구매 단가 x 구매 빈도 x 구매 기간) – (신규 획득 비용 + 고객 유지 비용)
월평균 객단가 / 월 가중 평균 잔존율
LTV를 산출하는 방법은 매우 여러 가지이며, 서비스마다, 관점마다 다르기 때문에 다각도로 고민이 필요함

4. 북극성 지표

1) 정의

제품/서비스의 ‘성공’을 정의
제품/서비스가 유저에게 주는 core value를 가장 잘 나타낸 것
장기 성장을 위해 필수적으로 모니터링해야 함

2) 특징

제품/서비스 전략의 핵심
유저/고객이 제품/서비스에서 느끼는 가치
회사의 사업 목표를 나타내는 지표 중 선행지표 (후행 X)

3) 북극성 지표가 중요한 이유

(1) 방향성

제품/사업 조직이 무엇에 최적화되어야 하고, 무엇을 포기해도 되는지에 대한 방향 제시
제품/사업 조직의 진척과 가치창출을 전사에 보여줌
- 지원 조직이 더욱 적극적으로 지원, 제품개발 액션 실행속도가 빨라짐
제품/서비스 조직이 결과에 책임을 지도록 함
- 비즈니스 임팩트에 따라 평가가 가능

(2) 효율 증대

전 직원을 하나의 목표에 집중시킴
서로 상반된 목표에 집중하거나, 중복으로 일하는 것을 방지 (MECE한 구조)

ㅇ 결론 도출

1. 결과와 결론의 차이

1) 결과

데이터 처리, 분석, 모델링 후에 얻어진 구체적인 데이터의 출력
숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음
ex) “고객 설문 조사 데이터를 분석한 결과, 고객 만족도와 구매 빈도 사이에 강한 상관관계가 있음을 보여줄 수 있습니다.”
계산과 분석을 해서 나온 결과물

2) 결론

분석된 데이터 결과를 바탕으로 이끌어낸 의미나 통찰
데이터에 기반한 해석, 추론 또는 권고 사항을 포함
ex) “고객 만족도와 구매 빈도 사이의 강한 상관관계를 보여주는 결과를 토대로, 고객 만족도 향상이 전반적인 매출 증가로 이어질 수 있다는 결론을 내릴 수 있습니다.”
목적에 대해 어떤 의미가 있는지 설명하는 것

※ 결론 도출 시 주의사항

결과 → 결론 도출 시에는 스토리텔링이 필요
그러나 필요 이상으로 자신의 해석을 융합하면 안 됨 (데이터를 통해 알 수 있는 범위 內)

2. 단순하고 쉽게 전달

핵심 지표 위주로 먼저 공유
지표를 해석하는 방법에 대해서도 설명
해당 지표에 오너십이 있는 조직에서 활용할만한 포인트 제안
액션 아이템을 제안하는 것이 핵심

3. 흥미 유발

모든 내용을 담지 않고 흥미로운 부분 위주로 공유
상대가 궁금해할 만한 내용은 뭘까? 고민하고 필터링하기
궁금한 사람들을 위해서는 디테일한 문서 따로 공유

4. 대상자 관점에서의 접근

공유받는 사람의 시선에서 이해하기 쉽도록 정리
지식의 저주에 빠지지 않고 논지를 뒷받침해줄 자료들을 함께 첨부
대상자의 허들이 낮은 시각화 활용

5. 시각화 팁

화려한 그래프보다는 대상이 직관적으로 이해할 수 있도록 구성
보통 선, 막대그래프로 거의 대부분의 리포팅이 가능
각 그래프의 범례와 단위 함께 표기해 주기

6. 결론 보고서에 쓰면 좋은 플로우

전체 내용을 한 문장으로 정리하는 요약
해당 보고서의 메인 주제
해당 보고서를 쓴 이유와 원하는 변화
문제 정의 단계
핵심 내용 전개
결론 및 액션 아이템

7. 정리

앞서 문제 정의, 지표 설정을 할 당시의 목적을 떠올리며 정리
결론을 공유할 대상이 누구이며, 어떻게 변화하길 원하는지? 생각

'회고 > 내배캠_데이터분석가_'24.04~08' 카테고리의 다른 글

[2주차] 프로그래밍 기초 주차 (5/5) (0)	2024.04.26
[2주차] 프로그래밍 기초 주차 (4/5) (2)	2024.04.25
[2주차] 프로그래밍 기초 주차 (3/5) (0)	2024.04.24
[2주차] 프로그래밍 기초 주차 (2/5) (0)	2024.04.23
[2주차] 프로그래밍 기초 주차 (1/5) (0)	2024.04.22

현재글[강의] 데이터 리터러시 (Data Literacy)

로운's 기술노트

소셜, DI, 항해99장점, Instance, jwt, inversion of control, process, 항해99단점, social login, 인스턴스화, 부트캠프추천, 프로세스, 항해99솔직후기, 객체지향 프로그래밍, Dependency Injection, 소셜로그인, IoC, 회고록, 인스턴스, object,

Today :
Yesterday :

로운's 기술노트