로운's 기술노트

[강의] 데이터 리터러시 (Data Literacy) 본문

내배캠_데이터분석가_'24.04~08/회고

[강의] 데이터 리터러시 (Data Literacy)

로운's 2024. 4. 25. 19:00

ㅇ 데이터 리터러시란? (Data Literacy)

 : 데이터를 분석하여 목적에 맞게 활용할 수 있는 능력을 의미하며, 크게 나누면 아래와 같다.

   - 데이터를 읽는 능력

   - 데이터를 이해할 수 있는 능력
   - 데이터를 비판적으로 분석하는 능력

   - 결과를 의사소통에 활용하는 능력

 

※ 참조 : 데이터 리터러시(Data Literacy) : 네이버 블로그 (naver.com)

 

ㅇ 데이터 해석의 오류 사례

 데이터를 분석, 시각화하다 보면 동일한 데이터를 갖고 전혀 다른 결론을 도출하기도 한다.

아래의 대표적인 오류 예시를 참고하여 동일한 유형의 오류를 대비하자.

1. 심슨의 역설 (Simpson’s Paradox)

: '부분'에서 성립한 대소 관계가 종합된 전체에 대해서는 성립하지 않는 모순적인 경우를 말한다.

 

※ 참조 : 사례로 알아보는 심슨의 역설(Simpson's.. : 네이버블로그 (naver.com)

2. 시각화를 활용한 왜곡

: 자료의 표현 방법에 따라서 같은 데이터를 각기 다른 방향으로 해석하는 오류 여지가 존재
  왼쪽은 '노동자의 임금이 월등히 낮다'고 해석되나, 중앙은 '노동자의 임금 증가폭이 급격'하다고 볼 수 있고, 오른쪽은 '노동자가 자본가의 수입증가를 능가'한다고 해석될 여지가 있다. (오른쪽의 경우, 실제로 뉴스나 기사에서 종종 등장)

 

(왼쪽) 있는 그대로의 자료 / (중앙) 증가량에 로그를 취한 자료 / (오른쪽) 노동자와 자본가의 최초 수입을 100%로 놓은 증가율에 대한 자료

※ 《The Economist》의 자료

3. 샘플링 편향 (sampling bias)

: 전체를 대표하지 못하는 편향된 샘플 선정으로 인해 분석 결과가 왜곡되는 현상의 의미한다.

 

  [ 실제사례 ]

    (현상)

  • 1936년 미국 대선에서 Literary Digest 잡지사가 천만 명에게 우편물을 보내 수행한 대규모 여론조사 사례
  • 240만 명의 응답을 토대로, 랜던이 선거에서 57% 득표를 얻을 것이라고 높은 신뢰도로 예측했지만, 루즈벨트가 62% 득표로 당선

    (이유)

  • 여론조사용 주소를 얻기 위해 전화번호부, 자사의 구독자 명부, 클럽 회원 명부 등을 사용. 이런 명부는 모두 공화당(랜던)에 투표할 가능성이 높은 부유한 계층에 편중된 경향이 존재
  • 우편물 수신자 중 25%의 사람이 응답. 이는 정치에 관심 없는 그룹이나 Literary Digest를 싫어하는 그룹 등 다른 중요한 그룹을 제외시킴으로써 역시 표본 편향

4. 상관관계와 인과관계

  • 상관관계
    • 두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미
    • 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름
  • 인과관계
    • 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미
    • 원인과 결과가 명확한 것
Note) 귀납적인 측면이 있을 수 있겠지만, 상관관계와 인과관계의 공통점은 두 변수가 서로 영향을 준다는 점.
          차이점은 상관관계엔 영향을 주는 원인 변수가 다수, 인과관계는 원인변수가 단수인 게 아닐까?

 

  [ 실제사례 ]

  • 1940년대 보건 전문가의 소아마비와 아이스크림 섭취 간의 연구 결과
  • 당시 보건 전문가는 소아마비와 아이스크림 섭취량의 상관관계가 있는 것을 발견, 전국에 소아마비 예방을 위해 아이스크림 섭취량을 줄일 것을 권고
  • 소아마비는 여름에 많이 발생
  • 아이스크림은 여름에 판매량이 급증
  • 소아마비와 아이스크림 섭취 간에는 어떤 인과관계도 존재하지 않음
  • 단순히 날씨라는 변수로 인해 공통으로 영향을 주게 됨

 

  [결론] 상관관계는 인과관계가 아닌 것을 항상 유의해야 함

  • 상관관계만으로 섣불리 의사결정 하지 않기
  • 양쪽을 모두 활용하여 합리적인 의사판단 하기

 

ㅇ 데이터 리터러시가 필요한 이유

  • 데이터 분석은 크게 3가지 단계로 구분된다.
  • 위 단계 중 ‘생각’이 주요한 단계에서 데이터 리터러시가 필요하다.
  • 데이터 분석이 목적이 되지 않도록 ‘왜?’를 항상 생각해야 한다.

1. 문제 정의란?

  • 데이터 분석 프로젝트의 성공을 위한 초석
  • 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
  • 프로젝트의 목표를 설정하고 분석 방향을 설정

     *풀고자 하는 문제를 명확하게 정의하지 않을 경우 데이터 분석에 실패 이유가 된다.

2. 문제 정의 방법론

  • MECE (Mutually Exclusive, Collectively Exhaustive 의 약자, 상호배제와 전체포괄)

      : 항목들이 상호 배타적이면서 모였을 때는 완전히 전체를 이루는 것을 의미한다. 이를테면 '겹치지 않으면서 빠짐없이

        나눈 것'이라 할 수 있다.

 

  • 문제 해결과 분석에서 널리 사용되는 접근 방식
  • 문제를 상호 배타적(mutually exclusive)이면서, 전체적으로 포괄적(collectively exhaustive)인 구성요소로 나누는 것
  • MECE를 통해 복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음

 

※ 참조 : MECE - 위키백과, 우리 모두의 백과사전 (wikipedia.org)

 

 

  • 로직 트리 (Logic Tree)

  : 의사 결정 또는 문제를 해결하기 위해 사용되는 그래픽 형태의 결정 트리구조로 일련의 의사 결정 과정을 시각적으로 나타내어 각 단계에서의 선택지와 결과를 명확하게 표현한다.

 

  • MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는 데 사용
  • 상위 문제로부터 시작하여 하위 문제로 계층적 접근
  • 일반적으로 도표 형식으로 표현되어 쉽게 파악할 수 있음
  • 로직트리를 활용하여 문제정의 해보기

    (예시)

3. 문제정의를 하는 이유

  • 문제 정의는 풀고자 하는 것을 명확하게 정의하고
  • 이것을 해결하기 위한 데이터 분석의 방향성을 정하고
  • 결과를 정리하고 해석하여
  • 더 나아지기 위한 새로운 액션 플랜을 수립하기 위함

 

  • 문제정의의 핵심은 So What?, Why So?
  • So what?

      - 수집한 정보와 소재에서 ‘결국 어떻다는 것인지’를 알아내는 작업

      - 그래서, 따라서, 이렇듯 앞에 오는 정보나 소재에서 과제의 답변에 맞는 중요한 핵심을 추출하는 작업

      - 나타난 현상을 바탕으로 과제에 비추어 말할 수 있는 내용의 핵심을 추출하는 작업

  • Why So?

      - 왜 그렇게 말할 수 있는지

      - 구체적으로 무슨 뜻인지를 검증하고 확인하는 작업

      - So what?한 요소의 타당성을 자료 전체 혹은 그룹핑한 요소로 증명할 수 있다는 사실을 검증하는 작업

4.  T i p !

  • 결과를 공유하고자 하는 사람이 누구인지 정의하기
  • 결과를 통해 원하는 변화를 생각하기
  • 회사 소속이라면, 경영자의 입장에서 보려고 노력
  • 많은 사람들과 의견을 나눠보는 것도 방법
  • 반드시 혼자서 오래 고민해 보는 시간을 가질 것

 

ㅇ 데이터의 유형

1. 정성적 데이터 (Qualitative Data)

  • 비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함해요
  • 대부분 텍스트, 비디오, 오디오 형태로 존재해요
  • 정형되지 않고 구조화되어있지 않아요
  • 데이터를 구조화하기 어려워요
  • 새로운 현상이나 개념에 대한 이해를 심화하는 데 사용해요

2. 정량적 데이터 (Quantitative Data)

  • 수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있어요
  • 데이터가 숫자 형태로 존재하기 때문에 통계적으로 분석하기 쉬워요
  • 개인의 해석이나 주관이 적게 작용하는 객관성을 가지고 있어요
  • 지표로 만들기에 용이해요
  • 설문조사, 실험, 인구 통계, 지표 분석 등에 활용해요
 
정량적 데이터
정성적 데이터
유형
정형 데이터 반정형 데이터
비정형 데이터
특징 및 관점
여러 요소의 결합으로 의미 부여 주로 객관적 내용
객체 하나가 함축된 의미 내포 주로 주관적 내용
구성 및 형태
수치나 기호 데이터베이스, 스프레드 시트
문자나 언어 웹 로그, 텍스트 파일
위치
DBMS, 로컬 시스템 등 내부
웹사이트, 모바일 플랫폼 등 외부
분석
통계 분석 시 용이
통계 분석 시 어려움

 

 

ㅇ 지표 설정

1. 지표란?

  • 특정 목표나 성과를 측정하기 위한 구체적이고 측정 가능한 기준
  • 목표 달성도를 평가하고 전략적 결정에 필요한 핵심 정보를 제공
  • 정의한 문제에 대해 정확하게 파악하기 위해서 필요

 

  • 문제 정의 vs 지표 설정

2. Retention Ratio 이란?

  • 정의: 서비스를 사용한 사람이 다시 서비스를 사용하는 비율
  • 리텐션이란, 한번 획득한 유저가 서비스로 다시 돌아왔는가? 에 대한 지표
  • 리텐션이 높은 서비스는 획득비용에 투자한 비용을 빠르게 회수할 수 있음
  • 리텐션은 서비스(특히 앱서비스) 성장에 있어서 매우 중요한 지표

 

  • 일반적으로 리텐션은 시간이 지남에 따라 자연스럽게 감소 (Product B)
  • 기울기가 점점 완만해지며 안정화되는 그래프를 가지고 있다면, 시장에 적합한 서비스라고 할 수 있음 (Product A)

3. Retention 측정 방법

  1) N-Day 리텐션

  • 최초 사용일로부터 N일 후에 재방문한 Active User의 비율
  • 일반적으로 사용하는 리텐션 지표는 N-Day 리텐션
  • 게임, 소셜 등 습관적으로 사용하거나 반복적으로 행동을 유도하는 제품에 적합
  • 유저가 Active User로 집계된 최초 날을 Day 0으로 설정
  • Day 0에 액티브 상태가 된 모든 유저들의 N일차 리텐션을 계산
  • e.g. N-Week, N-Month도 가능

2) Unbounded 리텐션

  • 특정 날짜를 포함하여 그 이후에 재방문한 유저의 비율
  • 특정일을 포함하여 그 이후에 한 번이라도 재방문한 유저의 비율
  • 유저가 정기적으로 반복해서 방문하는 서비스가 아닐 경우 적합
  • 해석: Day5는 5일 차 이후에 한 번 더 들어온 유저의 비율
  • Unbounded 리텐션은 이탈률의 반대 개념

   ※ Unbounded 리텐션의 한계

  • 다만, 서비스 방문이 없던 고객이 재방문할 경우, 이전의 리텐션 값들이 전부 변동되는 상황이 발생할 수 있음
  • 해당 지표는 절대적인 수치보다는 지표가 어떻게 변화하는지에 대해 트렌드를 보는 용도로 활용하는 것을 권장

3) Bracket 리텐션

  • 설정한 특정 기간을 기반으로 재방문율을 측정
  • Bracket 리텐션은 N-Day 리텐션을 확장한 개념 > 일/주/월 단위가 아닌 지정한 구간으로 나눔
  • e.g. 1(0일차) / 2(1-3일차) / 3(4-6일차) / 4(7-11일차)
  • 활성유저가 특정한 활동을 위해 각 Bracket 내 서비스에 재방문 시 잔존 유저로 해석

3. Funnel (퍼널)

 1) Funnel의 역할

  • 유저들이 어디서 이탈하는가?를 확인하기 위한 구조화
  • 퍼널은 잠재고객을 유입시키며 최종적인 목표 액션을 달성할 때까지의 과정
  • 모든 서비스와 비즈니스는 각 단계로 갈수록 이용자 수가 줄어들게 됨
  • 각 단계의 전환율 (or 첫 유입 대비 전환율)을 측정

2) AARRR

  • 디지털 마케팅 시 퍼널을 활용하는 프레임워크
  • 단계별 전환율을 지표화 하여 서비스 보완 지점을 찾음
    • Acquisition: 유입
    • Activation: 활성화
    • Retention: 재방문(재구매)
    • Revenue: 수익
    • Referral: 추천

 

3) LTV (Life Time Value, 고객 평생 가치)

  • 해당 유저가 우리에게 평생 주는 이익은 얼마나 될까?
  • 고객 생애 주기: 한 명의 유저가 서비스를 사용하기 시작하여 이탈할 때까지의 기간
  • LTV는 한 명의 유저가 생애 주기 동안 얼마만큼의 이익을 주는지를 정량적으로 지표화 한 것
  • LTV는 유저와의 관계를 측정하고, 이를 사업적 이익으로 가져가는데 중요한 지표
  • LTV가 높다는 것은 해당 서비스와 관계가 좋고, 충성도가 높은 고객이 많다는 것
  • LTV 추측이 가능하다면, 신규 유저를 데려오는 비용(CAC: Customer Acquisition Cost)의 산출 및 효율적인 예산 운용이 가능
  • LTV를 늘리기 위한 방안
    • 객단가 상승
    • 구매 빈도를 높임
    • 이탈률 감소, 이용시간을 증가 등
  • LTV는 가정을 베이스로 하는 지표이기 때문에 꾸준한 모니터링이 필요

 

  ※ LTV 산출 방법

  • 이익 x Life Time x 할인율(미래 비용에 대한 현재 가치)
  • 연간 거래액 x 수익률 x 고객 지속 연수
  • 고객의 평균 구매 단가 x 평균 구매 횟수
  • (매출액 – 매출 원가) / 구매자 수
  • 평균 구매 단가 x 구매 빈도 x 구매 기간
  • (평균 구매 단가 x 구매 빈도 x 구매 기간) – (신규 획득 비용 + 고객 유지 비용)
  • 월평균 객단가 / 월 가중 평균 잔존율
  • LTV를 산출하는 방법은 매우 여러 가지이며, 서비스마다, 관점마다 다르기 때문에 다각도로 고민이 필요

4. 북극성 지표

1) 정의

  • 제품/서비스의 ‘성공’을 정의
  • 제품/서비스가 유저에게 주는 core value를 가장 잘 나타낸 것
  • 장기 성장을 위해 필수적으로 모니터링해야 함

2) 특징

  • 제품/서비스 전략의 핵심
  • 유저/고객이 제품/서비스에서 느끼는 가치
  • 회사의 사업 목표를 나타내는 지표 중 선행지표 (후행 X)

 

3) 북극성 지표가 중요한 이유

  (1) 방향성

  • 제품/사업 조직이 무엇에 최적화되어야 하고, 무엇을 포기해도 되는지에 대한 방향 제시
  • 제품/사업 조직의 진척과 가치창출을 전사에 보여줌
    • 지원 조직이 더욱 적극적으로 지원, 제품개발 액션 실행속도가 빨라짐
  • 제품/서비스 조직이 결과에 책임을 지도록 함
    • 비즈니스 임팩트에 따라 평가가 가능

  (2) 효율 증대

  • 전 직원을 하나의 목표에 집중시킴
  • 서로 상반된 목표에 집중하거나, 중복으로 일하는 것을 방지 (MECE한 구조)

 

ㅇ 결론 도출

1. 결과와 결론의 차이

1) 결과

  • 데이터 처리, 분석, 모델링 후에 얻어진 구체적인 데이터의 출력
  • 숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음
  • ex) “고객 설문 조사 데이터를 분석한 결과, 고객 만족도와 구매 빈도 사이에 강한 상관관계가 있음을 보여줄 수 있습니다.”
  • 계산과 분석을 해서 나온 결과물

2) 결론

  • 분석된 데이터 결과를 바탕으로 이끌어낸 의미나 통찰
  • 데이터에 기반한 해석, 추론 또는 권고 사항을 포함
  • ex) “고객 만족도와 구매 빈도 사이의 강한 상관관계를 보여주는 결과를 토대로, 고객 만족도 향상이 전반적인 매출 증가로 이어질 수 있다는 결론을 내릴 수 있습니다.”
  • 목적에 대해 어떤 의미가 있는지 설명하는 것

  ※ 결론 도출 시 주의사항

  • 결과 → 결론 도출 시에는 스토리텔링이 필요
  • 그러나 필요 이상으로 자신의 해석을 융합하면 안 됨 (데이터를 통해 알 수 있는 범위 內)

2. 단순하고 쉽게 전달

  • 핵심 지표 위주로 먼저 공유
  • 지표를 해석하는 방법에 대해서도 설명
  • 해당 지표에 오너십이 있는 조직에서 활용할만한 포인트 제안
  • 액션 아이템을 제안하는 것이 핵심

3. 흥미 유발

  • 모든 내용을 담지 않고 흥미로운 부분 위주로 공유
  • 상대가 궁금해할 만한 내용은 뭘까? 고민하고 필터링하기
  • 궁금한 사람들을 위해서는 디테일한 문서 따로 공유

4. 대상자 관점에서의 접근

  • 공유받는 사람의 시선에서 이해하기 쉽도록 정리
  • 지식의 저주에 빠지지 않고 논지를 뒷받침해줄 자료들을 함께 첨부
  • 대상자의 허들이 낮은 시각화 활용

5. 시각화 팁

  • 화려한 그래프보다는 대상이 직관적으로 이해할 수 있도록 구성
  • 보통 선, 막대그래프로 거의 대부분의 리포팅이 가능
  • 각 그래프의 범례와 단위 함께 표기해 주기

6. 결론 보고서에 쓰면 좋은 플로우

  • 전체 내용을 한 문장으로 정리하는 요약
  • 해당 보고서의 메인 주제
  • 해당 보고서를 쓴 이유와 원하는 변화
  • 문제 정의 단계
  • 핵심 내용 전개
  • 결론 및 액션 아이템

7. 정리

  • 앞서 문제 정의, 지표 설정을 할 당시의 목적을 떠올리며 정리
  • 결론을 공유할 대상이 누구이며, 어떻게 변화하길 원하는지? 생각

 

 

 

 

Comments