일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- 인스턴스
- jwt
- IoC
- 객체
- API
- 부트캠프추천
- Instance
- 클래스
- inversion of control
- 프로세스
- object
- DI
- 항해99솔직후기
- 소셜
- 객체지향 프로그래밍
- Dependency Injection
- bean
- process
- jvm
- 항해99장점
- 인스턴스화
- 소셜로그인
- 오브젝트
- 항해99단점
- 스레드
- class
- Thread
- social login
- 쓰레드
- 회고록
- Today
- Total
로운's 기술노트
[강의] 데이터 리터러시 (Data Literacy) 본문
ㅇ 데이터 리터러시란? (Data Literacy)
: 데이터를 분석하여 목적에 맞게 활용할 수 있는 능력을 의미하며, 크게 나누면 아래와 같다.
- 데이터를 읽는 능력
- 데이터를 이해할 수 있는 능력
- 데이터를 비판적으로 분석하는 능력
- 결과를 의사소통에 활용하는 능력
※ 참조 : 데이터 리터러시(Data Literacy) : 네이버 블로그 (naver.com)
ㅇ 데이터 해석의 오류 사례
데이터를 분석, 시각화하다 보면 동일한 데이터를 갖고 전혀 다른 결론을 도출하기도 한다.
아래의 대표적인 오류 예시를 참고하여 동일한 유형의 오류를 대비하자.
1. 심슨의 역설 (Simpson’s Paradox)
: '부분'에서 성립한 대소 관계가 종합된 전체에 대해서는 성립하지 않는 모순적인 경우를 말한다.
※ 참조 : 사례로 알아보는 심슨의 역설(Simpson's.. : 네이버블로그 (naver.com)
2. 시각화를 활용한 왜곡
: 자료의 표현 방법에 따라서 같은 데이터를 각기 다른 방향으로 해석하는 오류 여지가 존재
왼쪽은 '노동자의 임금이 월등히 낮다'고 해석되나, 중앙은 '노동자의 임금 증가폭이 급격'하다고 볼 수 있고, 오른쪽은 '노동자가 자본가의 수입증가를 능가'한다고 해석될 여지가 있다. (오른쪽의 경우, 실제로 뉴스나 기사에서 종종 등장)
※ 《The Economist》의 자료
3. 샘플링 편향 (sampling bias)
: 전체를 대표하지 못하는 편향된 샘플 선정으로 인해 분석 결과가 왜곡되는 현상의 의미한다.
[ 실제사례 ]
(현상)
- 1936년 미국 대선에서 Literary Digest 잡지사가 천만 명에게 우편물을 보내 수행한 대규모 여론조사 사례
- 240만 명의 응답을 토대로, 랜던이 선거에서 57% 득표를 얻을 것이라고 높은 신뢰도로 예측했지만, 루즈벨트가 62% 득표로 당선
(이유)
- 여론조사용 주소를 얻기 위해 전화번호부, 자사의 구독자 명부, 클럽 회원 명부 등을 사용. 이런 명부는 모두 공화당(랜던)에 투표할 가능성이 높은 부유한 계층에 편중된 경향이 존재
- 우편물 수신자 중 25%의 사람이 응답. 이는 정치에 관심 없는 그룹이나 Literary Digest를 싫어하는 그룹 등 다른 중요한 그룹을 제외시킴으로써 역시 표본 편향됨
4. 상관관계와 인과관계
- 상관관계
- 두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미
- 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름
- 인과관계
- 실질적으로 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미
- 원인과 결과가 명확한 것
Note) 귀납적인 측면이 있을 수 있겠지만, 상관관계와 인과관계의 공통점은 두 변수가 서로 영향을 준다는 점.
차이점은 상관관계엔 영향을 주는 원인 변수가 다수, 인과관계는 원인변수가 단수인 게 아닐까?
[ 실제사례 ]
- 1940년대 보건 전문가의 소아마비와 아이스크림 섭취 간의 연구 결과
- 당시 보건 전문가는 소아마비와 아이스크림 섭취량의 상관관계가 있는 것을 발견, 전국에 소아마비 예방을 위해 아이스크림 섭취량을 줄일 것을 권고
- 소아마비는 여름에 많이 발생
- 아이스크림은 여름에 판매량이 급증
- 즉 소아마비와 아이스크림 섭취 간에는 어떤 인과관계도 존재하지 않음
- 단순히 날씨라는 변수로 인해 공통으로 영향을 주게 됨
[결론] 상관관계는 인과관계가 아닌 것을 항상 유의해야 함
- 상관관계만으로 섣불리 의사결정 하지 않기
- 양쪽을 모두 활용하여 합리적인 의사판단 하기
ㅇ 데이터 리터러시가 필요한 이유
- 데이터 분석은 크게 3가지 단계로 구분된다.
- 위 단계 중 ‘생각’이 주요한 단계에서 데이터 리터러시가 필요하다.
- 데이터 분석이 목적이 되지 않도록 ‘왜?’를 항상 생각해야 한다.
1. 문제 정의란?
- 데이터 분석 프로젝트의 성공을 위한 초석
- 분석하려는 특정 상황이나 현상에 대한 명확하고 구체적인 진술
- 프로젝트의 목표를 설정하고 분석 방향을 설정
*풀고자 하는 문제를 명확하게 정의하지 않을 경우 데이터 분석에 실패 이유가 된다.
2. 문제 정의 방법론
- MECE (Mutually Exclusive, Collectively Exhaustive 의 약자, 상호배제와 전체포괄)
: 항목들이 상호 배타적이면서 모였을 때는 완전히 전체를 이루는 것을 의미한다. 이를테면 '겹치지 않으면서 빠짐없이
나눈 것'이라 할 수 있다.
- 문제 해결과 분석에서 널리 사용되는 접근 방식
- 문제를 상호 배타적(mutually exclusive)이면서, 전체적으로 포괄적(collectively exhaustive)인 구성요소로 나누는 것
- MECE를 통해 복잡한 문제를 체계적으로 분해하고, 구조화된 방식으로 분석할 수 있음
※ 참조 : MECE - 위키백과, 우리 모두의 백과사전 (wikipedia.org)
- 로직 트리 (Logic Tree)
: 의사 결정 또는 문제를 해결하기 위해 사용되는 그래픽 형태의 결정 트리구조로 일련의 의사 결정 과정을 시각적으로 나타내어 각 단계에서의 선택지와 결과를 명확하게 표현한다.
- MECE 원칙을 기반으로 복잡한 문제를 더 작고 관리하기 쉬운 하위 문제로 분해하는 데 사용
- 상위 문제로부터 시작하여 하위 문제로 계층적 접근
- 일반적으로 도표 형식으로 표현되어 쉽게 파악할 수 있음
- 로직트리를 활용하여 문제정의 해보기
(예시)
3. 문제정의를 하는 이유
- 문제 정의는 풀고자 하는 것을 명확하게 정의하고
- 이것을 해결하기 위한 데이터 분석의 방향성을 정하고
- 결과를 정리하고 해석하여
- 더 나아지기 위한 새로운 액션 플랜을 수립하기 위함
- 문제정의의 핵심은 So What?, Why So?
- So what?
- 수집한 정보와 소재에서 ‘결국 어떻다는 것인지’를 알아내는 작업
- 그래서, 따라서, 이렇듯 앞에 오는 정보나 소재에서 과제의 답변에 맞는 중요한 핵심을 추출하는 작업
- 나타난 현상을 바탕으로 과제에 비추어 말할 수 있는 내용의 핵심을 추출하는 작업
- Why So?
- 왜 그렇게 말할 수 있는지
- 구체적으로 무슨 뜻인지를 검증하고 확인하는 작업
- So what?한 요소의 타당성을 자료 전체 혹은 그룹핑한 요소로 증명할 수 있다는 사실을 검증하는 작업
4. T i p !
- 결과를 공유하고자 하는 사람이 누구인지 정의하기
- 결과를 통해 원하는 변화를 생각하기
- 회사 소속이라면, 경영자의 입장에서 보려고 노력
- 많은 사람들과 의견을 나눠보는 것도 방법
- 반드시 혼자서 오래 고민해 보는 시간을 가질 것
ㅇ 데이터의 유형
1. 정성적 데이터 (Qualitative Data)
- 비수치적인 정보로 사람의 경험, 관점, 태도와 같은 주관적인 요소를 포함해요
- 대부분 텍스트, 비디오, 오디오 형태로 존재해요
- 정형되지 않고 구조화되어있지 않아요
- 데이터를 구조화하기 어려워요
- 새로운 현상이나 개념에 대한 이해를 심화하는 데 사용해요
2. 정량적 데이터 (Quantitative Data)
- 수치적으로 표현되는 정보로 양적인 측정과 분석을 통해 얻을 수 있어요
- 데이터가 숫자 형태로 존재하기 때문에 통계적으로 분석하기 쉬워요
- 개인의 해석이나 주관이 적게 작용하는 객관성을 가지고 있어요
- 지표로 만들기에 용이해요
- 설문조사, 실험, 인구 통계, 지표 분석 등에 활용해요
정량적 데이터
|
정성적 데이터
|
|
유형
|
정형 데이터 반정형 데이터
|
비정형 데이터
|
특징 및 관점
|
여러 요소의 결합으로 의미 부여 주로 객관적 내용
|
객체 하나가 함축된 의미 내포 주로 주관적 내용
|
구성 및 형태
|
수치나 기호 데이터베이스, 스프레드 시트
|
문자나 언어 웹 로그, 텍스트 파일
|
위치
|
DBMS, 로컬 시스템 등 내부
|
웹사이트, 모바일 플랫폼 등 외부
|
분석
|
통계 분석 시 용이
|
통계 분석 시 어려움
|
ㅇ 지표 설정
1. 지표란?
- 특정 목표나 성과를 측정하기 위한 구체적이고 측정 가능한 기준
- 목표 달성도를 평가하고 전략적 결정에 필요한 핵심 정보를 제공
- 정의한 문제에 대해 정확하게 파악하기 위해서 필요
- 문제 정의 vs 지표 설정
2. Retention Ratio 이란?
- 정의: 서비스를 사용한 사람이 다시 서비스를 사용하는 비율
- 리텐션이란, 한번 획득한 유저가 서비스로 다시 돌아왔는가? 에 대한 지표
- 리텐션이 높은 서비스는 획득비용에 투자한 비용을 빠르게 회수할 수 있음
- 리텐션은 서비스(특히 앱서비스) 성장에 있어서 매우 중요한 지표
- 일반적으로 리텐션은 시간이 지남에 따라 자연스럽게 감소 (Product B)
- 기울기가 점점 완만해지며 안정화되는 그래프를 가지고 있다면, 시장에 적합한 서비스라고 할 수 있음 (Product A)
3. Retention 측정 방법
1) N-Day 리텐션
- 최초 사용일로부터 N일 후에 재방문한 Active User의 비율
- 일반적으로 사용하는 리텐션 지표는 N-Day 리텐션
- 게임, 소셜 등 습관적으로 사용하거나 반복적으로 행동을 유도하는 제품에 적합
- 유저가 Active User로 집계된 최초 날을 Day 0으로 설정
- Day 0에 액티브 상태가 된 모든 유저들의 N일차 리텐션을 계산
- e.g. N-Week, N-Month도 가능
2) Unbounded 리텐션
- 특정 날짜를 포함하여 그 이후에 재방문한 유저의 비율
- 특정일을 포함하여 그 이후에 한 번이라도 재방문한 유저의 비율
- 유저가 정기적으로 반복해서 방문하는 서비스가 아닐 경우 적합
- 해석: Day5는 5일 차 이후에 한 번 더 들어온 유저의 비율
- Unbounded 리텐션은 이탈률의 반대 개념
※ Unbounded 리텐션의 한계
- 다만, 서비스 방문이 없던 고객이 재방문할 경우, 이전의 리텐션 값들이 전부 변동되는 상황이 발생할 수 있음
- 해당 지표는 절대적인 수치보다는 지표가 어떻게 변화하는지에 대해 트렌드를 보는 용도로 활용하는 것을 권장
3) Bracket 리텐션
- 설정한 특정 기간을 기반으로 재방문율을 측정
- Bracket 리텐션은 N-Day 리텐션을 확장한 개념 > 일/주/월 단위가 아닌 지정한 구간으로 나눔
- e.g. 1(0일차) / 2(1-3일차) / 3(4-6일차) / 4(7-11일차)
- 활성유저가 특정한 활동을 위해 각 Bracket 내 서비스에 재방문 시 잔존 유저로 해석
3. Funnel (퍼널)
1) Funnel의 역할
- 유저들이 어디서 이탈하는가?를 확인하기 위한 구조화
- 퍼널은 잠재고객을 유입시키며 최종적인 목표 액션을 달성할 때까지의 과정
- 모든 서비스와 비즈니스는 각 단계로 갈수록 이용자 수가 줄어들게 됨
- 각 단계의 전환율 (or 첫 유입 대비 전환율)을 측정
2) AARRR
- 디지털 마케팅 시 퍼널을 활용하는 프레임워크
- 단계별 전환율을 지표화 하여 서비스 보완 지점을 찾음
- Acquisition: 유입
- Activation: 활성화
- Retention: 재방문(재구매)
- Revenue: 수익
- Referral: 추천
3) LTV (Life Time Value, 고객 평생 가치)
- 해당 유저가 우리에게 평생 주는 이익은 얼마나 될까?
- 고객 생애 주기: 한 명의 유저가 서비스를 사용하기 시작하여 이탈할 때까지의 기간
- LTV는 한 명의 유저가 생애 주기 동안 얼마만큼의 이익을 주는지를 정량적으로 지표화 한 것
- LTV는 유저와의 관계를 측정하고, 이를 사업적 이익으로 가져가는데 중요한 지표
- LTV가 높다는 것은 해당 서비스와 관계가 좋고, 충성도가 높은 고객이 많다는 것
- LTV 추측이 가능하다면, 신규 유저를 데려오는 비용(CAC: Customer Acquisition Cost)의 산출 및 효율적인 예산 운용이 가능
- LTV를 늘리기 위한 방안
- 객단가 상승
- 구매 빈도를 높임
- 이탈률 감소, 이용시간을 증가 등
- LTV는 가정을 베이스로 하는 지표이기 때문에 꾸준한 모니터링이 필요
※ LTV 산출 방법
- 이익 x Life Time x 할인율(미래 비용에 대한 현재 가치)
- 연간 거래액 x 수익률 x 고객 지속 연수
- 고객의 평균 구매 단가 x 평균 구매 횟수
- (매출액 – 매출 원가) / 구매자 수
- 평균 구매 단가 x 구매 빈도 x 구매 기간
- (평균 구매 단가 x 구매 빈도 x 구매 기간) – (신규 획득 비용 + 고객 유지 비용)
- 월평균 객단가 / 월 가중 평균 잔존율
- LTV를 산출하는 방법은 매우 여러 가지이며, 서비스마다, 관점마다 다르기 때문에 다각도로 고민이 필요함
4. 북극성 지표
1) 정의
- 제품/서비스의 ‘성공’을 정의
- 제품/서비스가 유저에게 주는 core value를 가장 잘 나타낸 것
- 장기 성장을 위해 필수적으로 모니터링해야 함
2) 특징
- 제품/서비스 전략의 핵심
- 유저/고객이 제품/서비스에서 느끼는 가치
- 회사의 사업 목표를 나타내는 지표 중 선행지표 (후행 X)
3) 북극성 지표가 중요한 이유
(1) 방향성
- 제품/사업 조직이 무엇에 최적화되어야 하고, 무엇을 포기해도 되는지에 대한 방향 제시
- 제품/사업 조직의 진척과 가치창출을 전사에 보여줌
- 지원 조직이 더욱 적극적으로 지원, 제품개발 액션 실행속도가 빨라짐
- 제품/서비스 조직이 결과에 책임을 지도록 함
- 비즈니스 임팩트에 따라 평가가 가능
(2) 효율 증대
- 전 직원을 하나의 목표에 집중시킴
- 서로 상반된 목표에 집중하거나, 중복으로 일하는 것을 방지 (MECE한 구조)
ㅇ 결론 도출
1. 결과와 결론의 차이
1) 결과
- 데이터 처리, 분석, 모델링 후에 얻어진 구체적인 데이터의 출력
- 숫자, 통계, 그래프, 차트 등의 형태로 나타낼 수 있음
- ex) “고객 설문 조사 데이터를 분석한 결과, 고객 만족도와 구매 빈도 사이에 강한 상관관계가 있음을 보여줄 수 있습니다.”
- 계산과 분석을 해서 나온 결과물
2) 결론
- 분석된 데이터 결과를 바탕으로 이끌어낸 의미나 통찰
- 데이터에 기반한 해석, 추론 또는 권고 사항을 포함
- ex) “고객 만족도와 구매 빈도 사이의 강한 상관관계를 보여주는 결과를 토대로, 고객 만족도 향상이 전반적인 매출 증가로 이어질 수 있다는 결론을 내릴 수 있습니다.”
- 목적에 대해 어떤 의미가 있는지 설명하는 것
※ 결론 도출 시 주의사항
- 결과 → 결론 도출 시에는 스토리텔링이 필요
- 그러나 필요 이상으로 자신의 해석을 융합하면 안 됨 (데이터를 통해 알 수 있는 범위 內)
2. 단순하고 쉽게 전달
- 핵심 지표 위주로 먼저 공유
- 지표를 해석하는 방법에 대해서도 설명
- 해당 지표에 오너십이 있는 조직에서 활용할만한 포인트 제안
- 액션 아이템을 제안하는 것이 핵심
3. 흥미 유발
- 모든 내용을 담지 않고 흥미로운 부분 위주로 공유
- 상대가 궁금해할 만한 내용은 뭘까? 고민하고 필터링하기
- 궁금한 사람들을 위해서는 디테일한 문서 따로 공유
4. 대상자 관점에서의 접근
- 공유받는 사람의 시선에서 이해하기 쉽도록 정리
- 지식의 저주에 빠지지 않고 논지를 뒷받침해줄 자료들을 함께 첨부
- 대상자의 허들이 낮은 시각화 활용
5. 시각화 팁
- 화려한 그래프보다는 대상이 직관적으로 이해할 수 있도록 구성
- 보통 선, 막대그래프로 거의 대부분의 리포팅이 가능
- 각 그래프의 범례와 단위 함께 표기해 주기
6. 결론 보고서에 쓰면 좋은 플로우
- 전체 내용을 한 문장으로 정리하는 요약
- 해당 보고서의 메인 주제
- 해당 보고서를 쓴 이유와 원하는 변화
- 문제 정의 단계
- 핵심 내용 전개
- 결론 및 액션 아이템
7. 정리
- 앞서 문제 정의, 지표 설정을 할 당시의 목적을 떠올리며 정리
- 결론을 공유할 대상이 누구이며, 어떻게 변화하길 원하는지? 생각
'내배캠_데이터분석가_'24.04~08 > 회고' 카테고리의 다른 글
[2주차] 프로그래밍 기초 주차 (5/5) (0) | 2024.04.26 |
---|---|
[2주차] 프로그래밍 기초 주차 (4/5) (2) | 2024.04.25 |
[2주차] 프로그래밍 기초 주차 (3/5) (0) | 2024.04.24 |
[2주차] 프로그래밍 기초 주차 (2/5) (0) | 2024.04.23 |
[2주차] 프로그래밍 기초 주차 (1/5) (0) | 2024.04.22 |