로운's 기술노트

[강의] 통계학_기초(1) 본문

내배캠_데이터분석가_'24.04~08/통계

[강의] 통계학_기초(1)

로운's 2024. 5. 31. 23:48

ㅇ 분석을 통해 액션아이템을 내고, 이후 성과까지 추적하면 best!!

ㅇ 스토케스틱(확률론적) 접근 방식은 불확실성이나 무작위성을 다루는 데 사용되는 방법

ㅇ 서비스에 따라 이상치는 무조건 제거해야 할 대상이 아니다..! (e.g. 게임업계의 소수의 핵과금유저)

ㅇ 평균 > 최빈값은 용도가 조금 다르기 때문에, 강사님의 경우 산술평균과 중앙값을 병기하는 경우가 많음 
 1) 산술평균 : 모든 데이터를 더한 뒤 전체 데이터의 수로 나눈 값 (보편적으로 많이 쓰이나 왜도와 이상치에 취약)
* 왜도 : 특정한 방향으로 데이터가 쏠려 있는 것. 보통 꼬리(tail)를 당긴 것처럼 생겼다고 표현. 수치로 측정이 가능하나 보통 그래프로 판단
* 이상치 : 다른 관측치와 유의하게 다른 데이터. 이상치의 분류는 데이터에 따라 크게 다름. 통상적으로 IQR 2~3표준편차를 이야기하지만 절대적이지 않음.
 2) 중앙값 : 데이터를 정렬하여 가운데 있는 관측치로 왜도와 이상치에 강인하여 산술평균의 대안으로 많이 활용됨 
 3) 최빈값 : 가장 빈번하게 등장하는 관측치, 주사위와 같이 값이 다양하지 않을 경우 효과적일 수 있는 대푯값이나 평균의 의미로는 바람직하지 않으며 제한적으로 사용됨

ㅇ이외의 평균
- 기하평균 : 모든 데이터를 곱한 뒤 전체 데이터의 수로 제곱근을 취함. 자주 쓰이지 않음. (e.g. MLE)
- 조화평균 : 역수를 합한 뒤, 다시 역수를 취함. 빈번하게 쓰임. (e.g. F1-score, 시계열 데이터의 이동평균을 구할 때)
- 로그평균 : 각 관측치를 로그 변환 후 산술평균을 집계. 이상치와 왜도에 강함. 로그 변환으로 결과값에 대한 직접적인 해석이 어려워 상대적 비교에 유용
- 절삭평균 : 상/하위 데이터를 일부(k%) 제거후 산술평균을 구함. 극단적인 값 제거로 이상치에 강하나 왜도에 취약. 결과에 대한 직접적인 해석 가능

ㅇ 중심 극한 정리 (Central Limit Theorem)
 - 정의 : 많은 경우 독립적이고 동일한 분포를 갖는(iid) 확률 변수의 경우 원래 변수 자체가 정규 분포를 따르지 않더라도  표본 평균의 분포가 정규 분포를 따르는 경향이 있다
 > 원래 데이터의 분포가 무엇이든 "표본 평균의 분포"(표본의 분포가 아님!!!!)가 정규 분포를 따른다

* 확률 분포 : 실제로 자주 볼수 있는 일부 확률의 케이스들을 체계적으로 정리한 것.
  .베르누이 분포 : 2가지 결과(성공과 실패 또는 1과 0)만 있는 경우(e.g. 동전 던지기로 앞면이 나올 확률, 제품이 품질 검사를 통과할 확률)
  .이항 분포 : 독립적인 베르누이 시행을 n번 반복한 결과 (e.g. 동전을 10번 던져서 앞면이 나오는 횟수, 100개의 제품 중 품질 검사를 통과한 제품의 개수)
  . 정규 분포 : 연속 확률 분포로 평균이 𝜇이고 분산이 𝜎²인 경우. 종 모양의 분포를 가짐. (e.g. 사람의 키, 체중 등 자연 현상의 연속적인 데이터, 시험 점수와 같은 많은 데이터 분포)

> 정규분포의 특징을 결정짓는 것은 평균(Mean)과 분산(Variance). 
>> 이러한 분포의 특징을 결정 짓는 수를 '모수'(Parameter)라 명명
>>> 모수는 일반적으로 알려져 있지 않지만 통계를 통해 찾아나가는 과정. 이것을 '통계적 추정'이라 한다.

Comments