전체 글 117

Chapter 3. 데이터 분석 입문 (8주차_3/4)

목표 :  [오전] 머신러닝 강의 수강              [오후] 통계학 세션, 머신러닝 강의 수강 통계학 세션 2회차를 수강했다.2회차는 A/B테스트와 T검정, 카이제곱검정 등을3회차는 회귀분석, 4회차는 분류,군집분석을 중점으로 학습할 예정이다. 사실 지난 프로젝트에서 카이제곱검정으로 *p-value를 사용하긴 했으나,100% 이해하고 진행한 것이 아니라 아쉬움이 많았기 때문에 이번 시간 더 집중하게 되었다. * p-value : 어떤 사건이 우연히 발생할 확률(0~1사이의 값)[세션] 통계학 라이브세션_2회차 (tistory.com) 다음 목표 : [오전] 파이썬 세션                    [오후] 머신러닝 강의 수강

[기초학습반] Python Challenge_5회차

■ 분류 (Classification) □ MNIST  - 고등학생과 미국 인구조사국 직원들이 손으로 쓴 숫자 이미지 데이터(머신러닝 분야의 hello world) - 사이킷런 데이터들은 대부분 딕셔너리 형태 - DESCR : 데이터셋 설명 - data : 행열로 이루어진 데이터 - target : 정답값(문자로 출력되기 때문에 정수값으로 변환 필요)ㅇData 구성 - 70,000개의 이미지 (앞 60,000개는 train data, 잔여 10,000개는 test data) - 각 이미지에는 784개의 특성이 있음(28*28픽셀) - 각각의 특성이 0~255의 값을 가질 수 있음ㅇ 'X'와 'y'로 기재하는 이유? # X = mnist["data"] # y = mnist["target"] X는 매트릭스(..

[분석] 파이썬 2024.06.05

Chapter 3. 데이터 분석 입문 (8주차_2/4)

목표 : [오전] 코드카타, 파이썬 세션           [오후] 머신러닝 강의 수강 파이썬 학습반에서는 머신러닝 분야의 hello world라는 MNIST를 살펴보았다.고등학생과 미국 인구조사국 직원들이 손으로 쓴 약 70,000개의 이미지 데이터인데,특이한 점은 앞의 60,000개는 train data, 뒤 10,000개는 test data라는 점이었다.개인적으로 궁금했던 정밀도와 재현율에 대해서도 오차행렬을 통해 계산해보아 유익한 시간이었다.[기초학습반] Python Challenge_5회차 (tistory.com)다음 목표 : [오전] 머신러닝 강의 수강                    [오후] 통계학 세션, 머신러닝 강의 수강

[세션] 통계학 라이브세션_1회차

[목표]다양한 데이터의 종류편차, 분산, 표준편차표본분포화 히스토그램신뢰구간과 정규분포1. 데이터의 종류ㅇ 데이터를 분류하는 이유? - 데이터 유형에 따라 시각화, 해석, 통계모델 결정에 중요한 역할을 하기 때문!데이터 종류개념예시수치형수치형숫자를 이용해 표현할 수 있는 데이터. 이산형, 연속형 을 모두 포함하는 개념 체중, 신장, 사고건수, 일 방문자수연속형일정 범위 안에서 어떤 값이든 취할 수 있는 데이터체중, 신장이산형횟수와 값은 정수형 값만 취할 수 있는 데이터 즉, 소수점의 의미가 없는 데이터를 의미(수치형 데이터와의 차이점)사고 건수, 일 방문자수범주형범주형가능한 범주 안의 값만을 취하는 데이터 (값이 달라짐에 따라 좋거나 나쁘다고 할 수 없음) 명목형 이진형, 순서형 을 모두 포함하는 개념 ..

[분석] 통계 2024.06.03

Chapter 3. 데이터 분석 입문 (8주차_1/4)

목표 : [오전] 코드카타, 파이썬 300제           [오후] 통계학 세션, 머신러닝 강의 수강  통계학.동일한 주제임에도 학습목표나 교수법에 따라 전달되는 양식이 확연히 달랐다. 우리의 데이터도 그렇지 않을까.분석가의 '의도'나 '상황', '역량' 등에 따라 동일한 데이터를 가공하는 수준과 방식은 천차만별일 것이다.하지만 '의도'와 '상황'은 크게는 산업군과 회사, 작게는 팀이나 개인의 사정에 의해 매번 바뀔 수 있지만,'역량'은 대개 감소하진 않고 정체되거나 증가한다.때문에 우린 의식적으로 역량을 키워나가야 한다.- 월요병의 나에게                    다음 목표 : [오전] 코드카타, 파이썬 세션                    [오후] 머신러닝 강의 수강

[프로그래머스] 특정 기간동안 대여 가능한 자동차들의 대여비용 구하기

단순히 문제만 보고 대여기간별 할인율을 간과했다.할인율과 기간별 할인구간을 추가하여 통과했다. 조건은 아래와 같다.1.자동차 종류가 '세단' 또는 'SUV' 인 자동차2. 2022년 11월 1일부터 2022년 11월 30일까지 대여 가능3. 30일간의 대여 금액이 50만원 이상 200만원 미만인 자동차 (+할인율&기간별 할인구간)4. 자동차 ID, 자동차 종류, 대여 금액(컬럼명: FEE) 리스트를 출력5. 결과는 대여 금액을 기준으로 내림차순 정렬하고, 대여 금액이 같은 경우 자동차 종류를 기준으로 오름차순 정렬, 자동차 종류까지 같은 경우 자동차 ID를 기준으로 내림차순 정렬해주세요. SELECT c.CAR_ID, c.CAR_TYPE, round(c.daily_fee*30*((100-p.discoun..

[분석] SQL 2024.06.01

[프로그래머스] x만큼 간격이 있는 n개의 숫자

오랜만의 알고리즘이다.단순히 x를 x씩 증가하는 n개의 리스트를 반환하는 문제이다. # 방법1def solution(x, n): answer = [] for i in range(1, n+1): answer += [x * i] # 리스트로 묶어줘야 리스트에 담김!!! return answer # 방법2 (캄프리헨션)def solution(x, n): answer = [x * i for i in range(1, n + 1)] return answer# 캄프리헨션은 리스트를 초기화하지 않아도 OK(반복되는 요소를 가진 새로운 리스트를 생성하고 반환)

[분석] 파이썬 2024.06.01

[강의] 통계학_기초(1)

ㅇ 분석을 통해 액션아이템을 내고, 이후 성과까지 추적하면 best!! ㅇ 스토케스틱(확률론적) 접근 방식은 불확실성이나 무작위성을 다루는 데 사용되는 방법 ㅇ 서비스에 따라 이상치는 무조건 제거해야 할 대상이 아니다..! (e.g. 게임업계의 소수의 핵과금유저) ㅇ 평균 > 최빈값은 용도가 조금 다르기 때문에, 강사님의 경우 산술평균과 중앙값을 병기하는 경우가 많음   1) 산술평균 : 모든 데이터를 더한 뒤 전체 데이터의 수로 나눈 값 (보편적으로 많이 쓰이나 왜도와 이상치에 취약) * 왜도 : 특정한 방향으로 데이터가 쏠려 있는 것. 보통 꼬리(tail)를 당긴 것처럼 생겼다고 표현. 수치로 측정이 가능하나 보통 그래프로 판단 * 이상치 : 다른 관측치와 유의하게 다른 데이터. 이상치의 분류는 데이..

[분석] 통계 2024.05.31

Chapter 3. 데이터 분석 입문 (7주차_3/3)

목표 : [오전] 코드카타           [오후] 통계학 복습, 파이썬 300제  드디어 금요일이다! (언제쯤 주말에 쉴 수 있을까)이번 챕터는 학습주차마저 시간이 많지 않은 느낌이다.벌써 통계학 주차의 일주일이 지나버려서다음 주에 머신러닝 기초 1주일, 그다음 주차에 머신러닝 심화 1주일만 하면 바로 프로젝트이기 때문이다.정말 할 일이 많아서인지, 한계시속체증의 법칙 때문인지는 모르겠지만 체감되는 시간이 너무 빠르다. 통계학 강의는 고민 끝에 중요하다고 생각되는 개념이나 강조점 정도만 적어두기로 했다.세션에 더 집중해야겠다. [강의] 통계학_기초(1) (tistory.com)다음 목표 : [오전] 코드카타, 파이썬 300제                    [오후] 통계학 세션, 머신러닝 강의 수강

Chapter 3. 데이터 분석 입문 (7주차_2/3)

목표 : [오전] 코드카타, 파이썬 챌린지반 수강(4 / 6회차)           [오후] 통계학 복습, 파이썬 300제  [Python 챌린지_4회차]ㅇ 머신러닝 평가- 중간평가는 validation 데이터로, 최종평가는 test데이터로 진행  (학습데이터 평가는 잘나오는 것이 당연하기 때문에 무의미함. 오차 0)   * validation은 원 데이터에서 분리. (cross_validation을 사용) - validation 데이터 평가 결과를 가지고 하이퍼파라미터를 진행   * 하이퍼파라미터 : 사람이 조절하는 파라미터 그리드서치(grid_search),랜덤서치(rnd_search) : 한 모델에 하이퍼파라미터를 할 때, 사용 - Test데이터 최종테스트는 1회만 진행 ㅇ 선형회귀 Yᵢ (종속변수..