회고 61

Chapter 3. 데이터 분석 입문 (9주차_2/5)

목표 : [오전] 머신러닝_강의           [오후] 통계학 세션, 머신러닝_과제 머신러닝은 크게 아래의 과정을 거치는 것으로 보인다.특히 모델 평가가 만족할 만한 수준이 아닌 경우는 다시 3번으로 돌아가서 유의미한 결과를 도출할 때까지 반복한다.(어떤 경우는 한 프로젝트당 20,000번을 실행하기도..?)아래 내용을 잘 인지하고 과제를 진행해야겠다. 1. 데이터 수집2. 데이터 분리&가공(train_set / test_set / valitation_set)3. 데이터 학습  1) 알고리즘 선택  2) 하이퍼파라미터 조정  3) 모델 학습4. 모델 평가 다음 목표 : [오전] 머신러닝_강의                    [오후] 머신러닝 세션, 머신러닝_과제

Chapter 3. 데이터 분석 입문 (9주차_1/5)

목표 : [오전] 파이썬 300제           [오후] 통계학 세션, 머신러닝_심화 강의 수강 심화 프로젝트 전, 머신러닝 개인 과제가 지급된 날이다.오늘은 문제만 정리해뒀는데, 강의를 들을 때와 사뭇 다른 느낌이다.내일부턴 여러 시행착오를 거치며 본격적으로 풀어볼 생각이다. 파이썬 300제, 판다스 300제, 머신러닝 기초/심화 강의, 기초학습반 他반 수강, 코드카타 등할 일이 많아서인지, 유독 이번 학습주차가 짧게 느껴진다. 다음 목표 : [오전] 머신러닝_강의                    [오후] 통계학 세션, 머신러닝_과제

Chapter 3. 데이터 분석 입문 (8주차_4/4)

목표 :  [오전] 파이썬 세션             [오후] 머신러닝_기초 완강 ㅁ 비지도학습 - 군집화 - 고객분류,데이터분석,차원축소,이상치 탐지,준지도학습,검색엔진,이미지 분할(e.g. 자율주행) ㅇ 가우시안 : 몇개 나눌건지, 학습, 예측 순으로 기재 - 타원형이나 불규칙 데이터에 최적화 from sklearn.mixture import GaussianMixturey_pred = GaussianMixture(n_components=3, random_state=42).fit(X).predict(X)ㅇ k-means-clustering> 최초 초기값을 랜덤으로 잡고 중심값을 찾아나가는 과정 >> 초기 값에 많이 의존함 - 원형 군집데이터에 최적화 from sklearn.datasets import ..

Chapter 3. 데이터 분석 입문 (8주차_3/4)

목표 :  [오전] 머신러닝 강의 수강              [오후] 통계학 세션, 머신러닝 강의 수강 통계학 세션 2회차를 수강했다.2회차는 A/B테스트와 T검정, 카이제곱검정 등을3회차는 회귀분석, 4회차는 분류,군집분석을 중점으로 학습할 예정이다. 사실 지난 프로젝트에서 카이제곱검정으로 *p-value를 사용하긴 했으나,100% 이해하고 진행한 것이 아니라 아쉬움이 많았기 때문에 이번 시간 더 집중하게 되었다. * p-value : 어떤 사건이 우연히 발생할 확률(0~1사이의 값)[세션] 통계학 라이브세션_2회차 (tistory.com) 다음 목표 : [오전] 파이썬 세션                    [오후] 머신러닝 강의 수강

Chapter 3. 데이터 분석 입문 (8주차_2/4)

목표 : [오전] 코드카타, 파이썬 세션           [오후] 머신러닝 강의 수강 파이썬 학습반에서는 머신러닝 분야의 hello world라는 MNIST를 살펴보았다.고등학생과 미국 인구조사국 직원들이 손으로 쓴 약 70,000개의 이미지 데이터인데,특이한 점은 앞의 60,000개는 train data, 뒤 10,000개는 test data라는 점이었다.개인적으로 궁금했던 정밀도와 재현율에 대해서도 오차행렬을 통해 계산해보아 유익한 시간이었다.[기초학습반] Python Challenge_5회차 (tistory.com)다음 목표 : [오전] 머신러닝 강의 수강                    [오후] 통계학 세션, 머신러닝 강의 수강

Chapter 3. 데이터 분석 입문 (8주차_1/4)

목표 : [오전] 코드카타, 파이썬 300제           [오후] 통계학 세션, 머신러닝 강의 수강  통계학.동일한 주제임에도 학습목표나 교수법에 따라 전달되는 양식이 확연히 달랐다. 우리의 데이터도 그렇지 않을까.분석가의 '의도'나 '상황', '역량' 등에 따라 동일한 데이터를 가공하는 수준과 방식은 천차만별일 것이다.하지만 '의도'와 '상황'은 크게는 산업군과 회사, 작게는 팀이나 개인의 사정에 의해 매번 바뀔 수 있지만,'역량'은 대개 감소하진 않고 정체되거나 증가한다.때문에 우린 의식적으로 역량을 키워나가야 한다.- 월요병의 나에게                    다음 목표 : [오전] 코드카타, 파이썬 세션                    [오후] 머신러닝 강의 수강

Chapter 3. 데이터 분석 입문 (7주차_3/3)

목표 : [오전] 코드카타           [오후] 통계학 복습, 파이썬 300제  드디어 금요일이다! (언제쯤 주말에 쉴 수 있을까)이번 챕터는 학습주차마저 시간이 많지 않은 느낌이다.벌써 통계학 주차의 일주일이 지나버려서다음 주에 머신러닝 기초 1주일, 그다음 주차에 머신러닝 심화 1주일만 하면 바로 프로젝트이기 때문이다.정말 할 일이 많아서인지, 한계시속체증의 법칙 때문인지는 모르겠지만 체감되는 시간이 너무 빠르다. 통계학 강의는 고민 끝에 중요하다고 생각되는 개념이나 강조점 정도만 적어두기로 했다.세션에 더 집중해야겠다. [강의] 통계학_기초(1) (tistory.com)다음 목표 : [오전] 코드카타, 파이썬 300제                    [오후] 통계학 세션, 머신러닝 강의 수강

Chapter 3. 데이터 분석 입문 (7주차_2/3)

목표 : [오전] 코드카타, 파이썬 챌린지반 수강(4 / 6회차)           [오후] 통계학 복습, 파이썬 300제  [Python 챌린지_4회차]ㅇ 머신러닝 평가- 중간평가는 validation 데이터로, 최종평가는 test데이터로 진행  (학습데이터 평가는 잘나오는 것이 당연하기 때문에 무의미함. 오차 0)   * validation은 원 데이터에서 분리. (cross_validation을 사용) - validation 데이터 평가 결과를 가지고 하이퍼파라미터를 진행   * 하이퍼파라미터 : 사람이 조절하는 파라미터 그리드서치(grid_search),랜덤서치(rnd_search) : 한 모델에 하이퍼파라미터를 할 때, 사용 - Test데이터 최종테스트는 1회만 진행 ㅇ 선형회귀 Yᵢ (종속변수..

[Chapter 3] 데이터 분석 입문 (7주차_1/3)

목표 : 통계학 강의 완강, 파이썬 챌린지반 (3회차) 수강 공가로 새로운 팀원들과 오늘 처음 만났다.사전캠프를 제외하면 벌써 3번째 팀이라 그런지 다들 밝고 익숙해 보였다.사실상 통계와 머신러닝이 적용될 첫 프로젝트라 무거운 마음이 일부 있었지만, 마음이 놓인다.  이번 챕터에서의 메인 목표는 총 2가지인데,하나는 '통계', 다른 하나는 '머신러닝'이다. 일단 통계학 강의는 어제부터 수강했는데,음- 일단 통계는 강의를 먼저 2회독하고 6/3(월)부터 진행될 통계학 세션에 집중하는 것이 나을 듯싶다.  머신러닝은 파이썬 챌린지에서 배운 개념을 토대로 6/3(월)부터 프로젝트가 시작되는 약 2주간 최대한 정리하며 소화해보려 한다.파이썬 300제와 他학습반 수강, 코드카타는 서브 목표이다. 이왕이면 즐겁게다..

[6주차] 프로그래밍 기초 주차 (2/5)

ㅇ 프로젝트 : 음악 플랫폼 유저 행동 데이터 분석 (notion.site)ㅇ 데이터 : Spotify User Behavior Dataset (kaggle.com)지금까지 개인적으로 준비한 내용을 정리해보았다.프로젝트에 흐름에 알맞는 시각자료 및 근거로 사용하기 위해 각 문항은 독립적으로 서술하였으나 포함하는 내용은 별도 주석처리 하였다. [Preprocessing] One-Hot Encoding 처리columns_to_encode = ['spotify_listening_device', 'music_Influencial_mood', 'music_lis_frequency', 'music_expl_method']for column in columns_to_encode: df_temp = df[colu..