일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
- class
- 소셜
- 회고록
- 항해99단점
- 항해99솔직후기
- 프로세스
- API
- 객체
- 부트캠프추천
- 쓰레드
- object
- 인스턴스
- bean
- inversion of control
- 항해99장점
- process
- 인스턴스화
- 객체지향 프로그래밍
- DI
- jwt
- 소셜로그인
- 오브젝트
- Thread
- Instance
- social login
- IoC
- jvm
- Dependency Injection
- 클래스
- 스레드
- Today
- Total
목록내배캠_데이터분석가_'24.04~08/회고 (46)
로운's 기술노트
목표 : [오전] 머신러닝 군집(Clustering)_세션 [오후] 머신러닝_과제 제출 ML_비지도학습_군집분석(Clustering)ㅇ 정의 : 피쳐(컬럼) 유사성의 개념을 기반으로 전체데이터셋을 그룹으로 나누는 그룹핑 기법 (각 그룹 = 클러스터) ㅇ 프로세스 1. 전처리 pre-processing1) 기간 설정 : 통상적으로 3개월~1년의 data. 그러나 목적과 의도에 따라 유연하게 대처 (but, 1주일은 무리!)2) 이상치 기준설정 및 제거 : 다양하게 사용해보고 비교하기 . Z-Score데이터의 분포가 정규 분포를 이룰 때, 데이터의 표준 편차를 이용해 이상치를 탐지각 데이터(행) 마다 Z-score 를 구합니다. Z(표준점수) 값은 X에서 평균을 뺀 데이터를 표준편..
목표 : [오전] 머신러닝 분류(Clasification)_세션 [오후] 머신러닝_과제 머신러닝의 지도학습 중 '분류' 라이브세션을 수강했다.대표적인 4가지 기법을 알게 되었다.수강을 하다가 KNN에서 K이웃의 수가 동일하거나 *데이터 가중의 불균형에 대해 의문이 들었는데, 마치고 따로 문의드려 보니 *가중KNN이라는 것도 있더라..* 데이터 가중의 불균형데이터 포인트특성레이블새로운 데이터3 데이터14A데이터22A데이터37B데이터49B데이터58B* 가중 KNN (Weighted KNN) - 각 이웃에 대한 가중치를 계산하고, 이 가중치를 사용하여 예측을 수행- 가중치는 일반적으로 거리의 역수와 같은 함수를 사용하여 계산. - 따라서 이웃과의 거리가 가까울수록 해당 이웃의 영향력이 더 ..
목표 : [오전] 머신러닝_강의 [오후] 통계학 세션, 머신러닝_과제 머신러닝은 크게 아래의 과정을 거치는 것으로 보인다.특히 모델 평가가 만족할 만한 수준이 아닌 경우는 다시 3번으로 돌아가서 유의미한 결과를 도출할 때까지 반복한다.(어떤 경우는 한 프로젝트당 20,000번을 실행하기도..?)아래 내용을 잘 인지하고 과제를 진행해야겠다. 1. 데이터 수집2. 데이터 분리&가공(train_set / test_set / valitation_set)3. 데이터 학습 1) 알고리즘 선택 2) 하이퍼파라미터 조정 3) 모델 학습4. 모델 평가 다음 목표 : [오전] 머신러닝_강의 [오후] 머신러닝 세션, 머신러닝_과제
목표 : [오전] 파이썬 300제 [오후] 통계학 세션, 머신러닝_심화 강의 수강 심화 프로젝트 전, 머신러닝 개인 과제가 지급된 날이다.오늘은 문제만 정리해뒀는데, 강의를 들을 때와 사뭇 다른 느낌이다.내일부턴 여러 시행착오를 거치며 본격적으로 풀어볼 생각이다. 파이썬 300제, 판다스 300제, 머신러닝 기초/심화 강의, 기초학습반 他반 수강, 코드카타 등할 일이 많아서인지, 유독 이번 학습주차가 짧게 느껴진다. 다음 목표 : [오전] 머신러닝_강의 [오후] 통계학 세션, 머신러닝_과제
목표 : [오전] 파이썬 세션 [오후] 머신러닝_기초 완강 ㅁ 비지도학습 - 군집화 - 고객분류,데이터분석,차원축소,이상치 탐지,준지도학습,검색엔진,이미지 분할(e.g. 자율주행) ㅇ 가우시안 : 몇개 나눌건지, 학습, 예측 순으로 기재 - 타원형이나 불규칙 데이터에 최적화 from sklearn.mixture import GaussianMixturey_pred = GaussianMixture(n_components=3, random_state=42).fit(X).predict(X)ㅇ k-means-clustering> 최초 초기값을 랜덤으로 잡고 중심값을 찾아나가는 과정 >> 초기 값에 많이 의존함 - 원형 군집데이터에 최적화 from sklearn.datasets import ..
목표 : [오전] 머신러닝 강의 수강 [오후] 통계학 세션, 머신러닝 강의 수강 통계학 세션 2회차를 수강했다.2회차는 A/B테스트와 T검정, 카이제곱검정 등을3회차는 회귀분석, 4회차는 분류,군집분석을 중점으로 학습할 예정이다. 사실 지난 프로젝트에서 카이제곱검정으로 *p-value를 사용하긴 했으나,100% 이해하고 진행한 것이 아니라 아쉬움이 많았기 때문에 이번 시간 더 집중하게 되었다. * p-value : 어떤 사건이 우연히 발생할 확률(0~1사이의 값)[세션] 통계학 라이브세션_2회차 (tistory.com) 다음 목표 : [오전] 파이썬 세션 [오후] 머신러닝 강의 수강
목표 : [오전] 코드카타, 파이썬 세션 [오후] 머신러닝 강의 수강 파이썬 학습반에서는 머신러닝 분야의 hello world라는 MNIST를 살펴보았다.고등학생과 미국 인구조사국 직원들이 손으로 쓴 약 70,000개의 이미지 데이터인데,특이한 점은 앞의 60,000개는 train data, 뒤 10,000개는 test data라는 점이었다.개인적으로 궁금했던 정밀도와 재현율에 대해서도 오차행렬을 통해 계산해보아 유익한 시간이었다.[기초학습반] Python Challenge_5회차 (tistory.com)다음 목표 : [오전] 머신러닝 강의 수강 [오후] 통계학 세션, 머신러닝 강의 수강
목표 : [오전] 코드카타, 파이썬 300제 [오후] 통계학 세션, 머신러닝 강의 수강 통계학.동일한 주제임에도 학습목표나 교수법에 따라 전달되는 양식이 확연히 달랐다. 우리의 데이터도 그렇지 않을까.분석가의 '의도'나 '상황', '역량' 등에 따라 동일한 데이터를 가공하는 수준과 방식은 천차만별일 것이다.하지만 '의도'와 '상황'은 크게는 산업군과 회사, 작게는 팀이나 개인의 사정에 의해 매번 바뀔 수 있지만,'역량'은 대개 감소하진 않고 정체되거나 증가한다.때문에 우린 의식적으로 역량을 키워나가야 한다.- 월요병의 나에게 다음 목표 : [오전] 코드카타, 파이썬 세션 [오후] 머신러닝 강의 수강