전체 글 117

딥러닝을 위한 GPU 세팅 (Window 기준)

CUDA 다운로드 및 설치cuDNN 다운로드 및 설치Python 설치Tensor Flow 설치Tensor Flow GPU 인식 확인ㅇ 적용 예시 (하위 4종의 버전 호환이 중요!)CUDA ToolkitNVIDIA에서 제공하는 병렬 컴퓨팅 플랫폼11.2CUDA 다운로드cuDNN딥러닝을 위한 NVIDIA의 GPU 가속 라이브러리8.1cuDNN 다운로드Python범용 프로그래밍 언어3.8.6Python 다운로드TensorFlow오픈 소스 딥러닝 프레임워크(or PyTorch)2.10.0TensorFlow 설치 가이드ㅇ 준비하드웨어 준비GPU가 장착된 컴퓨터를 준비합니다. NVIDIA GPU드라이버 설치NVIDIA 최신 드라이버를 설치합니다. 이는 GPU가 제대로 동작하기 위해 필수입니다.NVIDIA 드라이버 ..

[분석] 파이썬 2024.06.20

Chapter 3. 데이터 분석 입문 (10주차_3/5)

심화프로젝트 3일 차 어제 하던 단어 토큰화와 정규화를 보완하고 TF-IDF를 적용해 보았다.정규화 참 오랜만에 써보는 듯하다 그러나 막상 적용해 보니 인코딩이 깨지는 부분이 발생하였다.여러 방법을 찾아보다가 utf-8로 정착하였다. (처음엔 오류 나던 녀석이...)# df = pd.read_csv(file_address, encoding="latin1") # 기존_text일부 깨짐# df = pd.read_csv(file_address, encoding="iso-8859-1") # text일부 깨짐# df = pd.read_csv(file_address, encoding="utf-16") # 에러 UnicodeError: UTF-16 stream does not start with BOM# df ..

Chapter 3. 데이터 분석 입문 (10주차_2/5)

심화 프로젝트 2일 차.오늘은 어제 이미지 범주화를 진행하다 발견한 문제를 해결해보려 한다.사실 이미지 상위 5종은 디폴트 이미지(프로필사진 미설정)이고 하위 5종은 404 error로 자칫 성별을 유추할 수 있을 것으로 보이는 컬럼이 날아가게 될 상황이다. 이에 response code가 200인 것을 걸러 유효이미지의 숫자를 파악해보고자 한다.이 작업의 결과에 따라 이미지 컬럼을 사용할 수 있을지 없을지가 달려있다.# 유효 이미지 분류기import requestsdef is_image_url(url): try: response = requests.get(url) if response.status_code == 200: content_type = res..

Chapter 3. 데이터 분석 입문 (10주차_1/5)

심화 프로젝트가 시작되었다.일정은 24.06.17(월) 09:00 ~24.06.24(월) 21:00까지 제출로 총 8일간 진행된다.데이터셋은 meta-data의 '트위터 사용자 성별 분류 프로젝트'이다. 무엇보다 팀 프로젝트인 만큼 팀원들과 방향성을 맞추어 가는 것이 중요하다고 생각한다.때문에 사전에 프로젝트 목표뿐 아니라 회의방식, 프로젝트 방향, 업무 role, 세부일정 등 많은 것을 정해두었다.그러면 막연히 진행하는 것보다 프로젝트 흐름을 알기도 쉽고, 계획이 일부 틀어져도 대응이 수월하다.스트레스도 안받는걸보니 p화가 되어가나- 4명으로 시작하는 만큼 더욱 똘똘 뭉쳐서 최선의 결과를 도출하는 것이 최우선 과제라고 볼 수 있겠다.많은 회의와 튜터님들 조언을 참고하여 3가지 분야로 나누어 전처리를 진..

Chapter 3. 데이터 분석 입문 (9주차_5/5)

목표 : [오전] 머신러닝 군집(Clustering)_세션           [오후] 머신러닝_과제 제출 ML_비지도학습_군집분석(Clustering)ㅇ 정의 : 피쳐(컬럼) 유사성의 개념을 기반으로 전체데이터셋을 그룹으로 나누는 그룹핑 기법 (각 그룹 = 클러스터)    ㅇ 프로세스  1. 전처리 pre-processing1) 기간 설정 : 통상적으로 3개월~1년의 data. 그러나 목적과 의도에 따라 유연하게 대처 (but, 1주일은 무리!)2) 이상치 기준설정 및 제거 : 다양하게 사용해보고 비교하기  . Z-Score데이터의 분포가 정규 분포를 이룰 때, 데이터의 표준 편차를 이용해 이상치를 탐지각 데이터(행) 마다 Z-score 를 구합니다. Z(표준점수) 값은 X에서 평균을 뺀 데이터를 표준편..

Chapter 3. 데이터 분석 입문 (9주차_3/5)

목표 : [오전] 머신러닝 분류(Clasification)_세션           [오후] 머신러닝_과제  머신러닝의 지도학습 중 '분류' 라이브세션을 수강했다.대표적인 4가지 기법을 알게 되었다.수강을 하다가 KNN에서 K이웃의 수가 동일하거나 *데이터 가중의 불균형에 대해 의문이 들었는데, 마치고 따로 문의드려 보니 *가중KNN이라는 것도 있더라..* 데이터 가중의 불균형데이터 포인트특성레이블새로운 데이터3 데이터14A데이터22A데이터37B데이터49B데이터58B* 가중 KNN (Weighted KNN) - 각 이웃에 대한 가중치를 계산하고, 이 가중치를 사용하여 예측을 수행- 가중치는 일반적으로 거리의 역수와 같은 함수를 사용하여 계산. - 따라서 이웃과의 거리가 가까울수록 해당 이웃의 영향력이 더 ..

Chapter 3. 데이터 분석 입문 (9주차_2/5)

목표 : [오전] 머신러닝_강의           [오후] 통계학 세션, 머신러닝_과제 머신러닝은 크게 아래의 과정을 거치는 것으로 보인다.특히 모델 평가가 만족할 만한 수준이 아닌 경우는 다시 3번으로 돌아가서 유의미한 결과를 도출할 때까지 반복한다.(어떤 경우는 한 프로젝트당 20,000번을 실행하기도..?)아래 내용을 잘 인지하고 과제를 진행해야겠다. 1. 데이터 수집2. 데이터 분리&가공(train_set / test_set / valitation_set)3. 데이터 학습  1) 알고리즘 선택  2) 하이퍼파라미터 조정  3) 모델 학습4. 모델 평가 다음 목표 : [오전] 머신러닝_강의                    [오후] 머신러닝 세션, 머신러닝_과제

Chapter 3. 데이터 분석 입문 (9주차_1/5)

목표 : [오전] 파이썬 300제           [오후] 통계학 세션, 머신러닝_심화 강의 수강 심화 프로젝트 전, 머신러닝 개인 과제가 지급된 날이다.오늘은 문제만 정리해뒀는데, 강의를 들을 때와 사뭇 다른 느낌이다.내일부턴 여러 시행착오를 거치며 본격적으로 풀어볼 생각이다. 파이썬 300제, 판다스 300제, 머신러닝 기초/심화 강의, 기초학습반 他반 수강, 코드카타 등할 일이 많아서인지, 유독 이번 학습주차가 짧게 느껴진다. 다음 목표 : [오전] 머신러닝_강의                    [오후] 통계학 세션, 머신러닝_과제

Chapter 3. 데이터 분석 입문 (8주차_4/4)

목표 :  [오전] 파이썬 세션             [오후] 머신러닝_기초 완강 ㅁ 비지도학습 - 군집화 - 고객분류,데이터분석,차원축소,이상치 탐지,준지도학습,검색엔진,이미지 분할(e.g. 자율주행) ㅇ 가우시안 : 몇개 나눌건지, 학습, 예측 순으로 기재 - 타원형이나 불규칙 데이터에 최적화 from sklearn.mixture import GaussianMixturey_pred = GaussianMixture(n_components=3, random_state=42).fit(X).predict(X)ㅇ k-means-clustering> 최초 초기값을 랜덤으로 잡고 중심값을 찾아나가는 과정 >> 초기 값에 많이 의존함 - 원형 군집데이터에 최적화 from sklearn.datasets import ..

[세션] 통계학 라이브세션_2회차

[목표]데이터의 통계적 실험을 이해대표적인 통계적 실험인 A/B 테스트 이론을 학습이를 해석하기 위한 통계적 지식을 학습통계적 유의성, t검정, 카이제곱검정을 이해이를 python 코드로 작성하며 활용 1. 데이터 분석가의 통계적 실험 ㅇ 통계적 실험- 정의 • 어떤 목적을 가지고 관찰을 통해 측정값을 얻어내는 것- 목적 • 통계적 추론을 통해 보다 진실에 가까운 값을 도출하기 위함 ———————————————————————————————————▷ 제한된 환경에서의 관찰을 통해 확보된 사실을 바탕으로 제한된 결론을 내리고, 확률적 판단으로 제한된 결론을 내려 진실에 가까운 값 도출▷e.g. 모든 까마귀는 검정색이다. → 모든 까마귀가 검정색이 아닐 수도 있다 → 하지만 전 세계에 있는 까마귀를 모두 확인..

[분석] 통계 2024.06.05