로운's 기술노트

Chapter 3. 데이터 분석 입문 (10주차_4/5) 본문

내배캠_데이터분석가_'24.04~08/회고

Chapter 3. 데이터 분석 입문 (10주차_4/5)

로운's 2024. 6. 20. 23:31
심화프로젝트 4일 차

 

어제 밤부터 원활한 딥러닝을 위해 GPU세팅을 진행했다.

로컬PC환경에 따라 Python부터 CUDA, cuDNN, TensorFlow까지 

모든 버전이 호환되어야 CPU사용에서 GPU사용으로 전환이 가능하다.

 

뭐 호환해야할 프로그램 갯수도 많지 않고 환경변수나 cmd명령어 사용, 가상환경 세팅은 경험이 있던 터라

오래 걸릴거라 생각은 안했던 것이 실책이었다.

결국 오늘 정오가 되어서야 완료하게 되었다.

나중에 들어보니 튜터님도 새로 설치하실 때마다 긴장하신다고...

 

자세한 방법은 아래 링크 클릭!

딥러닝을 위한 GPU 세팅 (tistory.com)

 

 

오후 시간엔 지난번( Chapter 3. 데이터 분석 입문 (10주차_2/5) (tistory.com) )에 적용 후보로 꼽았던 트랜스포머 모델에서 현재 data에 가장 적합한 모델을 search하고

최종 선택, 해당 모델 학습, 프로젝트 스토리텔링 구상 등으로 시간이 삭제되었다.

 

Hugging Face의 transformers 라이브러리 중, BERT 파생 모델

1. BERT (Bidirectional Encoder Representations from Transformers)  > 균형 잡힌 성능과 자원 사용
- 특징: 양방향 트랜스포머 인코더를 사용하여 문맥을 양방향으로 이해합니다.
           원본 BERT는 높은 성능을 자랑하지만, 학습 및 추론 시 많은 자원과 시간이 필요합니다.
- 장점: 높은 정확도, 다양한 NLP 작업에서 좋은 성능.
- 단점: 큰 모델 크기, 높은 계산 자원 요구.
- 사용 사례: 텍스트 분류, 질문 응답, 명명 엔터티 인식(NER), 문장 유사도 측정 등.

2. RoBERTa (Robustly optimized BERT approach)  > 최고 성능이 필요한 경우
- 특징: BERT의 학습 방법을 개선하여 더 많은 데이터와 더 긴 학습 시간을 통해 성능을 향상시킨 모델입니다.
           BERT와 동일한 구조를 가지고 있지만, 학습 과정의 최적화로 인해 더 높은 성능을 보입니다.
- 장점: BERT보다 더 나은 성능, 개선된 학습 과정.
- 단점: 여전히 큰 모델 크기와 높은 계산 자원 요구.

3. DistilBERT  > 자원 제한 및 실시간 응답이 필요한 경우
- 특징: BERT의 경량화 버전. BERT기준 약 60% 크기와 40% 더 빠른 속도를 자랑하며, 성능은 97% 이상 유지합니다. 주로 경량화와 효율성을 중시하는 상황에서 사용됩니다.
- 장점: 더 작은 모델 크기, 더 빠른 학습 및 추론 속도, 적은 자원 요구.
- 단점: 약간의 성능 저하.

 

 

그리고 오늘 새로 배운 개념! 

CountVectorizer
- 단어들의 카운트(출현 빈도(frequency))로 여러 문서들을 벡터화.
- 카운트 행렬, 단어 문서 행렬 (Term-Document Matrix, TDM))
- 모두 소문자로 변환시키는 특성
cv = CountVectorizer(max_features = 2000)  # 상위 빈도의 단어 2,000개 추출

 

Comments