로운's 기술노트

Chapter 3. 데이터 분석 입문 (7주차_2/3) 본문

내배캠_데이터분석가_'24.04~08/회고

Chapter 3. 데이터 분석 입문 (7주차_2/3)

로운's 2024. 5. 30. 22:37
목표 : [오전] 코드카타, 파이썬 챌린지반 수강(4 / 6회차)
           [오후] 통계학 복습, 파이썬 300제

 

 

[Python 챌린지_4회차]

ㅇ 머신러닝 평가

- 중간평가는 validation 데이터로, 최종평가는 test데이터로 진행

  (학습데이터 평가는 잘나오는 것이 당연하기 때문에 무의미함. 오차 0)
  * validation은 원 데이터에서 분리. (cross_validation을 사용)

 

- validation 데이터 평가 결과를 가지고 하이퍼파라미터를 진행
  * 하이퍼파라미터 : 사람이 조절하는 파라미터
그리드서치(grid_search),랜덤서치(rnd_search) : 한 모델에 하이퍼파라미터를 할 때, 사용

- Test데이터 최종테스트는 1회만 진행

 

ㅇ 선형회귀

Yᵢ (종속변수) = β₀ (절편, 편향) + β₁ (기울기) Xᵢ (독립변수)

학습률


ㅇ 경사 하강법

 : 선형회귀 모델의 파라미터를 학습하는데 사용되는 주요 최적화 알고리즘 중 하나로 머신러닝, 딥러닝 등에 자주 사용됨.

1) 배치 경사 하강법 : 모든 학습데이터를 사용하여 경사를 구함. 안정적이지만 계산비용이 많이 들어감.

2) 확률적 경사 하강법 : 랜덤한 하나의 학습데이터만 골라서 *그래디언트 수행(빠르지만 불안정함)

3) 미니 배치 경사 하강법 : 위 2가지의 절충안으로 임의로 몇개의 샘플로 경사를 구함(사용 빈도 多)

  * '기울기'보단 '그래디언트(Gradient)'가 좀더 적합한 표현

     (그래디언트란? 다변수 함수에서 각 변수에 대한 변화율을 나타내는 벡터로, 함수의 기울기 방향과 크기를 포함한)

 

- 학습율

: 너무 클 경우, 빠르지만 최적화가 어려움.

  반대로 너무 작으면 오래 걸리고, 전역최솟값(local minimun)에 빠질 수 있음.

 

 

다음 목표 : [오전] 코드카타
                   [오후] 통계학 복습, 파이썬 300제
Comments