공부

[혼공학습단11기] 혼공머신 4주차

Steboong 2024. 1. 27. 15:25
  • 결정트리 : 예 / 아니오에 대한 질문을 이어나가면서 정답을 찾아 학습하는 알고리즘. 비교적 예측 과정을 이해하기 쉽고 성능도 뛰어남
  • 불순도 : 결정트리가 최적의 질문을 찾기 위한 기준. 사이킷런은 지니 불순도와 엔트로피 불순도를 제공.
  • 정보 이득 : 부모노드와 자식노드의 불순도 차이. 결정트리 알고리즘은 정보이득이 최대화되도록 학습
  • 가지치기 : 결정트리의 성장을 제한하는 방법. 결정트리는 제한 없이 성장하면 훈련세트에 과대적합되기 쉬움.
  • 특성 중요도 : 결정트리에 사용된 특성이 불순도를 감소하는데 기여한 정도를 나타내는 값. 특성 중요도의 계산은 결정트리의 큰 장점

scikit-learn

DecisionTreeClassifier

: 결정트리 분류 클래스

 

  • 검증세트 : 하이퍼파라미터 튜닝을 위해 모델을 평가할 때, 테스트 세트를 사용하지 않기 위해 훈련 세트에서 다시 떼어낸 데이터의 세트
  • 하이퍼파라미터 튜닝 : 모델이 학습할 수 없어서 사용자가 지정해야만 하는 파라미터 --> 하이퍼파라미터.
  • AutoML : 사람의 개입 없이 하이퍼파라미터 튜닝을 자동으로 수행하는 기술
  • 교차검증 : 훈련 세트를 여러 폴드로 나눈 다음 한 폴드가 검증 세트의 역할을 하고 나머지 폴드에서는 모델을 훈련. 이런 식으로 모든 폴드에 대해 검정 점수를 얻어 평균하는 방법

[기본 미션]

scikit-learn

cross_validate()
: 교차검증 수행 함수

 

정형 데이터와 비정형 데이터

정형 데이터 --> 앙상블 학습

비정형 데이터 --> 신경망 알고리즘

 

부트스트랩 샘플 : 중복을 허용하여 샘플링한 데이터

 

[선택미션]

[선택 미션]

음... 공부 4주차... 단어 의미를 영어로 봐도 한글로 봐도 왜 저런 말을 쓰는 것인지 이해가 잘 안되지만...

이렇게라도 안하면 아마 이 책 1/3도 못 봤을 듯... 절반 남았다 휴우...

반응형