문제 이해
- 문제 배경, 목적, 유형
- 평가 지표 파악
탐색적 데이터 분석(EDA)
어떤 피처가 중요한지, 어떤 피처를 조합할지, 어떤 점을 주의할지 등 인사이트 얻기
- 데이터 구조 탐색
- 데이터 시각화(중요 피처 파악)
데이터 전처리
- 결측치 처리
- 이상치 처리
모델 성능 개선
1. 다양한 모델 시도
2. 데이터 가공
- 새로운 피처 만들기 및 제거
- 데이터 인코딩
- 피처 스케일링
- 이상치 제거 및 결측치 처리
3. 하이퍼 파라미터 최적
- 그리드 서치
- 랜덤 서치
- 베이지안 최적화
성능 검증
- 교차검증
EDA 체크리스트
데이터 탐색
- 데이터 양(레코드 수, 피처 수, 전체 용량 등)
- 피처 이해(이름, 의미, 데이터 타입, 결측치 개수, 고윳값 개수, 실제값, 데이터 종류 등)
- 훈련 데이터와 테스트 데이터 차이
- 타겟 값
데이터 시각화
1. 수치형 데이터 시각화
- 히스토그램
- 커널밀도추정
- 분포도
- 러그 플롯
2. 범주형 데이터 시각화
- 막대 그래프
- 포인트 플롯
- 박스플롯
- 바이올린 플롯
- 카운트 플롯
3. 데이터 관계 시각화
- 히트맵
- 라인플롯
- 산점도
- 산점도 + 회귀선
피처 파악
- 추가할 피처 :
- 제거할 피처 :
- 피처별 인코딩 전략 :
이상치 파악
- 해당 피처별 처리 방법 :
Base Line Model 체크리스트
- 평가 지표
- 모델
- 최종 예측 private/public 점수
성능 개선 체크리스트
피처 엔지니어링
- 이상치 제거
- 결측값 처리
- 데이터 인코딩
- 타입 변경
- 파생 피처 생성
- 시차 피처 생성(시계열 데이터인 경우)
- 피처 스케일링
- 피처명 한글화
- 데이터 다운캐스팅
- 데이터 조합 생성
- 필요 없는 피처 제거
하이퍼 파라미터 최적화
- 하이퍼파라미터 종류와 의미 파악
- 선별
1. 최적화할 하이퍼파라미터
2. 고정할 하이퍼파라미터
- 값 범위 설정
- 최적화 기법 : 그리드서치, 베이지안서치, OOF 예측 등
공부 교재 정보
Must Have 머신러닝·딥러닝 문제해결 전략 - YES24
문제해결 방식에 정답은 없어도 패턴은 있다이 책에는 수많은 캐글 수상자의 노트북을 리팩터링하며 찾아낸 공통된 패턴이 담겨 있다. 이 책과 함께 체계적인 머신러닝·딥러닝 문제해결 프로
www.yes24.com
댓글