본문 바로가기
STUDY 기록/ML DL

[ML] 머신러닝 문제해결 프로세스(머신러닝 딥러닝 문제해결 전략)

by TREEKIM 2022. 11. 9.

문제 이해

- 문제 배경, 목적, 유형
- 평가 지표 파악

탐색적 데이터 분석(EDA)

어떤 피처가 중요한지, 어떤 피처를 조합할지, 어떤 점을 주의할지 등 인사이트 얻기 

- 데이터 구조 탐색
- 데이터 시각화(중요 피처 파악)

데이터 전처리

- 결측치 처리
- 이상치 처리

모델 성능 개선

1. 다양한 모델 시도

2. 데이터 가공
- 새로운 피처 만들기 및 제거
- 데이터 인코딩
- 피처 스케일링
- 이상치 제거 및 결측치 처리

3. 하이퍼 파라미터 최적
- 그리드 서치
- 랜덤 서치
- 베이지안 최적화

성능 검증

- 교차검증


EDA 체크리스트

데이터 탐색

- 데이터 양(레코드 수, 피처 수, 전체 용량 등)
- 피처 이해(이름, 의미, 데이터 타입, 결측치 개수, 고윳값 개수, 실제값, 데이터 종류 등)
- 훈련 데이터와 테스트 데이터 차이
- 타겟 값

데이터 시각화

1. 수치형 데이터 시각화
- 히스토그램
- 커널밀도추정
- 분포도
- 러그 플롯

2. 범주형 데이터 시각화
- 막대 그래프
- 포인트 플롯
- 박스플롯
- 바이올린 플롯
- 카운트 플롯

3. 데이터 관계 시각화
- 히트맵
- 라인플롯
- 산점도
- 산점도 + 회귀선

피처 파악

- 추가할 피처 : 
- 제거할 피처 :
- 피처별 인코딩 전략 :

이상치 파악

- 해당 피처별 처리 방법 :


Base Line Model 체크리스트

- 평가 지표
- 모델
- 최종 예측 private/public 점수


성능 개선 체크리스트

피처 엔지니어링

- 이상치 제거
- 결측값 처리
- 데이터 인코딩
- 타입 변경
- 파생 피처 생성
- 시차 피처 생성(시계열 데이터인 경우)
- 피처 스케일링
- 피처명 한글화
- 데이터 다운캐스팅
- 데이터 조합 생성
- 필요 없는 피처 제거

하이퍼 파라미터 최적화

- 하이퍼파라미터 종류와 의미 파악
- 선별
   1. 최적화할 하이퍼파라미터
   2. 고정할 하이퍼파라미터
- 값 범위 설정
- 최적화 기법 : 그리드서치, 베이지안서치, OOF 예측 등


공부 교재 정보

 

Must Have 머신러닝·딥러닝 문제해결 전략 - YES24

문제해결 방식에 정답은 없어도 패턴은 있다이 책에는 수많은 캐글 수상자의 노트북을 리팩터링하며 찾아낸 공통된 패턴이 담겨 있다. 이 책과 함께 체계적인 머신러닝·딥러닝 문제해결 프로

www.yes24.com

 

댓글