Skip to content

Latest commit

 

History

History
44 lines (30 loc) · 2.41 KB

02.Kaggle-Flow.md

File metadata and controls

44 lines (30 loc) · 2.41 KB

Kaggle Flow

  • 해당 문서에선 제가 Kaggle을 진행하는 방법을 공유해보려고 합니다!
  • 저는 아래와 같은 Flow로 프로젝트를 진행합니다(큼직한 것만 적어두었습니다)

평가 지표 확인

  • Competition마다 평가 지표가 다릅니다. Accuracy일 경우, Log error, MSE, MAP 등 다양한 지표를 대회에서 사용하고 있습니다. 매 대회마다 지표의 특징을 구글링해서 찾아보세요-! 하나씩 쌓아두면 좋은 자산이 될거에요 :)

Data EDA

  • EDA : 탐색적 자료 분석을 실시합니다
  • 예시는 분포 파악, 결측치 파악을 들었지만 다양하게 진행할 수 있습니다
  • Pandas에서 Groupby 후 중분류별 Feature Count를 하거나 주어진 Feature를 그대로 사용하는 경우도 있습니다
  • 스스로 EDA를 진행해본 후, 커널에 올라온 EDA를 참고해보세요! 스스로 EDA를 하지 않고 커널 EDA를 보는 경우가 빠르게 진행할 수 있어 좋지만 배우는 입장에선 EDA 코드 하나 하나 직접 짜보는 것도 좋습니다!

Data Preprocess

  • 데이터 전처리 단계입니다
  • 이 부분은 도메인마다 정말 다양한 전처리 방법이 존재할 것 같습니다
  • 결측값, 명목형 변수, Outlier 등을 처리하곤 합니다
  • 이미지 데이터의 경우 학습을 위해 이미지 사이즈를 수정하거나 Data Augumentation!

Single Model

  • 위에서 진행한 데이터를 통해 단일 모델을 구축해보세요!
  • 현재는 등수가 낮을 수 있습니다! 하지만 처음에 낮은 등수라면 계속 올라갈 수 있다는 희망이 존재하니까 처음엔 낙담하지 마세요!
  • Random Forest, Xgboost, Lgbm, Catboost 등의 알고리즘을 많이 사용하고 있습니다

Feature Engineering

  • Feature Engineering!!!! 정말 핵심입니다
  • 다양한 변수를 만들어보세요. 그 변수를 통해 다시 모델에 넣고 점수가 개선되는지 파악해보세요!
  • 초반에 FE가 정말 중요해요!! 무한 반복으로 수행해주세요

Stacking

  • FE를 통해 나온 데이터를 다양한 모델에 넣어서 결과를 예측해보세요!
  • 그 결과들을 Stack해서 다시 제출해보세요
  • 0.7 * A model + 0.3 * B model 등.. 다양한 방식으로 할 수 있습니다
  • StackNet을 참고하면 좋을 것 같습니다!