기계학습을 활용한 주제 중, 스포츠를 주제로 선정하게 되었고, 그 중 데이터가 잘 정형화되어있는 야구를 주제로 선정하게 되었습니다.
그래서 KIA 경기의 이닝별 승부 예측을 주제로 데이터들을 비율화한 후 승/패로 이진분류하여 각 이닝 별 승리 확률 예측 모델을 구상하게 되었습니다.
STATIZ (야구 통계 사이트) 에서 기아 경기 데이터 수집
각 이닝 별 승패 예측이 주제이기 때문에, 데이터들을 이닝 별로 비율화 해주었음
그 후 데이터들을 train, test data 로 8:2의 비율로 나눠 학습을 진행
랜덤 포레스트 활용
여러 부스트 계열 모델과 비교했을 때, 이상치를 걸러내는 작업을 해주지 못했고, rmse 값이 가장 낮았던 랜덤 포레스트를 최종적으로 선택
테스트 케이스 : 8경기 (승 : 4 / 패 : 4)