Skip to content

woowacourse-teams/2021-gpu-is-mine

Repository files navigation

딥러닝 학습 자동화 서비스


서비스 소개

동영상

기존현황

  • 딥러닝 학습의 경우, 기존 학습의 종료를 사람이 확인하고 다음 학습을 실행
  • 기존 작업의 종료~다음 작업의 시작 시간동안 gpu 자원이 유휴상태
  • gpu 가 작업 진행 중인지 사람이 확인

서비스

  • 메타 정보를 통해 예약만 해두면 기존 작업이 끝나는 대로 자동으로 다음 학습을 진행
  • gpu 자원의 유휴상태를 최소화
  • 작업 진행여부를 이메일로 알람

사용방법

  1. 회원가입을 통해 로그인을 한다.
  2. 기존 등록되어 있는 GpuServer 에 학습을 진행하고 싶은 job 을 등록할 수 있다.
  3. job 등록에서 job 메타데이터 정보와 서버를 선택하여 예약할 수 있다.
  4. 학습의 진행사항은 job 조회 페이지에서 확인 가능하다.
    • 상태: 대기중, 진행중, 완료, 취소
    • 진행중, 완료인 작업에 대해 상세조회가 가능하다.
      • 실시간으로 학습 진행 로그 확인
      • accuracy & loss / epoch 그래프
    • 대기중인 작업에 대해서만 예약을 취소할 수 있다.
  5. 자동으로 다음 예약된 작업이 실행된다.
  6. 학습 시작, 종료 에 등록된 이메일로 알림을 보내준다.

업데이트 로그


기술

스택

  • front-end
  • back-end
  • infra

서비스 플로우

  • Github Actions 를 통한 CI, jenkins 를 통한 CD를 구축 자동배포
  • 프론트 서버, 백 서버, GpuManager, ELK 통신 흐름 전체데이터흐름
  • 백 서버와 GpuManager 사이에서 job 에 대한 상태에 대한 http 통신 job통신
  • ELK 를 도입하여 job 에 대한 로그관리 logs

TechLogs

FE

BE


팀원

콜린 동동 배럴 코기 완태 마갸 에드
콜린 동동 배럴 코기 완태 마갸 에드
front-end front-end back-end back-end back-end back-end back-end