- 딥러닝 학습의 경우, 기존 학습의 종료를 사람이 확인하고 다음 학습을 실행
기존 작업의 종료~다음 작업의 시작
시간동안 gpu 자원이 유휴상태- gpu 가 작업 진행 중인지 사람이 확인
- 메타 정보를 통해 예약만 해두면 기존 작업이 끝나는 대로 자동으로 다음 학습을 진행
- gpu 자원의 유휴상태를 최소화
- 작업 진행여부를 이메일로 알람
- 회원가입을 통해 로그인을 한다.
- 기존 등록되어 있는 GpuServer 에 학습을 진행하고 싶은 job 을 등록할 수 있다.
- job 등록에서 job 메타데이터 정보와 서버를 선택하여 예약할 수 있다.
- 학습의 진행사항은 job 조회 페이지에서 확인 가능하다.
- 상태:
대기중
,진행중
,완료
,취소
진행중
,완료
인 작업에 대해 상세조회가 가능하다.- 실시간으로 학습 진행 로그 확인
- accuracy & loss / epoch 그래프
대기중
인 작업에 대해서만 예약을취소
할 수 있다.
- 상태:
- 자동으로 다음 예약된 작업이 실행된다.
- 학습 시작, 종료 에 등록된 이메일로 알림을 보내준다.
- front-end
- back-end
- infra
- Github Actions 를 통한 CI, jenkins 를 통한 CD를 구축
- 프론트 서버, 백 서버, GpuManager, ELK 통신 흐름
- 백 서버와 GpuManager 사이에서 job 에 대한 상태에 대한 http 통신
- ELK 를 도입하여 job 에 대한 로그관리
- GM 에뮬레이터 동작 방법
- private configuration 설정파일 정보
- GM 로그 관리를 위한 ELK Stack 설정 방법
- 배럴, 완태의 Elastic Stack 적용기
- PageableHandlerMethodArgumentResolver Customize 하기 by 완태
- 젠킨스 jdk 11로 버전 업그레이드 해왔어요!!!
- 코드의 악취를 확인해보자 - Sonarqube
- 우리 프로젝트는 RESTful 할까요? - Self descriptive와 HATEOS / 대부분 못 지키고 있는 REST 제약조건
- 우리 팀이 flyway를 적용했으면 하는 이유
- 서브 모듈 프로젝트에 적용하기 by 완태
- 배럴의 자바 코드 정적분석 checkstyle 도입하기
- 배럴, 마갸의 JobQueue 기술 선택하기 - redis, rabbitMQ, kafka
- LazyInitializationException 처리하기
- 우리 팀 로깅 전략
- 코기, 완태의 젠킨스 적용기
- 슬랙으로 깃헙 이벤트 받기