ByteTok은 Bytecode Tokenizer의 줄임말로 자바를 비롯한 JVM 환경에서 실행되기 위하여 생성되는 바이트코드를 Large Language Model의 학습을 위해 parsing/tokenization하는 도구입니다.
- 해당 프로젝트는 Gradle로 빌드되기 때문에 프로젝트 gradle 버전(8.7)과 호환되는 자바가 설치되어 있어야 합니다.
- 해당 저장소를 clone 한 뒤, IDE나 터미널에서
gradle
을 실행시켜야 합니다.
- 바이트코드의 특성상 해당 프로젝트는 테스트가 중요합니다. 버그나 이슈가 생기면 GitHub Issue를 작성해주세요.
- 또한 자유롭게 PR을 작성 해주시는 방법으로 프로젝트에 기여할 수 있습니다.
ByteTok은 Apache License 2.0을 따릅니다. 자세한 내용은 License 파일을 참조해주세요.