AI 법률 어드바이저 모델 개발
KoAlpaca 모델에 법률 데이터를 학습시켜 (LoRA finetuning) 법률 자문을 해줄 수 있는 언어모델을 개발한다.
Pretrained model link : hyunseoki/ko-en-llama2-13b
생활 법령 100문 100답 데이터 2,195개를 스크랩 하여 LLM 학습을 위한 대화 형식의 json 파일로 만들어놓았습니다.
huggingface dataset에도 올려놓았습니다.
datasets library에서 이 dataset을 바로 불러올 수 있습니다 :
from datasets import load_dataset
dataset = load_dataset("juicyjung/easylaw_kr")
생활법령 데이터 저작권 정책 : https://www.easylaw.go.kr/CSP/InfoCopyright.laf
"누구에게나 개방되어있으며, 영리 목적을 포함하여 모든 자유로운 활동이 보장됩니다."
이 프로젝트에 대한 Contributions는 언제나 환영입니다. 특히 데이터 힘들게 수집했으니 많은 후속 연구 부탁드립니다!!
문제가 발견되거나 제안사항이 있으면 이 repository에 issue를 열어 주세요.
감사합니다.