Record the embedding study history.
- This course meets for in-class lecture Wed 16:00PM - 18:00PM (Seminar room No.4 at KISTI).
- Kyong-Ha Lee
- Dong-Hun Yang
- Ik-Je Choi
- Ju-Yeon Yu
- Book:
본 레파지토리의 디렉토리 및 코드 구조는 다음과 같습니다.
docker
: 도커 환경 구성을 위한Dockerfile
이 있습니다. CPU, GPU 버전을 구분합니다.docs
: 튜토리얼 페이지와 관련한 마크다운 문서 등이 있습니다.models
: 임베딩 기법 관련 핵심 코드가 모여 있습니다.bert
: BERT 모델 (저자 original 코드)bilm
: ELMo 모델 (저자 original 코드)swivel
: Swivel 모델 (저자 original 코드)xlnet
: XLNet 모델 (저자 original 코드)sent_eval.py
: 문장 임베딩 평가 코드sent_utils.py
: 문장 임베딩 학습 관련 유틸train_elmo.py
: ELMo 프리트레인 코드 (저자 original 코드, 하이퍼파라미터 일부 수정)tune_utils.py
: 임베딩 파인튜닝 관련 유틸visualize_utils.py
: 임베딩 시각화 관련 유틸word_eval.py
: 단어 임베딩 평가 코드word_utils.py
: 단어 임베딩 학습 관련 유틸
preprocess
: 말뭉치 전처리 관련 코드가 모여 있습니다.dump.py
: 원시 말뭉치(raw corpus)를 1개 라인(line)이 1개 문서인 순수 텍스트 파일로 변환하는 유틸mecab-user-dic.csv
: 은전한닢(mecab) 형태소 분석기의 사용자 사전을 추가하기 위한 입력 파일supervised_nlputils.py
: KoNLPy, Khaiii 등 지도학습 기반 형태소 분석기 유틸unsupervised_nlputils.py
: soynlp, sentencepiece 등 비지도학습 기반 형태소 분석기 유틸
preprocess.sh
: 말뭉치 전처리 자동화 스크립트 모음sentmodel.sh
: 문장 수준 임베딩 자동화 스크립트 모음wordmodel.sh
: 단어 수준 임베딩 자동화 스크립트 모음
Event | Date | In-class lecture | Materials and Assignments |
---|---|---|---|
Lecture 1 | 03/03 | Course Introduction | |
Lecture 2 | 03/10 | 01. 서론
|
Presenter:
|
Lecture 3 | 03/17 | 02. 벡터가 어떻게 의미를 가지게 되는가
|
Presenter:
|
Lecture 4 | 03/24 | 03. 한국어 전처리
|
Presenter:
|
Lecture 5 | 04/01 | 04. 단어 수준 임베딩
|
Presenter:
|
Lecture 6 | 04/07 | Field study | Presenter:유주연 |
Lecture 7 | 04/15 | 04. 단어 수준 임베딩
|
Presenter:
|
Lecture 8 | 04/21 | Field study | Presenter:유주연 |
Lecture 9 | 04/29 | 05. 문장 수준 임베딩
|
Presenter:
|
Lecture 10 | 05/17 | 05. 문장 수준 임베딩
|
Presenter:
|
Lecture 11 | 05/26 | 05. 문장 수준 임베딩
|
Presenter:
|
Lecture 12 | 06/16 | 06. 임베딩 파인 튜닝
|
Presenter:
|
Lecture 13 | 06/29 | 06. 임베딩 파인 튜닝
|
Presenter:
|