Skip to content

bart7449/korean-embedding

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

37 Commits
 
 

Repository files navigation

korean-embedding(Spring 2021)

Record the embedding study history.

Course Information

  • This course meets for in-class lecture Wed 16:00PM - 18:00PM (Seminar room No.4 at KISTI).

Peoples

Materials

  • Book:

code

본 레파지토리의 디렉토리 및 코드 구조는 다음과 같습니다.

  • docker : 도커 환경 구성을 위한 Dockerfile이 있습니다. CPU, GPU 버전을 구분합니다.
  • docs : 튜토리얼 페이지와 관련한 마크다운 문서 등이 있습니다.
  • models : 임베딩 기법 관련 핵심 코드가 모여 있습니다.
    • bert : BERT 모델 (저자 original 코드)
    • bilm : ELMo 모델 (저자 original 코드)
    • swivel : Swivel 모델 (저자 original 코드)
    • xlnet : XLNet 모델 (저자 original 코드)
    • sent_eval.py : 문장 임베딩 평가 코드
    • sent_utils.py : 문장 임베딩 학습 관련 유틸
    • train_elmo.py : ELMo 프리트레인 코드 (저자 original 코드, 하이퍼파라미터 일부 수정)
    • tune_utils.py : 임베딩 파인튜닝 관련 유틸
    • visualize_utils.py : 임베딩 시각화 관련 유틸
    • word_eval.py : 단어 임베딩 평가 코드
    • word_utils.py : 단어 임베딩 학습 관련 유틸
  • preprocess : 말뭉치 전처리 관련 코드가 모여 있습니다.
    • dump.py : 원시 말뭉치(raw corpus)를 1개 라인(line)이 1개 문서인 순수 텍스트 파일로 변환하는 유틸
    • mecab-user-dic.csv : 은전한닢(mecab) 형태소 분석기의 사용자 사전을 추가하기 위한 입력 파일
    • supervised_nlputils.py : KoNLPy, Khaiii 등 지도학습 기반 형태소 분석기 유틸
    • unsupervised_nlputils.py : soynlp, sentencepiece 등 비지도학습 기반 형태소 분석기 유틸
  • preprocess.sh : 말뭉치 전처리 자동화 스크립트 모음
  • sentmodel.sh : 문장 수준 임베딩 자동화 스크립트 모음
  • wordmodel.sh : 단어 수준 임베딩 자동화 스크립트 모음

Reference

Syllabus

Event Date In-class lecture Materials and Assignments
Lecture 1 03/03 Course Introduction
Lecture 2 03/10 01. 서론
  • 1.1 임베딩이란
  • 1.2 임베딩의 역할
  • 1.3 임베딩 기법의 역사와 종류
  • 1.4 주요 용어
Presenter:
Lecture 3 03/17 02. 벡터가 어떻게 의미를 가지게 되는가
  • 2.1 자연어 계산과 이해
  • 2.2 어떤 단어가 많이 쓰였는가
  • 2.3 단어가 어떤 순서로 쓰였는가
  • 2.4 어떤 단어가 같이 쓰였는가
Presenter:
Lecture 4 03/24 03. 한국어 전처리
  • 3.1 데이터 확보
  • 3.2 지도 학습 기반 형태소 분석
  • 3.3 비지도 학습 기반 형태소 분석
Presenter:
Lecture 5 04/01 04. 단어 수준 임베딩
  • 4.1 NPLM
  • 4.2 Word2Vec
  • 4.3 FastText
Presenter:
Lecture 6 04/07 Field study Presenter:유주연
Lecture 7 04/15 04. 단어 수준 임베딩
  • 4.4 잠재 의미 분석
  • 4.5 GloVe
  • 4.6 Swivel
  • 4.7 어떤 단어 임베딩을 사용할 것인가
  • 4.8 가중 임베딩
Presenter:
Lecture 8 04/21 Field study Presenter:유주연
Lecture 9 04/29 05. 문장 수준 임베딩
  • 5.1 잠재 의미 분석
  • 5.2 Doc2Vec
  • 5.3 잠재 디리클레 할당
Presenter:
Lecture 10 05/17 05. 문장 수준 임베딩
  • 5.4 ELMo
  • 5.2 Doc2Vec
  • 5.5 트랜스포머 네트워크
Presenter:
Lecture 11 05/26 05. 문장 수준 임베딩
  • 5.6 BERT
Presenter:
Lecture 12 06/16 06. 임베딩 파인 튜닝
  • 6.1 프리트레인과 파인튜닝
  • 6.2 분류를 위한 파이프라인 만들기
  • 6.3 단어 임베딩 활용
  • 6.4 ELMo 활용
  • 6.5 BERT 활용
  • 6.6 어떤 문장 임베딩을 사용할 것인가
Presenter:
Lecture 13 06/29 06. 임베딩 파인 튜닝
  • 6.6 어떤 문장 임베딩을 사용할 것인가(2)
Presenter:

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published