Skip to content

2021 10 22

Hyeon Soo Kim edited this page Oct 22, 2021 · 1 revision

TMI

  • 연주님 생일!!
  • Unicode BERT : 주재걸 교수님에게 메일 보내봄 -> Tensorflow에 unicode tokenizer 있음.
  • Google Colab Pro 새로운 GPU 할당해줌: A100 32GB

Experiments

  • Pororo를 이용한 Question Generation + Data Augmentation *

  • Passage Retrieval:

    • DPR
    • BM25
    • ElasticSearch
      • k=3일때 80% 정도 성능
    • Ensemble 하는 것도 좋아보임
      • e.g. Negative passage 뽑을떄 ES 사용
  • Reader:

    • klue/roberta-large vs xlm-roberta
  • Baseline 코드에서 모델을 roberta-large로 바꾸니까 성능 향상

Clone this wiki locally