Skip to content

2021 10 25

jjonhwa edited this page Oct 25, 2021 · 3 revisions

회의록

이번주 모더레이터는 성욱님이 👍

Elastic Search

  • 성능 확실함

  • Top-k: 5

  • 앞으로 해볼 것

    • 불용어 처리
  • tokenizer truncation : tokenizing된 길이가 모델 인풋 사이즈보다 더 길다.

    • BM25에서 이런 에러가 발생한다.
    • 이럴 때, tokenizer에서 자동으로 truncation을 하지는 않는다.
    • Sparse Retrieval에서는 길이 문제가 크게 상관없다?!
    • AutoTokenizer를 가져오고 당연히 Model에 넣을 줄 알고 에러가 발생하는 것 같다.
  • DPR -> Batch_size를 높이는 게 좋은데, 지금 돌리고 있는 것은 4정도 밖에 안된다. 성능이 좋게 될까??

    • Accumulation을 적용해보자! 그러면 논문처럼 128을 만들 수 있지 않을까??
  • DPR to READER -> DPR에서 넘겨줄 때 데이터의 format을 일치시켜주어야 한다.

  • Tokenizer됬을 때 정답 token을 인덱싱하고 싶다. 어떻게 해야할까?

    • 정답 token을 Mask한 후에 이를 tokenize해서 mask인 부분에 대해서 index를 반환한다.
  • Elastic Search + DPR 가능?!

  • Reconsider 적용해보기

Clone this wiki locally