2021 10 25

회의록

이번주 모더레이터는 성욱님이 👍

Elastic Search

성능 확실함
Top-k: 5
앞으로 해볼 것
- 불용어 처리
tokenizer truncation : tokenizing된 길이가 모델 인풋 사이즈보다 더 길다.
- BM25에서 이런 에러가 발생한다.
- 이럴 때, tokenizer에서 자동으로 truncation을 하지는 않는다.
- Sparse Retrieval에서는 길이 문제가 크게 상관없다?!
- AutoTokenizer를 가져오고 당연히 Model에 넣을 줄 알고 에러가 발생하는 것 같다.
DPR -> Batch_size를 높이는 게 좋은데, 지금 돌리고 있는 것은 4정도 밖에 안된다. 성능이 좋게 될까??
- Accumulation을 적용해보자! 그러면 논문처럼 128을 만들 수 있지 않을까??
DPR to READER -> DPR에서 넘겨줄 때 데이터의 format을 일치시켜주어야 한다.
Tokenizer됬을 때 정답 token을 인덱싱하고 싶다. 어떻게 해야할까?
- 정답 token을 Mask한 후에 이를 tokenize해서 mask인 부분에 대해서 index를 반환한다.
Elastic Search + DPR 가능?!
Reconsider 적용해보기