-
Notifications
You must be signed in to change notification settings - Fork 0
MRC 1강
Hyeon Soo Kim edited this page Oct 13, 2021
·
8 revisions
- 본인이 생각하는 핵심부문을 요약하기
- 의문점, 궁금했던 점도 적기
- 쓸만한 실습코드 있으면 여기다가 붙여넣기
Improved Baseline은 Embedding Layer을 resize하지 않아도 되는 간편함이 있다.
~~~~
- mrc 질문을 이해하고 지문에서 그에 맞는 답을 하는 테스크,
- mrc의 종류
- Extractive AnswerDatasets : 문제에 정답이 들어있다. 그래서 지문에서 적절한 답을 가져오는 테스크,, classification!
- Descriptive/NarrativeAnswerDatasets: 지문속에 답이 있지 않고 적절한 답을 생성해내야하는 테스크,당연히 더 어렵다. generate!
- 비슷한 의미의 단어들을 이해하는 것이 필요하다. 특히 고유명사와 이를 지칭하는 대명사 간의 관계를 추출해내는 것이 중요하다. 여러 문서에 걸쳐 정답을 찾아내야 할 수도 있으며 논리적인 추론과정이 필요할 수도 있다. --> 높은 수준의 이해능력이 필요하다.
- MRC의 종류가 어려가지가 있으며 지문 내에서 추출, 질의를 보고 생성하는 generative 한것, 객관식 형태가 있다.
- MRC에서 어려운 것들이 있는데, paragraph 된 문장들이나 대명사들, Unanswerable question등등 있음.
- 또한 여러 문장을 참고해야만 답을 찾을 수 있는 질문들도 존재함.
- MRC에서는 huggingface의 datasets 라이브러리가 중요해보인다.
# 1강 실습코드
# https://drive.google.com/file/d/1h_kRXyuc0w4rHD7LCCbVBB26Savy5yy1/view
tokenized_examples = tokenizer(
examples["question"],
examples["context"],
truncation="only_second", # Truncate to max_length. This will only truncate the second sequence of a pair.
max_length=max_seq_length,
stride=doc_stride,
return_overflowing_tokens=True, # Whether or not to return overflowing token sequences.
return_offsets_mapping=True, # Whether or not to return (char_start, char_end) for each token.
padding="max_length",
)
- 위 코드의 parameter들이 정확히 어떻게 작용하는지 이해하기가 조금 어려움 -> 공부가 필요할듯
MRC 종류
- Extractive Answer Datasets : 질의에 대한 답이 항상 주어진 지문의 segment(span)으로 존재 (SQuAD, KorQuAD 등)
- Descriptive/Narrative Answer Datasets : 답이 지문 내에서 추출된 span이 아닌 질의를 보고 생성된 sentence(free-form)의 형태
- Multiple-choice Datasets : choice를 주고 정답 고르는 형태
평가방법
- Exact Match / F1 score : extractive answer + multiple-choice
- ROUGE-L / BLEU : descriptive anwer. n-gram으로 비율 계산
-
Types of MRC datasets:
- Extractive: 지문 속에 존재하는 질문에 대한 답 추출
- Descriptive/Narrative: 지문 속에 존재하지 않을 수도 있는 답을 생성
- Multiple-choice : 질문에 대한 답을 보기 중 선택
-
Metrics
- EM & F1
- EM (Exact Match): 예측한 답과 Ground-truth이 정확히 일치하는 샘플의 비율
- F1: 예측한 답과 Ground truth 사이 token overlap을 f1으로 계산
- 이번 대회에서는 EM을 중점으로 평가
- EM & F1
-
Challenges:
- Unanswerable questions (questions without answers)
- Multi-hop reasoning
- Paraphrasing
- MRC : 지문을 이해하고 주어진 질의의 답변을 추론 / 질문이 들어오면 Search Engine을 통해 지문을 찾고 지문 내에서 정답을 찾는 방식
- What makes MRC difficult?
- Paraphrased : 같은 의미의 문장이지만 다른 단어들로 구성될 경우 기계가 다른 단어를 같은 의미로 받아들이기 쉽지 않다.
- Coreference Resolution : 대명사를 지칭하고 있는지 명확히 알 수 없어 기계가 문장을 제대로 이해하기 어렵다. -> 대명사가 지칭하고 있는 것을 찾아내는 task를 진행함으로서 MRC를 조금 더 원활히 진행할 수 있다.