-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[20230406] Weekly VLM1 - CoOp #2
Comments
CLIP을 더 improve 시킨 논문. CLIP과 가장 큰 차이점은 문맥을 바탕으로 text encoder의 input을 tokenization -> vectorization으로 바뀌었다는 점이다. Continuous prompt learning이라고 소개하며 text input을 learnable parameter를 포함하는 vectorization하여 문맥을 학습하게 했다고 주장하고 있으며, prompt learning에 대한 다양한 실험이 있어서, prompt learning에 관심이 많다면 한 번쯤 읽어볼만하다. |
CLIP에서 조금 더 발전된 형태의 논문이다. |
소감: Prompt learning 라는 것이 신선하게 다가왔다. prompt에 따라서 성능이 달라진다는 점이 신기했고, prompt learning을 통해서 최적의 prompt 를 찾아준다는 점이 인상적이었다. CLIP에 prompt learning을 접목시킨 논문의 아이디어가 놀랍다. |
CoOp(Context Optimization) Prompt 정의 Continous Prompt Prompt Engineering 한계점
CoOp은 Prompt Engineering이 학습 가능하도록 만드는 방법이다. Unified Context Class-specific Context 강점
단점
|
Paper
Learning Transferable Visual Models From Natural Language Supervision (a.k.a. CoOp)
Summary
CLIP과 같이, VLM의 Contrastive Learning 방법론 중 하나임. 11가지 Dataset에서 높은 성능을 보여줌.
다만, Noise가 있는 데이터셋에서는 성능이 좋지는 않음 (ex Food101)
learnable vector(Fig1의 learnable context)를 활용하여, Prompt Engineering을 도와주는 Context Optimizer를 제시함.
(Fig1)
CLIP과 Image Encoder는 동일하지만, Text Encoder에서 learnable context를 사용하는데, 위의 Fig1은 Class가 우측에 놓여있지만, 유연하게 놓일 수 있음을 수식에서 설명함.
Strength
Weakness
Speaker
WongiPark
The text was updated successfully, but these errors were encountered: