-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
[20230406] Weekly VLM1 - CLIP #1
Comments
Summary 이 데이터의 이미지와 텍스트는 각가 transformer 기반의 encoder를 통과 하게 됩니다. 이렇게 pre train된 모델을 다양한 task에 transfer 하였을때 기존의 task specific 모델들과 비교하여 좋은 성능을 보임을 실험을 통해 보여 줍니다. |
OpenAI에서 발표한 논문을 잘 설명해주셔서 감사합니다. :) label이 지닌 정보의 양이 적으므로, text와 Image를 Pair로 맺어 학습하는 방식, 거대 데이터셋 등 상당히 잘 설명해주셔서 감사합니다. |
Text와 Image feature를 동시에 이용하여 학습하는 방법을 제안하는 거의 최초의 논문이다. Contrastive Learning을 이용해 두 feature를 동일한 space에 나타내며 정답인 쌍에 대해 distance를 줄이는 방법으로 학습한다. Strong Point:
|
CLIP의 key point (내가 생각하는)
한줄 소감: 개인적으로, text와 image를 함께 사용한다는 발상이 놀라웠다. |
CLIP 은 2021년 발표된 논문으로 Predetermined object categories를 통해 학습하고 예측하게끔 훈련 된 모델은 새로운 dataset이나 task에 사용되는 상황에서는 그 성능을 보장 할 수 없다. Key Idea
|
Paper
Learning Transferable Visual Models From Natural Language Supervision (a.k.a. CLIP)
Speaker
@joosun7l
The text was updated successfully, but these errors were encountered: