Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

[20230406] Weekly VLM1 - CLIP #1

Open
SoongE opened this issue Mar 30, 2023 · 5 comments
Open

[20230406] Weekly VLM1 - CLIP #1

SoongE opened this issue Mar 30, 2023 · 5 comments
Assignees

Comments

@SoongE
Copy link
Collaborator

SoongE commented Mar 30, 2023

Paper

Learning Transferable Visual Models From Natural Language Supervision (a.k.a. CLIP)

Speaker

@joosun7l

@kalelpark kalelpark changed the title [20230406] Weekly VML1 - CLIP [20230406] Weekly VLM1 - CLIP Apr 5, 2023
@joosun7l
Copy link
Collaborator

joosun7l commented Apr 6, 2023

Summary
CLIP은 이미지와 텍스트 쌍을 예측하는 모델 입니다.
논문에서는 초기 pre train으로 4억쌍의 이미지-텍스트 데이터를 사용 하였습니다.
pre training 단계에서의 CLIP은 단순한 이미지 캡셔닝 task를 수행하지만
이후 다양한 visual concept의 task에 대해 zero shot learning으로 transfer 했을때
성능이 좋다는 것이 특징 입니다.

dsgsdgsd

이 데이터의 이미지와 텍스트는 각가 transformer 기반의 encoder를 통과 하게 됩니다.
encoder를 통과한 image,text embedding 각각의 쌍(4억^2쌍)의 코사인 유사도를 계산하게 됩니다.
정답인 n개(4억)쌍의 코사인 유사도는 최대가 되고, 오답인 n^2-n개(4억^2-4억)쌍의 코사인 유사도는 최소가 되게끔
image,text encoder를 학습 합니다.

이렇게 pre train된 모델을 다양한 task에 transfer 하였을때

saghdsg

hshsdhsd

기존의 task specific 모델들과 비교하여 좋은 성능을 보임을 실험을 통해 보여 줍니다.

@kalelpark
Copy link
Contributor

kalelpark commented Apr 7, 2023

OpenAI에서 발표한 논문을 잘 설명해주셔서 감사합니다. :)

label이 지닌 정보의 양이 적으므로, text와 Image를 Pair로 맺어 학습하는 방식, 거대 데이터셋 등 상당히 잘 설명해주셔서 감사합니다.

@SoongE
Copy link
Collaborator Author

SoongE commented Apr 10, 2023

Text와 Image feature를 동시에 이용하여 학습하는 방법을 제안하는 거의 최초의 논문이다. Contrastive Learning을 이용해 두 feature를 동일한 space에 나타내며 정답인 쌍에 대해 distance를 줄이는 방법으로 학습한다.
특히 prompt engineering을 적용한 zero-shot에서 좋은 성능을 보이고 있으며, linear prob 형태의 few-shot learning에서도 가능성을 보여주는 논문이다.
최종 방식은 이미지를 넣었을 때 text를 output으로 내는 형식의 네트워크 구조를 가진다.

Strong Point:

  • 기존보다 더 큰 Larget Dataset으로 학습(4억개의 pair)
  • ImageNet으로 test했을 때, zero-shot learning에서 특히 성능이 좋음

@gompaang
Copy link

CLIP의 key point (내가 생각하는)

  • contrastive learning을 활용한 점
  • text와 Image를 함께 사용하여 학습한다는 점
  • zero-shot prediction을 할 수 있다는 점

한줄 소감: 개인적으로, text와 image를 함께 사용한다는 발상이 놀라웠다.

@dh58319
Copy link
Collaborator

dh58319 commented Apr 10, 2023

CLIP 은 2021년 발표된 논문으로 Predetermined object categories를 통해 학습하고 예측하게끔 훈련 된 모델은 새로운 dataset이나 task에 사용되는 상황에서는 그 성능을 보장 할 수 없다.
따라서 본 연구에서는 raw-text와 image를 함께 학습시키는 방법을 통해 확장가능하고 효율적인 모델을 제시한다.
NLP에서의 raw-text pre-training model은 task에 상관 없이 좋은 성능을 보여주었다. 따아서 GPT와 같은 시스템은 맞춤형 모델에 비해 경쟁력을 갖추었고 태스크별 데이터가 거의 필요하지 않게 되었다.
하지만 Vision영역에서는 이러한 방식보다는 고전적인 방식을 사용하는 것이 관행이다. NLP에서 성공한 방법을 바탕으로 vision에 적용시켜보는 pre-train모델에 관한 논문이다.

Key Idea

  • learning perception from supervision contained in natural language.
  • Not Label, representation을 학습 zero-shot 성능 향상

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

5 participants