비전-언어 모델 (Vision-Language Models, VLM)
- 비전과 언어의 양상(Modality)를 통합하는 모델
- 이미지와 자연어 텍스트를 모두 처리할 수 있는 능력을 가진 모델
멀티모달 (Multimodal)
- 여러가지 데이터 형식을 가지고 수행하는 AI
- Early Fusion : 종류가 다른 두가지 데이터를 하나의 데이터로 먼저 합친 이후 모델 학습
- Late Fusion : 종류가 다른 두가지 데이터를 각각 다른 모델이 학습시킨 이후 나온 결과를 융합하는 방법
- Joint or Intermediate Fusion : 하나의 모달리티로 모델 학습을 진행하다가 마지막 레이어 전에 다른 모달리티와 융합하는 방법
VLM의 3가지 핵심 요소
- 이미지 인코더 (Image Encoder)
- 텍스트 인코더 (Text Encoder)
- 두 인코더의 정보를 결합할 수 있는 전략
Constrastive Learning
- Constrastive 방식을 통해서 이미지와 텍스트를 통합 특징 공간에 임베딩하는 방법론
- 입력 이미지와 입력 텍스트를 동일한 특징 공간으로 매핑하고 둘이 매치가 된다면 거리를 가깝게, 그렇지 않다면 거리를 멀게끔 학습
- CLIP, CLOOB, ALIGN, DeCLIP, LiT, FLAVA 등
PrefixLM
- 언어 모델에 Prefix로 이미지를 입력하는 방식을 통해서 이미지와 텍스트 임베딩을 통합적으로 학습하는 방법론
- Transformer 인코더, Transformer 디코더로 구성된 통합된 멀티모달 구조
- 이미지 캡셔닝과 관련된 태스크에 한정된다는 단점
- SimVLM, VirTex 등
Frozen PrefixLM
- 언어 모델을 고정하고 그에 맞는 이미지 임베딩을 학습하는 방법론
- Frozen, ClipCap 등
- 사전 훈련된 비전 인코더와 언어 모델을 모두 고정
- MAPL, Flamingo 등
- 멀티모달 데이터셋을 활용하기 어려운 태스크에 특히 유용
Cross Attention을 통한 멀티모달 결합
- Cross Attention 메커니즘을 통한 비전 정보를 언어 모델의 계층으로 결합하는 방법론
- VisualGPT, VC-GPT, Flamingo 등
MLM / ITM (마스크 언어 모델 / 이미지-텍스트 매칭)
- 마스크 언어 모델 및 이미지-텍스트 매칭 방식을 활용하여 이미지 일부를 텍스트와 결합하는 방법론
- VisualBERT, FLAVA, ViLBERT, LXMERT, BridgeTower 등
No Training
- 각각의 비전 모델과 언어 모델을 따로 사용하여 반복적인 최적화를 수행하는 방법론
- MaGiC, ASIF 등
직무 준비
- 다양한 VLM Target Task 발굴 및 이에 필요한 Instruction 데이터 디자인과 개발
- Model 기반의 Naver in-house data cleansing
- 대규모 Vision LLM Data에 대한 EDA
- 기 존재하는 다양한 Domain 별 Instruction Dataset 제작과 개선 (Table, Chart, Document, Scene 등) 및 모델 성능 영향 탐색
- Public Benchmark Data에 대한 분석, 수급 및 변환
- Data Viewer Tool 개발
- VLM 모델 평가 Pipeline 및 Tool 개발
- QA Task 평가 방식 탐색 및 선정 (Model 을 활용한 VLM의 Judging System 등)
- 이 밖에도, 모델 전반의 성능을 끌어낼 수 있는 다양한 아이디어를 실제로 구현하고, VLM에 적용되어 실제로 모델의 성능이 향상되는 것을 직접적으로 체험할 수 있습니다
참고
https://hcnoh.github.io/2024-01-03-vlm-01
'STUDY' 카테고리의 다른 글
[자격증] SQLP 준비 - 3과목 SQL 고급활용 및 튜닝 (개정 전) (0) | 2024.08.16 |
---|---|
[데이터] GIS (0) | 2024.06.27 |
[LLM] RAG (0) | 2024.06.05 |
[NLP] 요약 모델 (0) | 2024.05.29 |
[자격증] SQLD 준비 (0) | 2024.05.24 |