[LLM] VLM (Multimodal) 업무

비전-언어 모델 (Vision-Language Models, VLM)

- 비전과 언어의 양상(Modality)를 통합하는 모델

- 이미지와 자연어 텍스트를 모두 처리할 수 있는 능력을 가진 모델

멀티모달 (Multimodal)

- 여러가지 데이터 형식을 가지고 수행하는 AI

- Early Fusion : 종류가 다른 두가지 데이터를 하나의 데이터로 먼저 합친 이후 모델 학습

- Late Fusion : 종류가 다른 두가지 데이터를 각각 다른 모델이 학습시킨 이후 나온 결과를 융합하는 방법

- Joint or Intermediate Fusion : 하나의 모달리티로 모델 학습을 진행하다가 마지막 레이어 전에 다른 모달리티와 융합하는 방법

VLM의 3가지 핵심 요소

- 이미지 인코더 (Image Encoder)

- 텍스트 인코더 (Text Encoder)

- 두 인코더의 정보를 결합할 수 있는 전략

Constrastive Learning

- Constrastive 방식을 통해서 이미지와 텍스트를 통합 특징 공간에 임베딩하는 방법론

- 입력 이미지와 입력 텍스트를 동일한 특징 공간으로 매핑하고 둘이 매치가 된다면 거리를 가깝게, 그렇지 않다면 거리를 멀게끔 학습

- CLIP, CLOOB, ALIGN, DeCLIP, LiT, FLAVA 등

PrefixLM

- 언어 모델에 Prefix로 이미지를 입력하는 방식을 통해서 이미지와 텍스트 임베딩을 통합적으로 학습하는 방법론

- Transformer 인코더, Transformer 디코더로 구성된 통합된 멀티모달 구조

- 이미지 캡셔닝과 관련된 태스크에 한정된다는 단점

- SimVLM, VirTex 등

Frozen PrefixLM

- 언어 모델을 고정하고 그에 맞는 이미지 임베딩을 학습하는 방법론

- Frozen, ClipCap 등

- 사전 훈련된 비전 인코더와 언어 모델을 모두 고정

- MAPL, Flamingo 등

- 멀티모달 데이터셋을 활용하기 어려운 태스크에 특히 유용

Cross Attention을 통한 멀티모달 결합

- Cross Attention 메커니즘을 통한 비전 정보를 언어 모델의 계층으로 결합하는 방법론

- VisualGPT, VC-GPT, Flamingo 등

MLM / ITM (마스크 언어 모델 / 이미지-텍스트 매칭)

- 마스크 언어 모델 및 이미지-텍스트 매칭 방식을 활용하여 이미지 일부를 텍스트와 결합하는 방법론

- VisualBERT, FLAVA, ViLBERT, LXMERT, BridgeTower 등

No Training

- 각각의 비전 모델과 언어 모델을 따로 사용하여 반복적인 최적화를 수행하는 방법론

- MaGiC, ASIF 등

직무 준비

- 다양한 VLM Target Task 발굴 및 이에 필요한 Instruction 데이터 디자인과 개발

- Model 기반의 Naver in-house data cleansing

- 대규모 Vision LLM Data에 대한 EDA

- 기 존재하는 다양한 Domain 별 Instruction Dataset 제작과 개선 (Table, Chart, Document, Scene 등) 및 모델 성능 영향 탐색

- Public Benchmark Data에 대한 분석, 수급 및 변환

- Data Viewer Tool 개발

- VLM 모델 평가 Pipeline 및 Tool 개발

- QA Task 평가 방식 탐색 및 선정 (Model 을 활용한 VLM의 Judging System 등)

- 이 밖에도, 모델 전반의 성능을 끌어낼 수 있는 다양한 아이디어를 실제로 구현하고, VLM에 적용되어 실제로 모델의 성능이 향상되는 것을 직접적으로 체험할 수 있습니다

참고

https://hcnoh.github.io/2024-01-03-vlm-01

[비전-언어 모델] 1. 비전-언어 모델 소개

이번 포스트에서는 최근 AI 업계의 트렌드인 멀티모달 모델, 그 중에서도 특히 많이 활용되는 비전-언어 모델에 대한 소개를 다뤄볼 예정이다. 이를 위하여 링크를 번역 및 참고하여 이번 포스트

hcnoh.github.io

https://blog.kubwa.co.kr/%EB%A9%80%ED%8B%B0%EB%AA%A8%EB%8B%AC-multi-modal-ai-%EC%B4%9D%EC%A0%95%EB%A6%AC-%EC%98%88%EC%A0%9C-%EC%8B%A4%EC%8A%B5-%EC%BD%94%EB%93%9C-0982b35a7077

멀티모달(Multi Modal AI) 총정리 + 예제 실습 코드

멀티모달이란?

blog.kubwa.co.kr

'STUDY' 카테고리의 다른 글

[자격증] SQLP 준비 - 3과목 SQL 고급활용 및 튜닝 (개정 전) (0)	2024.08.16
[데이터] GIS (0)	2024.06.27
[LLM] RAG (0)	2024.06.05
[NLP] 요약 모델 (0)	2024.05.29
[자격증] SQLD 준비 (0)	2024.05.24

척척비전공자연계학사의 기술블로그

[LLM] VLM (Multimodal) 업무

비전-언어 모델 (Vision-Language Models, VLM)

직무 준비

'STUDY' 카테고리의 다른 글

티스토리툴바

[LLM] VLM (Multimodal) 업무

비전-언어 모델 (Vision-Language Models, VLM)

직무 준비

'STUDY' 카테고리의 다른 글

'STUDY' Related Articles

티스토리툴바