본문 바로가기

부스트캠프 AI Tech

[WEEK END] Generative AI

생성형 이미지 모델 분야

- Style transfer : 이미지의 스타일을 다른 이미지에 적용

- Inpainting : 이미지의 손상된 부분이나 누락된 부분을 복원하거나 채움

- Image editing : 이미지를 변경하거나 개선

- Super-resolution : 저해상도 이미지를 고해상도 이미지로 변환

Multi-modal 생성형 이미지 모델

- Text-to-Image : 텍스트를 입력으로 사용하여 이미지 생성

- Text-to-Video : 텍스트를 입력으로 사용하여 비디오 생성

- Image-to-Video : 이미지와 prompt를 사용하여 비디오 생성

 

LLM : 범용 목적 모델 구축, 하나의 모델을 이용하여 다양한 태스크 해결, Zero/Few-Shot Learning

- SFT(Supervised FineTuning) : 광범위한 사용자 입력에 대해 정해진 문장을 생성하도록 Finetune

- Reward Modeling : LLM의 생성문에 대한 선호도를 판별하는 모델 Finetune

- RLHF(Reinforcement Learning with Human Feedback) : 광범위한 사용자 입력에 대해 인간이 선호하는 답변을 출력하도록 강화학습

 

PEFT (Parameter-Efficient Fine-Tuning) Methods

- Adapter : 기존에 이미 학습이 완료된 모델의 각 레이어에 학습 가능한 FFN을 삽입하는 구조

- Prefix Tuning : Transformer의 각 레이어에 prefix라는 훈련 가능한 vector를 추가하는 방법

- Prompt Tuning : 모델의 입력 레이어에 훈련 가능한 prompt vector를 통합하는 방법

- Low-rank Adaption (LoRA) : 사전 학습된 모델의 파라미터를 고정하고, 학습 가능한 rank decomposition 행렬을 삽입하는 방법, 가장 널리 쓰이는 방법론

 

Generative Adversarial Networks (GANs) : 판별자(Discriminator)와 생성자(Generator)를 적대적으로 학습하는 모델 구조

- cGAN : 학습에 조건(condition)을 주입하여 학습

- Pix2Pix : 이미지를 조건으로 이미지를 변환

- CycleGAN : unpaired images로 학습하기 위해 cycle consistency loss

- StarGAN : 단일 생성 모델만으로 여러 도메인을 반영

- ProgressiveGAN : 고해상도 이미지를 생성하기 위해 저해상도 이미지 생성 구조부터 단계적으로 증강하는 모델

- StyleGAN : ProgressiveGAN 구조에서 style을 주입, 작은 부분부터 큰 부분까지 원하는 정도에 따라 style 변환이 가능

 

Autoencoder (AE) : Encoder와 Decoder로 구성되어 입력 이미지를 다시 복원하도록 학습하는 모델

- Variational AE (VAE) : 잠재 공간의 분포를 가정하여 학습

- Vector Quantized-VAE (VQ-VAE) : 이산적인 잠재 공간을가정하여 학습 

 

Flow-vased models : 입력 이미지를 함수를 통해 잠재 공간으로 변환하고 역함수를 통해 이미지를 복원하는 구조

 

Diffusion models : 입력 이미지를 forward process를 통해 잠재 공간으로 변환하고 reverse process로 복원하는 구조

- DDPM (Denoising Diffusion Probabilistic Models)

- DDIM (Denoising Diffusion Implicit Models)

- CFG (Classifier-free Guidance)

- LDM (Latent Diffusion Models)