본문 바로가기

부스트캠프 AI Tech

[WEEK 14-16] Semantic Seg

FCN

- VGG : nn.Linear를 nn.Conv2d로 사용해 위치정보 특징 추출, 입력값 상관 없음

- Transposed Convolution : Upsampling, Deconvolution(잘못)

- MaxPooling으로 잃어버린 정보 복원, Upsampled Size를 줄여 효율적인 이미지 복원

 

문제

- 객체가 크거나 작을때 예측을 잘 못함, 디테일한 모습이 사라짐

Decoder 개선

- DeconvNet : Unpooling과 Transposed Convolution 반복, 전반적 모습을 잡고, 구체적 모습을 잡고

- SegNet : FC layer를 제거, 시간 감소

Skip Connection 적용

- FC DenseNet, Unet

Receptive Field 확장 1

- DeepLab v1 : Dilated Convolution, Bilinear Interpolation, Dense Conditional Random Field

- DilatedNet

 

Receptive Field 확장 2

- DeepLab v2 : ResNet-101 Backbone, Atrous  Spatial Pytamid Pooling

- PSPNet : Global Average Pooling로 전체 맥락 판단

- DeepLab v3 : 위 둘을 함침

- DeepLab v3+ : Encoder-Decoder 구조, modified Xception Backbone

 

U-Net

- Contracting Path : 이미지 특징 추출

- Expanding Path : localization을 가능하게 함

U-Net++

- Dense Skip Connection

- 모든 depth를 Ensemble한 효과

- Htbrid Loss, Deep Supervision

U-Net 3+

- Full-scale Skip Connection : (conventional + inter + intra) skip connection

- Classfication-guided Module (CGM)

Residual U-Net, Mobile-UNet, Eff-UNet

 

Segmentation Models (SMP)

실험 1

- 디버깅 모드, 시드 고정, 실험기록, 실험 하나씩, 역할 분배

- Validation : Hold Out, K-Fold, Stratified K-Fold, Group K-Fold

- Augmentation(Albumentation) : Cutout, Gridmask, Mixup, Cutmix, SnapMix, CropNonEmptyMaskIfExists

- SOTA Model : Paper with Codes에서..

- Scheduler : CosineAnnealingLR, ReduceLROnPlateau, Gradual Warmup (pretrained 일때 좋음)

- Bath size : Gradient Accumulation

- Optimizer : Adam, AdamW, AdamP, Radam, Lookahead optimizer

- Loss : 다양함, 여러 loss 결합

 

실험 2

- Ensemble : 5-Fold Ensemble, Epoch Ensemble, SWA (Stochastic Weight Averaging), Seed Ensemble, Resize Ensemble, TTA (Test time augmentation) (ttach Library)

- Pseudo Labeling, 외부 데이터 활용

 

HRNet (High Resolution Network)

- 고해상도 정보를 계속 유지

- Parallel Multi-Resolution Convolution Stream

- Repeated Multi-Resolution Fusions

- Representation Head

 

SegFormer

- Local Continuity 보존 : overlapping patch merging

- 효율적인 Attention 계산 : Efficient Self-Attention

- Positional Embedding의 단점 극복 : Mix-FFN

- MLP로 이루어진 Decoder : lightweight All-MLP

 

WSSS

CAM, Grad-CAM