본문 바로가기

부스트캠프 AI Tech

[WEEK 12-13] CV Data-Centric

Software 1.0

- 사람이 고민하여 프로그램을 만든 것

Software 2.0

- AI 모델의 구조로 프로그램의 검색 범위를 한정

- 데이터와 최적화 방법을 통해 최적의 프로그램을 찾음

 

OCR

- Text Detector, Text Recognizer, Serializer, Parser

- Text Extractor (+  NLP), Key-Value Extractor

 

Taxonomy

- SW1.0, SW2.0

- Regression-based, Segmentation-based, Hybrid

- Character-based, Word-based

EAST (An Efficient and Accurate Scene Text Detector)

 

Data Collection

- Public Dataset, Created Dataset (Synthetic Image, Real Image (Crawled Image, Crowd-sourced Image))

 

가이드라인

- 특이 케이스, 단순함, 명확함

- HOLD : 작업을 진행하지 않고 이미지 전체 제외

- Points : 글자 영역에 대한 표시

- Illegibility : 무시하도록

 

평가 방식

- DetEval : Many-to-One 허용, One-to-Many 0.8 패널티

- IoU : One-to-One만 허용 (IoU 0.5 이상)

- TIoU (Tightness-aware IoU) : 부족하거나 초과된 영역에 패널티

- CLEval (Character-Level Evaluation) : 글자를 맞추고 틀렸느냐로 평가

 

오픈 소스

- LableMe, CVAT, Hasty Labeling Tool

 

DBNet

- 글자 영역 구분 임계치를 모델이 생성

MOST

- EAST 개선판

- Text Feature Alignment Module (TFAM)

- Position-Aware NMA (PA-NMS)

TextFuseNet

 

Synthetic Data

- SynthText

- SynthText3D

- UnrealText

Data Augmentation

Multi-Scale Traning $ Inference

- SNIP (Scale Nobalization for Image Pyramid)

- Adaptive Scaling : Canonical KnapSack