Software 1.0
- 사람이 고민하여 프로그램을 만든 것
Software 2.0
- AI 모델의 구조로 프로그램의 검색 범위를 한정
- 데이터와 최적화 방법을 통해 최적의 프로그램을 찾음
OCR
- Text Detector, Text Recognizer, Serializer, Parser
- Text Extractor (+ NLP), Key-Value Extractor
Taxonomy
- SW1.0, SW2.0
- Regression-based, Segmentation-based, Hybrid
- Character-based, Word-based
EAST (An Efficient and Accurate Scene Text Detector)
Data Collection
- Public Dataset, Created Dataset (Synthetic Image, Real Image (Crawled Image, Crowd-sourced Image))
가이드라인
- 특이 케이스, 단순함, 명확함
- HOLD : 작업을 진행하지 않고 이미지 전체 제외
- Points : 글자 영역에 대한 표시
- Illegibility : 무시하도록
평가 방식
- DetEval : Many-to-One 허용, One-to-Many 0.8 패널티
- IoU : One-to-One만 허용 (IoU 0.5 이상)
- TIoU (Tightness-aware IoU) : 부족하거나 초과된 영역에 패널티
- CLEval (Character-Level Evaluation) : 글자를 맞추고 틀렸느냐로 평가
오픈 소스
- LableMe, CVAT, Hasty Labeling Tool
DBNet
- 글자 영역 구분 임계치를 모델이 생성
MOST
- EAST 개선판
- Text Feature Alignment Module (TFAM)
- Position-Aware NMA (PA-NMS)
TextFuseNet
Synthetic Data
- SynthText
- SynthText3D
- UnrealText
Data Augmentation
Multi-Scale Traning $ Inference
- SNIP (Scale Nobalization for Image Pyramid)
- Adaptive Scaling : Canonical KnapSack
'부스트캠프 AI Tech' 카테고리의 다른 글
[WEEK 14-16] Semantic Seg (0) | 2024.02.05 |
---|---|
글자 검출 프로젝트 트러블 슈팅 (0) | 2024.01.22 |
재활용 품목 분류를 위한 Object Detection 트러블 슈팅 (0) | 2024.01.07 |
[WEEK 9-11] Object Det (1) | 2024.01.03 |
[WEEK 8] AI 서비스 개발 기초 (1) | 2023.12.26 |