본문 바로가기

부스트캠프 AI Tech

(17)
[WEEK END] Generative AI 생성형 이미지 모델 분야- Style transfer : 이미지의 스타일을 다른 이미지에 적용- Inpainting : 이미지의 손상된 부분이나 누락된 부분을 복원하거나 채움- Image editing : 이미지를 변경하거나 개선- Super-resolution : 저해상도 이미지를 고해상도 이미지로 변환Multi-modal 생성형 이미지 모델- Text-to-Image : 텍스트를 입력으로 사용하여 이미지 생성- Text-to-Video : 텍스트를 입력으로 사용하여 비디오 생성- Image-to-Video : 이미지와 prompt를 사용하여 비디오 생성 LLM : 범용 목적 모델 구축, 하나의 모델을 이용하여 다양한 태스크 해결, Zero/Few-Shot Learning- SFT(Supervised ..
[WEEK 17-18] Product Serving Batch 패턴- 실시간성이 필요 없는 경우에 주기적으로 예측 결과를 DB에 저장- Job Management Server : 작업을 실행하는 서버, Apache Airflow 등을 주로 사용- API 서버를 개발하지 않아도 되지만 별도의 스케줄러 필요Web Single 패턴- API 서버 코드에 모델을 포함시킨 뒤 배포- 이 패턴을 기본으로 ..
Hand Bone Image Segmentation 트러블 슈팅 # 한쪽 손 flip 모든 양손 데이터를 한쪽 손 방향으로 flip하여 학습, 추론 결과적으로 효과 없음 (오히려 하락세) # TTA scale TTA는 오히려 성능을 많이 저하시켰음 flip TTA만 진행한 결과는 아주 소량 성능 향상 # valid 결과가 제출 결과보다 안좋은 경우 학습과 추론은 잘 되었으므로 valid의 mask에 대해서 잘못 되었을 확률이 크다! 역시 valid set를 is_train=False를 적용한 경우 mask에 대해서 transform을 적용하지 않고 있었음 # 학습과 추론 이미지 사이즈 통일 한가지 resize로 학습했을때는 추론결과도 같은 size로 추론해야함 scale TTA가 제대로 안먹히는 이유인듯 위 이유로 Resize 앙상블도 해볼만 하다고 생각
[WEEK 14-16] Semantic Seg FCN - VGG : nn.Linear를 nn.Conv2d로 사용해 위치정보 특징 추출, 입력값 상관 없음 - Transposed Convolution : Upsampling, Deconvolution(잘못) - MaxPooling으로 잃어버린 정보 복원, Upsampled Size를 줄여 효율적인 이미지 복원 문제 - 객체가 크거나 작을때 예측을 잘 못함, 디테일한 모습이 사라짐 Decoder 개선 - DeconvNet : Unpooling과 Transposed Convolution 반복, 전반적 모습을 잡고, 구체적 모습을 잡고 - SegNet : FC layer를 제거, 시간 감소 Skip Connection 적용 - FC DenseNet, Unet Receptive Field 확장 1 - Deep..
글자 검출 프로젝트 트러블 슈팅 # data json 확인 - 'images' / 'drp.en_ko.in_house.deepnatural_{6자리 id}.jpg' : 이 이미지 아래 - 'paragraphs' : 빈 dict - 'words'/'{4자리 id} - 'transcription' : 단어 - 'points' : 위치, [[x1,y1],[x2,y2],[x3,y3],[x4,y4]] - 'orientation' : 거의 "Horizontal", 조금 "Vertical" - 'language' : 거의 그냥 null - 'tags' : 거의 ['Auto','UpdatedBbox','UpdatedText','UpdatedTags'] - 'confidence' : 거의 null - 'illegibility' : 안쓰면 true - ..
[WEEK 12-13] CV Data-Centric Software 1.0 - 사람이 고민하여 프로그램을 만든 것 Software 2.0 - AI 모델의 구조로 프로그램의 검색 범위를 한정 - 데이터와 최적화 방법을 통해 최적의 프로그램을 찾음 OCR - Text Detector, Text Recognizer, Serializer, Parser - Text Extractor (+ NLP), Key-Value Extractor Taxonomy - SW1.0, SW2.0 - Regression-based, Segmentation-based, Hybrid - Character-based, Word-based EAST (An Efficient and Accurate Scene Text Detector) Data Collection - Public Dataset,..
재활용 품목 분류를 위한 Object Detection 트러블 슈팅 # MMdetection 사용 bounding box annotation format - COCO (Common Objects in Context) : [xmin, ymin, width, height] - Pascal VOC (Visual Object Classes) : [xmin, ymin, xmax, ymax] MMdetection - Object detection을 위한 pytorch 기반 오픈소스 라이브러리 - configs : 사용 가능 모델들의 config 파일들 - mmdet : 모델을 포함한 핵심 코드들 # 모델 발산 (overshooting) 2024-01-07 15:24:56,099 - mmdet - INFO - Epoch [1][50/979] lr: 1.978e-03, eta: 0:4..
[WEEK 9-11] Object Det Evaluation - Confusion matrix : TP (True Positive), FP (False Positive), FN (False Negative), TN (True Negative) - Precision : TP / TP + FP (All Detections) - Recall : TP / TP + FN (All Ground truths) - PR Curve : Confidence score 내림차순으로 누적 값의 Recall, Precision 그래프 - AP : PR Curve의 아랫면적 - mAP : AP의 평균 - IOU (Intersection Over Union) : overlapping region / combined region - FPS (Frames Per Second..