본문 바로가기

부스트캠프 AI Tech

(17)
[WEEK 8] AI 서비스 개발 기초 모듈성 - 큰 프로그램을 작고 독립적인 부분으로 나누는 것을 의미 응집도 - 모듈 구성 요소가 목적을 달성하기 위해 관련되어 있는 정도 결합도 - 모듈 간 상호 의존성의 정도 지향점 - 높은 응집도(모듈 내 교류)와 느슨한 결합도(모듈 끼린 덜 교류)를 가진 소프트웨어를 지향 테스팅(테스트), 문서화 버저닝 - CalVer (Calendar Versioning) : 날짜 기반 시스템 - SemVer (Semantic Versioning) : 주 번호, 부 번호, 패치 번호 - HashVer (Hash Versioning) : 해시 알고리즘을 사용 Poetry - pip의 문제점을 해결 쉘 커맨드 - man : 메뉴얼 문서 보기 (:q) - mkdir : 폴더 생성 - ls : 폴더의 파일 확인 (-a, ..
GitHub 제대로 쓰기 Commit Convention (유다시티 컨벤션으로 설명) - Commit을 남기는 규칙 - Commit Log를 통해 서로 다른 사람들이 내용을 파악하고 유지보수 - Modern Commit Convention은 Header, Body, Footer로 구성 Header - Commit Log의 제목을 나타내는 부분 - 일반적으로 Tag가 붙음 (Prefix) - feat, refactor, fix, style, chore, tests, docs 등 - 굳이 영어 X Body - 상세 기록을 나타내는 본문 - Header에서 한줄로 설명이 가능한 수준이라면 생략 가능 Footer - 관련 Issue의 Tag가 붙음 - Github에서 자동으로 해당 태그를 인식 - Issue Tag는 #{Issue 번호..
[WEEK 6-7] CV 기초 프로젝트 EDA (Exploratory Data Analysis)- 데이터를 이해하기 위한 노력 Pre-processing- Bounding box, ResizeGeneralization- Bias & Variance, Train / Validation, Data Augmentation (torchvision.tranforms, Albumentation..
[WEEK 4-5] CV 이론 Computer Vision - Inverse rendering (Rendering은 Computer Graphics) Machine Learning 에서 Deep Learning 로 - Feature extraction + Classification (엔드투엔드로) Classifier - k Nearest Neighbors (k-NN) Convolutional Neural Networks (CNN) - fully connected : 탬플릿이 조금만 달라져도 다른 결과 - locally connected : 더 적은 파라미터로 효과적 - 영상에 적합하여 다양한 CV tasks에 backbone으로 쓰임 - Image-level classification, Classification+Regression,..
데이터 직군에 대한 지식 쌓기 https://github.com/Team-Neighborhood/I-want-to-study-Data-Science/wiki/%EB%8D%B0%EC%9D%B4%ED%84%B0-%EB%B6%84%EC%95%BC%EC%9D%98-%EC%A7%81%EA%B5%B0-%EC%86%8C%EA%B0%9C Data Lake - Data Warhouse - Data Mart OLAP vs OLTP column oriented vs row oriented 하둡, 스파크 vs MySQL, 오라클 CPU Bound, IO Bound Nonblocking Async Blocking Sync Airflow, 대시보드 생성 등 k8s ELK EFK stack ML Engineer 1. Core / Applied ML Engine..
[WEEK 3-4] Data Visualization 정형 데이터 - 일반적으로 csv, tsv - Row = 데이터 1개 item - Column = attribute(feature) 시계열 데이터 (Time-Series) - 추세(Trend), 계절성(Seasonality), 주기성(Cycle)을 살핌 지리/지도 데이터 관계 데이터 - 객체는 Node, 관계는 Link 계층적 데이터 - 관계 중 포함관계가 분명한 데이터 - Tree, Treemap, Sunburst 등 분류 - 수치형(numerical) : 연속형(continuous), 이산형(discrete) - 범주형(categorical) : 명목형(nominal), 순서형(ordinal) 마크(mark) : 점, 선, 면으로 이루어진 데이터 시각화 채널(chnnel) : 각 마크를 변경할 수 있..
[WEEK 3] DL Basic Artificial Inteligence : 사람의 지능을 모방하는 것 Machine Learning : 데이터를 통해 학습하는 것 Deep Learning : 뉴럴 네트워크를 사용하는 것 Data, Model, Loss, Algorithm Neural Networks Nonlinear transform이 있어야만 네트워크를 깊게 쌓았을 때 의미가 있음 Multi-Layer Perceptron Loss의 성질을 이해하고 알맞게 사용해야 함 Generalization (일반화) - 학습 데이터와 테스트 데이터간의 차이(Generalization gap)이 얼마나 차이가 나는지 Underfitting vs. Overfitting - 사실 굉장히 이론적인 얘기라고 함 Cross-validation - 보통 이..
[WEEK 2] PyTorch Define and Run - 그래프를 먼저 정의 - 실행시점에 데이터를 feed Define by Run (Dynamic Computational Graph, DCG) - 실행을 하면서 그래프를 생성하는 방식 - PyTorch의 방식 - 즉시 확인 가능한 pythonic한 code Tensor - Array는 Numpy 구조를 가지는 Tensor 객체로 표현 - view : reshape과 동일 - squeeze : 개수가 1인 차원 삭제 (압축) - unsqueeze : 개수가 1인 차원 추가 - mm : 행렬곱셈 연산 dot (matmul은 broadcasting 지원이 방해됨) - nn.functional : 다양한 수식 변환 지원 AutoGrad - backward 함수 사용하여 자동 미분 지원..