* 암기할 부분을 위주로 정리
* 기본적이라 생각되는 부분이나 비효율적인 부분은 과감히 생략
빅데이터 분석 기획
빅데이터의 이해
- DIKW 피라미드
- Data(데이터): 객관적 사실
- Information(정보): 데이터간 연관관계&의미도출
- Knowledge(지식): 정보를 구조화&일반화
- Wisdom(지혜): 깊은이해 -> 창의적 아이디어
- 바이트 크기: KMGT PEZY(페타, 엑사, 제타, 요타)
- 빅데이터 특징: 3V - 5V - 7V (순서대로 추가)
- Volume(규모), Variety(다양성), Velocity(속도)
- Veracity(신뢰성), Value(가치)
- Validity(정확성) Volatility(휘발성)
- 빅데이터 유형: 정형 데이터, 반정형 데이터, 비정형 데이터
- 암묵지-형식지 간 지식전환 (SECI)
- 공통화: 암묵 -> 암묵
- 표출화: 암묵 -> 형식
- 연결화: 형식 -> 형식
- 내면화: 형식 -> 암묵
- 빅데이터 위기요인: 사생활 침해 / 책임원칙 훼손 / 데이터 오용
- 위기요인 통제방안: 알고리즘 접근 허용 / 책임 강조 / 결과기반 책임 적용
- 빅데이터 조직: 집중구조 / 기능구조 / 분산구조
- 데이터 사이언티스트: 소프트 스킬, 하드 스킬
- 핵심성공요인(CSF): 목표성취를 위한 내부 역량
- 핵심성과지표(KPI): 목표달성이 되었는지 정령화된 측정지표
- 빅데이터 플랫폼 데이터 형식: HTML, XML, CSV, JSON
- 빅데이터 플랫폼 구축 소프트웨어 & 분산 컴퓨팅 환경 소프트웨어 구성요소: (생략)
- 개인정보보호 관련 법령: 개인정보 보호법, 정보통신망법, 신용정보법
데이터분석 계획
- 하향식 접근방식: 문제를 정한 뒤 해결방안 탐색
- 상향식 접근방식: 데이터를 기반으로 지속적 문제 개선 (디자인사고 접근법 / 비지도학습 방법 / 프로토타이핑 접근법)
- 빅데이터 분석 기획 유형
- 최적화: 분석 대상을 알고 분석 방법을 안다.
- 솔루션: 분석 대상을 알고 분석 방법을 모른다.
- 통찰: 분석 대상을 모르고 분석 방법을 안다.
- 발견: 분석 대상을 모르고 분석 방법을 모른다.
- 빅데이터 분석 방법론 계층: 단계(Phase) / 태스크(Task) / 스텝(Step)
- 빅데이터 분석 방법론 유형
- KDD: 선택-전처리-변환-데이터마이닝-평가
- CRISP-DM: 업무이해-데이터이해-데이터준비-모델링-평가-전개
- SEMMA: 샘플링-탐색-수정-모델링-검증
- 데이터 확보 계획 수립 절차: 목표정의-요구사항도출-예산안수립-계획수립
데이터 수집 및 저장 계획
- 데이터 처리기술: 필터링/변환/정제/통합/축소
- 공급사슬관리 (SCM): 물류 흐름을 하나의 가치사슬 관점에서 파악
- 전사적 자원관리 (ERP)
- 고객 관계관리 (CRM)
- 데이터 웨어하우스 (DW)
- 데이터 마트 (DM)
- 데이터 유형별 수집방식&기술: (생략)
- 데이터 속성: 명목형 / 순서형 / 이산형 / 연속형
- 데이터 측정척도: 명목척도 / 서열척도/ 등간척도/ 비율척도
- 데이터 변환 기술: 평활화 / 집계 / 일반화(특정 구간) / 정규화(정해진 구간) / 속성 생성
- 데이터 비식별화: 개인정보 일부/전부를 삭제/대체하여, 다른 정보와 결합해도 특정 개인을 식별하기 어렵도록 하는 조치
- 데이터 비식별화 처리기법: 가명처리 / 총계처리 / 데이터값 삭제 / 범주화 / 데이터 마스킹
- 개인정보 비식별 조치 단계: 사전검토-비식별조치-적정성평가-사후관리
- 데이터 적제 도구: 플루언티드 / 플럼 / 스크라이브 / 로그스태시
- 빅데이터 저장기술: 분산 파일시스템 / 데이터베이스 클러스터 / NoSQL / 병렬 DBMS / 네이트워크 구성 저장 시스템 / 클라우드 파일 저장 시스템
- 분산 파일 시스템: 구글 파일 시스템 (GFS) / 하둡 분산 파일 시스템 (HDFS) / 러스터 (Luster)
- NoSQL: 전통적인 RDBMS와 다름 / 수평적 확장 / 고정된 테이블 스키마X 조인연산X
- NoSQL의 유형: Key-Value Store, Column Family Data Store, Document Store, Graph Store
- CAP 이론: Consistency(일관성), Availability(유효성), Partition Tolerance(분산 가능) 중 2가지만 만족
- 사용자 요구사항 분석 절차: 수집-분석-명세-검증
빅데이터 탐색
데이터 전처리
- 데이터 전처리: 데이터 정제 - 결측값 처리 - 이상값 처리 - 분석 변수 처리
- 데이터 오류 원인
- 결측값(Missing Value): 누락된 값
- 노이즈(Noise): 잘못 판단된 값
- 이상값(Outlier): 범위에서 많이 벗어난 값
- 데이터 일관성 유지를 위한 정제기법: 변환(Transform) / 파싱(Parsing) / 보강(Engancement)
- 데이터 정제 기술: ETL / 맵리듀스 / 스파크 / 스톰 / CEP / 피그 / 플럼
- 데이터 세분화
- 계층적 방법: 응집분석법, 분할분석법
- 비 계층적 방법: 인공신경망 모델, K-평균 군집화
- 결측값 종류: 완전 무작위 / 무작위 / 비 무작위
- 결측값 처리 절차: 결측값 식별 - 부호화 - 대체
- 결측값 처리 방법: 완전 분석법 / 평균 대치법 / 단순 확률 대치법 (핫덱, 콜드덱, 혼합 방법)
- 이상값 검출 방법: 통곗값 / 시각화 / 머신러닝 기법 / 마할라노비스 기법 / LOF / iForest
- 이상값 처리 방법: 삭제(절단/조정) / 대체법(상/하한값) / 변환(자연로그) / 박스플롯(수염) / 분류 처리
- 박스플롯 용어: 하위경계 / 1사분위 / 2사분위=중위수 / 3사분위 / 상위경계, 수염, 이상값
- 변수 선택: 종속변수와 가장 관련성 높은 독립변수만 선정하는 방법
- 변수 선택 기법: 필터 / 래퍼 / 임베디드 기법 (상세 생략)
- 차원 축소: 정보를 최대한 유지하면서, 변수 개수를 최대한 줄이는 탐색적 분석기법
- 주성분분석(PCA), 특이값분해(SVD), 요인분석, 독립성분분석(ICA), 다차원척도법(MDS)
- 파생변수: 새롭게 재정의한 변수
- 파생변수 생성방법: 단위 변환 / 표현형식 변환 / 요약통계량 변환 / 변수 결합
- 변수 변환: 단순 기능 변환 / 비닝(Binning) / 정규화 / 표준화
- 불균형 데이터 처리 기법: 타겟 데이터 매우 극소수인 경우, 정밀도 향상을 위해
- 언더 샘플링: 랜덤 언더 샘플링 / 토멕 링크 방법 / ENN / CNN / OSS
- 오버 샘플링: 랜덤 오버 샘플링 / SMOTE / Borderline-SMOTE / ADASYN
- 임곗값 이동
- 앙상블기법
데이터 탐색
- 탐색적 데이터 분석(EDA): 저항성 / 잔차 해석 / 자료 재표현 / 현시성
- 범주형(질적): 명목척도&순위척도
- 수치형(양적): 등간척도&비율척도
- 상관관계 분석: 공분산 / 피어슨 상관계수 / 카이제곱 검정(교차분석) / 스피어만 순위 상관계수
- 기초통계량
- 중심 경향성: 평균 / 중위수 / 최빈값
- 산포도: 범위 / 분산 / 표준편차 / 변동계수(CV) / 사분위수범위(IQR)
- 분포: 왜도 / 첨도
- 왼쪽 편도: 왜도 < 0, Mean < Median < Mode
- 오른쪽 편도: 왜도 > 0, Mode < Median < Mean
- 첨도 = 0: 정규분
- 변동계수(CV): 측정단위가 서로 다른 자료를 비교하기 위함
- 시공간 데이터: 시간에 따라 위치/형상이 변하는 데이터
- 문자열 처리 함수들: split, find, left, mid
통계기법 이해
- 기술 통계: 수집된 데이터를 확률/통계적으로 정리/요약 (분포의 특징 파악)
- 회귀분석: 결정계수, 선형성 / 등분산성 / 독립성 / 비상관성 / 정규성
- 분산분석(ANOVA): F-검정통계량
- 주성분분석(PCA): 일부 주성분으로 원래변수 변동을 설명
- 표본 추출: 단순 무작위 추출 / 계통 추출(간격) / 층화 추출(계층) / 군집 추출(군집)
- 자료 측정
- 질적 속성: 명목척도 / 순서척도
- 양적 속성: 구간척도 / 비율척도
- 확률분포
- 이산확률분포: 포아송 분포 / 베르누이 분포 / 이항 분포
- 연속확률분포: 정규분포 / 표준정규분포 / T-분포 / 카이제곱분포 / F-분포
- 표본분포: 표본이 가지는 추정량의 확률분포
- 용어: 모집단, 모수, 표본(샘플), 통계량, 큰 수의 법칙 중심극한정리(CLT)
- 추론 통계
- 점 추정: 모수를 하나의 값으로 추정, 불편성 / 효율성 / 일치성 / 충족성
- 구간 추정: 범위를 모수 추정 & 신뢰도 제시, 신뢰 수준, 신뢰 구간
- 가설 검정: 대립가설을 채택할 수 있는지 평가하는 과정
- 검정 통계량: 가설검정의 대상이 되는 모수를 추론하기 위해 사용하는 표본 통계량
- 가설 검정 오류
- 제 1종 오류 (알파 = 유의수준): 귀무가설이 참인데, 기각하는 오류
- 제 2종 오류 (베타 = 베타수준): 귀무가설이 거짓인데, 채택하는 오류
- p-value(유의확률)
빅데이터 모델링
분석모형 설계
- 모델(모형): 객체 / 시스템 / 개념에 대한 구조 / 작업을 보여주기 위한 패턴 / 계획 / 설명
- 통계 기반 분석모형: 기술통계 / 상관분석 / 회귀분석 / 분산분석 / 주성분분석 / 판별분석
- 통계 분석: 객관적인 의사결정을 위해
- 데이터마이닝 기반 분석 모형: 분류 / 예측 / 군집화 / 연관규칙
- 데이터마이닝: 패턴/관계/규칙 탐색, 지식/정보 추출
- 분류 모델: 범주형/이산형 변수 등의 범주를 예측, 통계 로지스틱 회귀분석 / 트리 CART 알고리즘 / 최적화 서포트 벡터 머신 SVM / 기계학습 역전파 알고리즘
- 예측 모델: 범주형/수치형 과거 데이터 특성을 분석하여 다른 데이터의 결괏값을 예측, 회귀 분석 / 의사결정나무 / 시계열 분석 / 인공신경망 ANN
- 군집화 모델: 이질적인 집단을 몇 개의 동질적인 소집단으로 세분화, 응집 분석법 / 분할 분석법 / K-평균 군집화 / 연관 규칙
- 머신러닝 기반 분석모형: 지도학습 / 비지도학습
- 지도학습: 정답/레이블이 포함, 로지스틱 회귀 / 인공신경망 분석 / 의사결정나무 / 서포트벡터머신 / 랜덤 포레스트 / 감성분석
- 비지도학습: 정답/레이블이 없음, 군집화 Clustering / 차원축소 기법 / 연관성 분석 / 자기조직화지도 SOM
- 모델이 간단하면 과소적합&학습손실, 모델이 복잡하면 과대적합&일반화손실
- 파라미터: 내부 / 학습 / 모델성능 결정
- 하이퍼 파라미터: 외부 / 경험 / 사용자가 결정
- 분석 모형 구축 절차: 요건정의 - 모델링 - 검증 및 테스트 - 적용
- 데이터 분할: 학습용 + 검증용 + 평가용
- 데이터 분할 이유: 과대 적합 방지 & 2종 오류 방지
분석기법 적용
- 회귀분석: 1개 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계기법
- 회귀모형 가정: 선형성 / 독립성 / 등분산성 / 비상관성 / 정상성
- 편차: 평균과의 차이
- 오차: 모집단에서 차이
- 잔차: 표본집단에서 차이
- 회귀분석 유형: 단순 / 다중 / 다항 / 곡선 / 로지스틱 / 비선형 회귀
- 최소제곱법 / 제곱합 / 결정계수(R^2=SSR/SST) / 수정된 결정계수 / 다중공산성
- 의사결정나무: 분할기준 속성 판별하여 트리형태로 모델링
- 부모 마디 / 자식 마디 / 뿌리 마디 / 끝 마디 (잎 노드) / 중간 마디 / 가지 / 깊이
- 의사결정나무 분석과정: 성장 - 가지치기 - 타당성평가 - 해석 및 예측
- 의사결정나무 성장: 입력공간을 재귀적으로 분할, 분리 기준 / 분류 규칙 / 정지 규칙 / 순수도(Purity)
- 분리 기준
- 이산형: 카이제곱 통계량의 p-값 / 지니 지수 / 엔트로피 지수
- 연속형: 분산분석의 F-통계량 / 본산의 감소량
- 의사결정나무 알고리즘: CART / C5.0 / CHAID / QUEST
- 인공신경망 (ANN): 사람 두뇌의 신경세포인 뉴런의 전기신호 전달을 모방한 기계학습 모델
- 서포트 벡터 머신 (SVM): 데이터들과 거리가 가장 먼 초평면을 선택하여 분리하는 지도학습기반의 이진선형 분류모델
- 연관성 분석: 데이터 내부에 존재하는 항목간의 상호관계/종속관계를 찾아내는 분석기법, 지지도 / 신뢰도 / 향상도
- 군집 분석: 여러 개의 관측값들로부터 유사성에만 기초해 n개의 군집으로 집단화하여 특성을 분석하는 다변량 분석기법
- 계층적 군집: 군집개수를 정하지 않고 유사한 개체를 군집화하는 과정을 반복하여 군집을 형성
- 군집 간의 거리측정 방법: 최단 / 최장 / 중심 / 평균 / 와드 연결법
- 연속형 변수 거리: 유클리드 / 맨하튼 / 민코프스키 / 표준화 / 마할라노비스 거리
- 명목형 변수 거리: 단순일치 / 자카드 / 순위상관 계수
- K-평균 군집: K개의 군집으로 묶는 알고리즘
- 혼합분포 군집: 데이터가 k개의 모수적 모형의 가중합으로 표현되는 모집단 모형이라는 가정으로 모수&가중치를 추정
- 혼합모형 = M개 분포의 가중합
- EM알고리즘 (기댓값 최대화)
- 자기 조직화 지도 (SOM): 대뇌피질&시각피질의 학습과정을 기반으로 모델화한 비지도 신경망 클러스터링 기법
- 범주형 자료분석: 종속변수가 1개의 범주형인 데이터를 분석하여 모형&독립변수의 유의성 분석
- 카이제곱 분석 (=교차분석): 적합도 검정 / 독립성 검정 / 동질성 검정
- 피셔 정확 검정: 분할표 문제로 카이제곱 검정의 정확도가 떨어지는 경우에 사용
- 다차원 척도법 (MDS): 유사성/비유사성 측정, 스트레스 값
- 주성분분석 (PCA): 차원축소 방법
- 시계열 분석
- 정상성: 시점에 상관없이 시계열의 특성이 일정
- 시계열 모형: 자기회귀 모형 (AR) / 이동평균 모형 (MA) / 자귀회귀 누적 이동평균 모형 (ARIMA)
- 분해 시계열: 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리
- 조건부 확률 / 전 확률의 정리 / 베이즈 정리
- 딥러닝: (아는 부분들 다수 생략)
- 비정형 데이터 분석기법: 텍스트 마이닝 / 감성 분석 / 오피니언 마이닝 / 웹 마이닝 / 사회연결망 분석 SNA
- 비모수 통계: 평균/분산과 같은 모집단에 분포에 대한 모수성을 가정하지 않고 분석
- 단일 표본: 부호 검정 / 윌콕슨 부호 순위 검정
- 두 표본: 윌콕슨 순위 합 검정 / 대응 표본 검정
- 3개 이상의 집단: 크루스칼-왈리스 검정
- 런 검정
빅데이터 결과해석
분석모형 평가 및 개선
- 회귀 모형 평가지표: 제곱합(SSE/SST/SSR) / 결정계수 / 수정된 결정계수 / Mallow's Cp
- 분류 모형 평가지표: 혼돈 행렬 / ROC곡선 / AUC / 이익 도표
- 분석 모형 진단: 오류 / 검증 / 시각화 / 진단
- 교차검증: 모델의 일반화 오차에 대해 신뢰할만한 추정치를 구하기 위한 검증기법, 홀드 아웃 교차 검증 / 랜덤 서브샘플링 / K-Fold Cross Validation / LOOCV / LpOCV / RLT / Bootstrap
- 모집단 평균에 대한 유의성 검정: Z-검정 / T-검정 / 분산분석 ANOVA
- 모집단 분산에 대한 유의성 검정: 카이제곱검정 / F-검정
- 적합도 검정: 표본집단의 분포가 주어진 특정 이론을 따르고 있는지 검정
- 가정된 확률이 정해진 경우는 카이제곱 검정
- 가정된 확률이 없는 경우는 정규성검정: 샤프로-윌크 검정 / 콜모고로프-스미르노프 검정 / Q-Q Plot
- 과대 적합 방지: 데이터 증가 / 모델의 복잡도 감소 / 가중치 규제 적용 / 드롭아웃
- 드롭아웃: 학습과정에서 신경망 일부를 사용하지 않음, 초기 드롭아웃 DNN / 공간적 드롭아웃 CNN / 시간적 드롭아웃 RNN
- 매개변수 최적화 기법: 확률적 경사 하강법 / 모멘텀 / AdaGrad / Adam
- 분석 모형 융합 - 취합 & 부스팅
- 취합 방법론: 다수결 / 배깅 / 페이스팅 / 랜덤 서브스페이스 / 랜덤 패치 / 랜덤 포레스트
- 부스팅 방법론: 에이다 부스트 / 그래디언트 부스트
분석결과 해석 및 활용
- 데이터 시각화: 그림/도형 등의 그래픽 요소들을 이용하여 데이터를 묘사/표현
- 데이터 시각화 유형: 시간 / 분포 / 관계 / 비교 / 공간 시각화
- 시간 시각화: 막대 그래프 / 누적 막대 그래프 / 선 그래프 / 영역 차트 / 계단식 차트
- 공간 시각화: 등치지역도 / 등치선도 / 도트맵 / 버블맵 / 카토그램
- 관계 시각화: 산점도 / 산점도 행렬 / 버블차트 / 히스토그램
- 비교 시각화: 플로팅 바 차트 / 히트맵 / 체르노프 페이스 / 스타 차트 / 평행 좌표 그래프
- 시각화 분석을 위한 데이터 유형: 범주 및 비율 / 추세 및 패턴 / 관계 및 연결
-인포그래픽: 중요한 정보를 하나의 그래픽으로 표현 (그래픽과 텍스트의 균형)
- 비즈니스 기여도 평가: 사업수행에 영향을 주는 요소
- 비즈니스 기여도 평가지표: 총소유비용 TCO / 투자대비효과 ROI / 순현재가치 NPV / 내부수익률 IRR / 투자회수기간 PP
- 빅데이터 모형 개발 및 운영: 분석목적 정의 - 가설검토 - 데이터 준비 및 처리 - 모델링 및 분석 - 정확도 및 성능 평가 - 운영
- 개선방안 수립: 시간이 지남에 따라 성능이 저하될 수 있으므로, 지속적인 성능 추적 필요
- 분석 결과에 따른 활용분야 파악&분류
- 빅데이터 비즈니스 모형
- 분석모형 모니터링: 실시간/배치 스케줄러가 시행되고 주기별로 성과가 나오고 있는지 모니터링
- 분석모형 성능 모니터링: 측정 항목별 임계치 & 이벤트 등급별 알람
- 성능 모니터링을 위한 측정 항목: 응답시간 / 사용률 / 가용성 / 정확성
- 성능 이벤트: 설정한 임계치가 초과되는 것
- 분석모형 리모델링: 편차가 일정 수준 이상으로 지속적으로 하랑하는 경우 개조
- 리모델링 고려사항: 결과를 정기적으로 재평가하여 모형을 재조정
오답노트
1과목
- HDFS는 GFS와 동일한 소스코드를 사용한다.
- 분석로드맵 설정 우선순위 고려요소: 전략적 중요도 / 비즈니스 성과 / ROI / 실행 용이성
- 빅데이터 분석기획 절차: 범위설정 - 프로젝트정의 - 수행계획수립 - 위험계획수립
- 3V: Volume, Variety, Velocity
- 페타, 엑사, 제타, 요타: 50, 60, 70, 80 승
- 개인정보보호 관련 법령: 개인정보 보호법, 정보통신망법, 신용정보법
- 개인정보차등보호: 데이터에 노이즈를 추가해 개인정보 보호와 데이터분석을 모두 진행
2과목
- 표준편차^2 = 분산 = 모분산/표본수
- 왼쪽 편도(꼬리): 왜도 < 0, Mean < Median < Mode
- 오른쪽 편도(꼬리): 왜도 > 0, Mode < Median < Mean
- 분산 = 제곱평균 - 평균^2
- 정규화: 보통 min-max 정규화
- 표준화: 평균 0, 표준편 1로 변환, 평균을 빼고 표준편차로 나눈다.
3과목
- 오차의 등분산성 / 정규성 / 독립성
- 지도학습: 로지스틱 회귀 / 인공신경망 분석 / 의사결정나무 / 서포트벡터머신 / 랜덤 포레스트 / 감성분석
- 비지도학습: 군집화 Clustering / 차원축소 기법 / 연관성 분석 / 자기조직화지도 SOM
- 라쏘: L1-norm
- 릿지: L2-norm
- 엘라스틱 넷: 라쏘와 릿지의 선형결합
4과목
- TP, FP(1종오류), FN(2종오류), TN, P와 N은 예측값 기준
- 민감도 = 재현율(Recall): TP / TP + FN
- 정밀도(Precision): TP / TP + FP
- 특이도: TN / TN + FP
참조
'STUDY' 카테고리의 다른 글
[자격증] 정보처리기사 실기 준비 (3) | 2024.10.17 |
---|---|
[자격증] DAsP 준비 (6) | 2024.09.25 |
[자격증] SQLP 준비 - 3과목 SQL 고급활용 및 튜닝 (개정 전) (0) | 2024.08.16 |
[데이터] GIS (0) | 2024.06.27 |
[LLM] VLM (Multimodal) 업무 (1) | 2024.06.19 |