본문 바로가기

STUDY

[자격증] ADsP 준비

데이터 이해

데이터의 이해

- 존재적 특성, 당위적 특성

- 정성적 데이터, 정량적 데이터

- 지식경영의 핵심 이슈: 암묵지, 형식지

- SECI 모델

    - 공화: 암묵 -> 암묵

    - 표출화: 암묵 -> 형식

    - 연결화: 형식 -> 형식

    - 내면화: 형식 -> 암묵

- DIKW 피라미드

    - Data(데이터): 객관적 사실

    - Information(정보): 데이터간 연관관계&의미도출

    - Knowledge(지식): 정보를 구조화&일반화

    - Wisdom(지혜): 깊은이해 -> 창의적 아이디어

- 바이트 크기: KMGT PEZY(페타, 엑사, 제타, 요타)

- 데이터베이스의 특징

    - 통합된 데이터: 중복X

    - 저장된 데이터: 저장 매체에 저장

    - 공용 데이터: 여러 사용자가 다른 목적

    - 변화되는 데이터: 변화하며 현재의 정확한 데이터 유지

- 데이터베이스 설계 절차: 요구사항 분석 - 개념적 설계 - 논리적 설계 - 물리적 설계

- 데이터베이스 활용

    - OLTP (On-Line Transaction Processing): 호스트 컴퓨터가 데이터베이스를 엑세스, 수시 갱신

    - OLAP (On-Line Analytical Processing): 정보 위주의 분석 처리

    - CRM (Customer Relationship Management): 고객 중심 자원 극대화

    - SCM (Supply Chain Magement): 공급망 관리

    - ERP (Enterprise Resource Planning): 경영 관리시스템

    - BI (Business Intelligence): 리포트 중심, 기업 활동에 연관된 의사 결정, 가트너

    - BA (Business Analytics): 분석에 초점, BI에서 진보

데이터의 가치와 미래

- 3V: Volume(규모), Variety(다양성), Velocity(속도)

- 빅데이터는 일반적인 범위를 초과하는 규모, 저렴함 비용으로 가치를 추출 지원하도록 고안

- 모바일 혁명을 정보 양산, 클라우드 컴퓨팅으로 처리 비용 감소

- 데이터 가치 측정이 어려움: 재사용이 일반화, 기존에 없던 가치 창출, 분석 불가 데이터도 분석

- 빅데이터가 만드는 본질적인 변화

    - 사전처리에서 사후처리로

    - 표본조사에서 전수조사로

    - 질보다 양으로

    - 인과관계에서 상관관계로

- 빅데이터 활용 3요소: 데이터, 기술, 인력

- 데이터 유형: 정형 데이터, 반정형 데이터, 비정형 데이터, 메타데이터, 인덱스

- 데이터웨어하우스: 주제지향성, 통합성, 비휘발성, 시계열성(수시적인 갱신이나 변경X)

- ETL (Extracion, Transformation and Load): 데이터 획득, 데이터 클렌징, 변환, 표준화, 통합, 시스템 적재

- 플랫폼형 비즈니스 모델: 기반 위에 생태계 구축

- 활용 테크닉

    - 연관규칙학습: 변인들 간 상관관계

    - 유형분석: 분류, 그룹

    - 유전자 알고리즘: 자연선택, 돌연변이

    - 기계학습: 훈련 학습 예측

    - 회귀분석: 돌깁변수에 따른 종속변수 변화로 변인의 관계파악

    - 감정분석: 글쓴이의 감정 분석, 긍정/부정 의견

    - 소셜네트워크 분석: 다른 사람과의 관계 파악, 영향력있는 사람찾기

- 위기요인과 통제방안: 사생활 침해 (동의제에서 책임제로), 책임 원칙 훼손 (범죄예측프로그램), 데이터 오용 (알고리즘 접근 허용)

가치 창조를 위한 데이터 사이언스와 전략 인사이트

- BI와 비교한 빅데이터 분석 키워드: Information, Ad hoc Report, Alerts, Clean Data

- 가트너 DS 역량: 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬(통찰력, 설득력, 협력)

- DBMS 종류: 관계형, 객체지향, 네트워크, 계층형

- 개인정보 비식별화 기법: 데이터 마스킹, 가명처리, 총계처리, 데이터값 삭제, 데이터 범주화

추가

- 알고리즈미스트: 부당하게 피해가 발생하는 것을 막는 역할, 알고리즘 코딩 해석

- 빅데이터 가치 패러다임: Digitalization-Connection-Agency

- DS에 요구되는 인문학 (정보, 통찰의 과거, 현재 ,미래): 리포팅, 경고, 추출, 모델링, 권고, 예측(최적화)

 

데이터분석 기획

데이터분석 기획의 이해

- 빅데이터 분석 기획 유형

    - 최적화(Optimization): 분석 대상을 알고 분석 방법을 안다.

    - 솔루션(Solution): 분석 대상을 알고 분석 방법을 모른다.

    - 통찰(Insight): 분석 대상을 모르고 분석 방법을 안다.

    - 발견(Discovery): 분석 대상을 모르고 분석 방법을 모른다.

- 기획 고려사항: 가용한 데이터, 적절한 유스케이스, 수행 장애요소

- 방법론 모델

    - 폭포수 모델: 단계적

    - 나선형 모델: 반복으로 점진적

    - 프로토타입 모델: 일부분만 우선적으로 개발

- 방법론 구성: 단계(Phase) / 태스크(Task) / 스텝(Step)

- 방법론 구성요소: 절차, 방법, 도구와 기법, 템플릿과 산출물

- 빅데이터 분석 방법론 유형

    - KDD: 선택-전처리-변환-데이터마이닝-평가

    - CRISP-DM: 업무이해-데이터이해-데이터준비-모델링-평가-전개

    - SEMMA: 샘플링-탐색-수정-모델링-검증

- SOW (Statement Of Work): 입력자료, 프로세스 및 도구, 출력자료

- 프로젝트 위험관리: 회피, 전이, 완화, 수용

- 하향식 접근 방식 (Top-down): 문제가 주어지고 해법을 찾음, 주로 지도학습

- 상향식 접근 방식 (Botton-up): 가치 있는 문제를 도출, 주로 비지도학습

- 지도학습과 비지도학습: 대충 알지만 예시가 개많으니 따로 보도록 합시다

- 분석 과제 관리를 위한 주요 영역: 데이터 크기, 데이터 복잡성, 속도, 분석 복잡성, 정확도와 정밀성

- 분석 프로젝트 관리 항목: 범위, 시간, 원가, 품질, 통합, 조달, 자원, 리스크, 의사소통, 이해관계자

분석 마스터 플랜

- ISP (Information Strategy Planning): 전사적인 종합추진 계획

- ROI 관점 빅데이터 특징: 투자비용 요소 (3V), 비즈니스 효과 요소 (Value)

- 데이터 분석 과제 우선순위: 왠지몰라도 그지같지만 반대인거 생각하기

    - 시급성 기준: 3-4-2

    - 난이도 기준: 3-1-2

- 조직 구조

    - 집중 구조: 전담조직담당, 이중화, 이원화 가능성

    - 기능 구조: 해당 업무부서에서 분석 수행, 일반적, 전사적 분석 어려움

    - 분산 구조: 분석조직 인력이 배치, 역할 분담 명확해야함

추가

- 데이터 거버넌스 3요소: 원칙, 조직, 프로세스

- 데이터 거버넌스 체계: 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동

- 분석 거버넌스 체계 구성요소: Organization, Process, System, Data, Human Resource

- 분석 수준 진단 결과

    - 확산형: 높은 준비도, 높은 성숙도

    - 도입형: 높은 준비도, 낮은 성숙도

    - 정착형: 낮은 준비도, 높은 성숙도

    - 준비형: 낮은 준비도, 낮은 성숙도

- 분석 로드맵 단계

    - 데이터 분석체계 도입: 분석 기회 발굴, 분석 과제 정의, 로드맵 수립

    - 데이터 분석 유효성 검증: 분석 알고리즘 설계, 아키텍처 설계, 분석 과제 파일럿 수행

    - 데이터 분석 확산 및 고도화: 변화관리, 시스템 구축, 유관 시스템 고도화

 

데이터분석

R기초와 데이터 마트

** R은 암기보단 눈치껏 풀것 (함수명만 보고 유추 못할 정도는 아님) **

- 데이터 마트: 데이터웨어하우스와 사용자 사이의 중간층

- 요약변수: 분석에 맞게 종합한 변수, 재활용성 높음

- 파생변수: 의미를 부여한 변수, 주관적

- plyr: apply 함수 기반, 반복문을 사요하지 않고도 간단하고 빠르게 데이터 처리하는 패키지

- bining: 연속형 변수 구간화

- 결측값 처리 방법

    - 단순 대치법: completes analysis (레코드 삭제), 평균대치법, 단순확률 대치법

    - 다중 대치법: m번 대치

- 이상값 탐지: ESD (평균에서 K*표준편차)

통계분석

- 표본조사에서 표본 편의는 확률화에 의해 최소화하거나 없앰

- 표본 추출 방법

    - 단순 랜덤 추출법: 임의 선택

    - 계통 추출법: 구간에서 하나를 선택

    - 집락 추출법: 각 집락에서 표본을 임의 선택

    - 층화 추출법: 유사한 것끼리 층으로 나눈 후 표본 랜덤 추출

- 척도: 명목척도-서열(순서)척도-등간(구간)척도-비율척도 (각각 순서, 균등한 간격, 절대적 존재가 생김, 왼쪽 둘은 질적 자료, 오른쪽 둘은 양적 자료)

- 통계 분석 기법: 교차 분석, 빈도 분석, 판별 분석, 요인 분석, 평균비교, 군집 분석, 회귀 분석, 분산 분석, 상관 분석

- 이산형 확률 분: 확률 질량 함수

    - 베르누이 확률 분포: 결과가 2가지만

    - 이항분포: 베루누이 n번 반복, k번 성공 확률 분포

    - 기하분포: 성공확률 p인 베루누이, 첫 성공까지 실패 확률 분포

    - 다항분포: 결과가 3가지 이상

    - 포아송분포: 시간과 공간 내 확률 분포

- 연속형 확률 분포: 확률 밀도 함수

    - 균일분포: 모두 균일한 확률

    - 정규분포

    - 지수분포: 사건 발생까지 경과시간의 분포

    - t-분포: 두 집단 평균 동일성 검정

    - 카이제곱 분포: 두 집단 동질성 검정

    - F-분포: 두 집단 분산 동일성 검정

- 자유도(df): 표본 - 1

- p-value: 귀무가설을 지지하는 확률, 유의수준(알파)과 비교

- 1종 오류: 귀무가설이 사실인데 사실이 아니라 판정

- 2종 오류: 귀무가설이 사실이 아닌데 사실이라고 판정

- 양측 검정은 유의수준 /2

- 모수적 검정: 모집단의 분포에 대한 가정

- 비모수적 검정: 관측값들의 순위나 차이부호로 검정 (부호검정)

- 왼쪽 편도: 왜도 < 0, Mean < Median < Mode, 왼쪽 꼬리

- 오른쪽 편도: 왜도 > 0, Mode < Median < Mean, 오른쪽 꼬리

- 첨도 = 0: 정규분포

- 히스토그램, 막대그래프, 줄기-잎 그림, 상자그림, 산점도, 파레토그림

- 회귀계수 추정: 최소제곱법, 최소자승법

- 회귀모형 가정: 선형성, 독립성, 등분산성, 비상관성, 정상성(정규성)

- 정규성 검정: Q-Q plot, 샤피로-윌크 검정, 콜모고르프-스미노프 검정, 히스토그램

- F-통계량 p-value 0.05보다 작으면 회귀식 통계적으로 유의미하다고 봄

- t-통계량 p-value가 모두 0.01보다 작으면 유의

- 결정계수가 1에 가까우면 설명력 높음 =SSR/SST=SSR(SSR+SSE)

- 다중공산성: 보통 VIF 4 넘으면 존재한다고 봄

- 최적 회귀방정식 선택

    - 모든 조합 회귀분석: AIC나 BIC의 값이 가장 작은 모형 선택

    - 전진선택법: 변수가 유의미하면 추가

    - 후진제거법: 적은 영향을 주는 변수 제거

    - 단계별방법: 추가, 제거 반복

    - 가능한 적은 수의 설명변수 포함

- 정규화 방법

    - 라쏘: L1-norm

    - 릿지: L2-norm

    - 엘라스틱 넷: 라쏘와 릿지의 선형결합

- 다변량 분석 방법: 주성분분석(PCA), 요인분석, 판별분석, 군집분석, 정준상관분석, 다차원척도법

- 상관분석 유형

    - 피어슨 상관계수: 등간척도, 비율척도, 선형관계 크기 측정, 비선형적인 관계 X

    - 스피어만 상관계수: 순서척도, 서열척도, 비선형적인 관계 나타냄

- 시계열 정상성 조건: 평균 일정, 분산 시점 의존 X, 공분산 시차에만 의존

- 이동평균법, 지수평활법

- 시계열 모형: AR(자기회귀모형), MA(이동평균모형), ARIMA(자기회귀누적이동평균모형)

- 시계열 구성 요소: 추세 요인, 계절 요인, 순환 요인, 불규칙 요인

- 다차원척도법 (스트레스 0.05 이내면 매우 좋음) 종류: 계량적 MDS (구간척도, 비율척도), 비계량적 MDS (순서척도)

- 주성분분석은 포기

정형 데이터 마이닝

- 데이터 마이닝 기능: 분류, 추정, 예측, 연관 분석, 군집, 기술

- 데이터 마이닝 단계: 목적 정의 - 데이터 준비 - 데이터 가공 - 마이닝 기법 적용 - 검증

- 로지스틱 회귀모형: 오즈비 (성공률/실패율), 승산비 (오즈가 몇배 증가하는지), 카이제곱 검정

- 의사결정나무: 정기규칙과 가지치기 방법

    - 이산형(분류나무): CHAID - 카이제곱 p, CART - 지니계수, C5.0 - 엔트로피지수

    - 연속형(회귀나무): CHAID - ANOVA F, CART - 분산 감소량

- 배깅: 여러 부트스트랩 데이터의 분석 모델 결합

- 부스팅: 약한 모형들을 결합

- 랜덤포레스트: 각각 데이터 집합에 대해 모형 생성 결합

- 홀드아웃, 교차검증, 부트스트랩

- TP, FP(1종오류), FN(2종오류), TN, P와 N은 예측값 기준

- 민감도 = 재현율(Recall): TP / TP + FN

- 정밀도(Precision): TP / TP + FP

- 특이도: TN / TN + FP

- ROC 그래프: x는 1-특이도, y는 민감도, 밑부분 면적 (AUC)

- 이익도표, 향상도 곡선

- 군집 거리 측정 방법

    - 최단연결법(단일연결법): 최소값이 군집간 거리, 고립된 군집 찾기 중점

    - 최장연결법(완전연결법): 최대값이 군집간 거리, 내부 응집성 중점

    - 중심연결법: 중심간 거리를 군집간 거리

    - 평균연결법: 모든 평균을 군집간 거리, 계산량이 불필요하게 많음

    - 와드연결법: 오차제곱합 기초, 계층적 군집분석 병합시 증가량이 작도록

- 거리

    - 유클리드 거리: 일반 거리

    - 맨하탄 거리: 좌표 거리

    - 마할라노비스 거리: 변수들의 산포를 고려하여 표준화한 거리

    - 표준화 거리: 표준편차로 퍽도 변환 후 유클리디안 거리 계산

- K-means: non-convex 군집 성능 떨어짐, 이상값에 민감, PAM, min-max 정규화

- 혼합 분포 군집 (EM 알고리즘), SOM

- 연관분석 측도

    - 지지도: P(A n B)

    - 신뢰도: P(A n B) / P(A)

    - 향상도: P(A n B) / P(A) x P(B)

추가

- 결측값 처리 절차: 식별-부호화-대체

- 시계열 분석 절차: 그래프 - 추세, 계절 제거 - 잔차 예측 - 모델 적합 - 재반영 예측