데이터 이해
데이터의 이해
- 존재적 특성, 당위적 특성
- 정성적 데이터, 정량적 데이터
- 지식경영의 핵심 이슈: 암묵지, 형식지
- SECI 모델
- 공화: 암묵 -> 암묵
- 표출화: 암묵 -> 형식
- 연결화: 형식 -> 형식
- 내면화: 형식 -> 암묵
- DIKW 피라미드
- Data(데이터): 객관적 사실
- Information(정보): 데이터간 연관관계&의미도출
- Knowledge(지식): 정보를 구조화&일반화
- Wisdom(지혜): 깊은이해 -> 창의적 아이디어
- 바이트 크기: KMGT PEZY(페타, 엑사, 제타, 요타)
- 데이터베이스의 특징
- 통합된 데이터: 중복X
- 저장된 데이터: 저장 매체에 저장
- 공용 데이터: 여러 사용자가 다른 목적
- 변화되는 데이터: 변화하며 현재의 정확한 데이터 유지
- 데이터베이스 설계 절차: 요구사항 분석 - 개념적 설계 - 논리적 설계 - 물리적 설계
- 데이터베이스 활용
- OLTP (On-Line Transaction Processing): 호스트 컴퓨터가 데이터베이스를 엑세스, 수시 갱신
- OLAP (On-Line Analytical Processing): 정보 위주의 분석 처리
- CRM (Customer Relationship Management): 고객 중심 자원 극대화
- SCM (Supply Chain Magement): 공급망 관리
- ERP (Enterprise Resource Planning): 경영 관리시스템
- BI (Business Intelligence): 리포트 중심, 기업 활동에 연관된 의사 결정, 가트너
- BA (Business Analytics): 분석에 초점, BI에서 진보
데이터의 가치와 미래
- 3V: Volume(규모), Variety(다양성), Velocity(속도)
- 빅데이터는 일반적인 범위를 초과하는 규모, 저렴함 비용으로 가치를 추출 지원하도록 고안
- 모바일 혁명을 정보 양산, 클라우드 컴퓨팅으로 처리 비용 감소
- 데이터 가치 측정이 어려움: 재사용이 일반화, 기존에 없던 가치 창출, 분석 불가 데이터도 분석
- 빅데이터가 만드는 본질적인 변화
- 사전처리에서 사후처리로
- 표본조사에서 전수조사로
- 질보다 양으로
- 인과관계에서 상관관계로
- 빅데이터 활용 3요소: 데이터, 기술, 인력
- 데이터 유형: 정형 데이터, 반정형 데이터, 비정형 데이터, 메타데이터, 인덱스
- 데이터웨어하우스: 주제지향성, 통합성, 비휘발성, 시계열성(수시적인 갱신이나 변경X)
- ETL (Extracion, Transformation and Load): 데이터 획득, 데이터 클렌징, 변환, 표준화, 통합, 시스템 적재
- 플랫폼형 비즈니스 모델: 기반 위에 생태계 구축
- 활용 테크닉
- 연관규칙학습: 변인들 간 상관관계
- 유형분석: 분류, 그룹
- 유전자 알고리즘: 자연선택, 돌연변이
- 기계학습: 훈련 학습 예측
- 회귀분석: 돌깁변수에 따른 종속변수 변화로 변인의 관계파악
- 감정분석: 글쓴이의 감정 분석, 긍정/부정 의견
- 소셜네트워크 분석: 다른 사람과의 관계 파악, 영향력있는 사람찾기
- 위기요인과 통제방안: 사생활 침해 (동의제에서 책임제로), 책임 원칙 훼손 (범죄예측프로그램), 데이터 오용 (알고리즘 접근 허용)
가치 창조를 위한 데이터 사이언스와 전략 인사이트
- BI와 비교한 빅데이터 분석 키워드: Information, Ad hoc Report, Alerts, Clean Data
- 가트너 DS 역량: 데이터 관리, 분석 모델링, 비즈니스 분석, 소프트 스킬(통찰력, 설득력, 협력)
- DBMS 종류: 관계형, 객체지향, 네트워크, 계층형
- 개인정보 비식별화 기법: 데이터 마스킹, 가명처리, 총계처리, 데이터값 삭제, 데이터 범주화
추가
- 알고리즈미스트: 부당하게 피해가 발생하는 것을 막는 역할, 알고리즘 코딩 해석
- 빅데이터 가치 패러다임: Digitalization-Connection-Agency
- DS에 요구되는 인문학 (정보, 통찰의 과거, 현재 ,미래): 리포팅, 경고, 추출, 모델링, 권고, 예측(최적화)
데이터분석 기획
데이터분석 기획의 이해
- 빅데이터 분석 기획 유형
- 최적화(Optimization): 분석 대상을 알고 분석 방법을 안다.
- 솔루션(Solution): 분석 대상을 알고 분석 방법을 모른다.
- 통찰(Insight): 분석 대상을 모르고 분석 방법을 안다.
- 발견(Discovery): 분석 대상을 모르고 분석 방법을 모른다.
- 기획 고려사항: 가용한 데이터, 적절한 유스케이스, 수행 장애요소
- 방법론 모델
- 폭포수 모델: 단계적
- 나선형 모델: 반복으로 점진적
- 프로토타입 모델: 일부분만 우선적으로 개발
- 방법론 구성: 단계(Phase) / 태스크(Task) / 스텝(Step)
- 방법론 구성요소: 절차, 방법, 도구와 기법, 템플릿과 산출물
- 빅데이터 분석 방법론 유형
- KDD: 선택-전처리-변환-데이터마이닝-평가
- CRISP-DM: 업무이해-데이터이해-데이터준비-모델링-평가-전개
- SEMMA: 샘플링-탐색-수정-모델링-검증
- SOW (Statement Of Work): 입력자료, 프로세스 및 도구, 출력자료
- 프로젝트 위험관리: 회피, 전이, 완화, 수용
- 하향식 접근 방식 (Top-down): 문제가 주어지고 해법을 찾음, 주로 지도학습
- 상향식 접근 방식 (Botton-up): 가치 있는 문제를 도출, 주로 비지도학습
- 지도학습과 비지도학습: 대충 알지만 예시가 개많으니 따로 보도록 합시다
- 분석 과제 관리를 위한 주요 영역: 데이터 크기, 데이터 복잡성, 속도, 분석 복잡성, 정확도와 정밀성
- 분석 프로젝트 관리 항목: 범위, 시간, 원가, 품질, 통합, 조달, 자원, 리스크, 의사소통, 이해관계자
분석 마스터 플랜
- ISP (Information Strategy Planning): 전사적인 종합추진 계획
- ROI 관점 빅데이터 특징: 투자비용 요소 (3V), 비즈니스 효과 요소 (Value)
- 데이터 분석 과제 우선순위: 왠지몰라도 그지같지만 반대인거 생각하기
- 시급성 기준: 3-4-2
- 난이도 기준: 3-1-2
- 조직 구조
- 집중 구조: 전담조직담당, 이중화, 이원화 가능성
- 기능 구조: 해당 업무부서에서 분석 수행, 일반적, 전사적 분석 어려움
- 분산 구조: 분석조직 인력이 배치, 역할 분담 명확해야함
추가
- 데이터 거버넌스 3요소: 원칙, 조직, 프로세스
- 데이터 거버넌스 체계: 데이터 표준화, 데이터 관리 체계, 데이터 저장소 관리, 표준화 활동
- 분석 거버넌스 체계 구성요소: Organization, Process, System, Data, Human Resource
- 분석 수준 진단 결과
- 확산형: 높은 준비도, 높은 성숙도
- 도입형: 높은 준비도, 낮은 성숙도
- 정착형: 낮은 준비도, 높은 성숙도
- 준비형: 낮은 준비도, 낮은 성숙도
- 분석 로드맵 단계
- 데이터 분석체계 도입: 분석 기회 발굴, 분석 과제 정의, 로드맵 수립
- 데이터 분석 유효성 검증: 분석 알고리즘 설계, 아키텍처 설계, 분석 과제 파일럿 수행
- 데이터 분석 확산 및 고도화: 변화관리, 시스템 구축, 유관 시스템 고도화
데이터분석
R기초와 데이터 마트
** R은 암기보단 눈치껏 풀것 (함수명만 보고 유추 못할 정도는 아님) **
- 데이터 마트: 데이터웨어하우스와 사용자 사이의 중간층
- 요약변수: 분석에 맞게 종합한 변수, 재활용성 높음
- 파생변수: 의미를 부여한 변수, 주관적
- plyr: apply 함수 기반, 반복문을 사요하지 않고도 간단하고 빠르게 데이터 처리하는 패키지
- bining: 연속형 변수 구간화
- 결측값 처리 방법
- 단순 대치법: completes analysis (레코드 삭제), 평균대치법, 단순확률 대치법
- 다중 대치법: m번 대치
- 이상값 탐지: ESD (평균에서 K*표준편차)
통계분석
- 표본조사에서 표본 편의는 확률화에 의해 최소화하거나 없앰
- 표본 추출 방법
- 단순 랜덤 추출법: 임의 선택
- 계통 추출법: 구간에서 하나를 선택
- 집락 추출법: 각 집락에서 표본을 임의 선택
- 층화 추출법: 유사한 것끼리 층으로 나눈 후 표본 랜덤 추출
- 척도: 명목척도-서열(순서)척도-등간(구간)척도-비율척도 (각각 순서, 균등한 간격, 절대적 존재가 생김, 왼쪽 둘은 질적 자료, 오른쪽 둘은 양적 자료)
- 통계 분석 기법: 교차 분석, 빈도 분석, 판별 분석, 요인 분석, 평균비교, 군집 분석, 회귀 분석, 분산 분석, 상관 분석
- 이산형 확률 분: 확률 질량 함수
- 베르누이 확률 분포: 결과가 2가지만
- 이항분포: 베루누이 n번 반복, k번 성공 확률 분포
- 기하분포: 성공확률 p인 베루누이, 첫 성공까지 실패 확률 분포
- 다항분포: 결과가 3가지 이상
- 포아송분포: 시간과 공간 내 확률 분포
- 연속형 확률 분포: 확률 밀도 함수
- 균일분포: 모두 균일한 확률
- 정규분포
- 지수분포: 사건 발생까지 경과시간의 분포
- t-분포: 두 집단 평균 동일성 검정
- 카이제곱 분포: 두 집단 동질성 검정
- F-분포: 두 집단 분산 동일성 검정
- 자유도(df): 표본 - 1
- p-value: 귀무가설을 지지하는 확률, 유의수준(알파)과 비교
- 1종 오류: 귀무가설이 사실인데 사실이 아니라 판정
- 2종 오류: 귀무가설이 사실이 아닌데 사실이라고 판정
- 양측 검정은 유의수준 /2
- 모수적 검정: 모집단의 분포에 대한 가정
- 비모수적 검정: 관측값들의 순위나 차이부호로 검정 (부호검정)
- 왼쪽 편도: 왜도 < 0, Mean < Median < Mode, 왼쪽 꼬리
- 오른쪽 편도: 왜도 > 0, Mode < Median < Mean, 오른쪽 꼬리
- 첨도 = 0: 정규분포
- 히스토그램, 막대그래프, 줄기-잎 그림, 상자그림, 산점도, 파레토그림
- 회귀계수 추정: 최소제곱법, 최소자승법
- 회귀모형 가정: 선형성, 독립성, 등분산성, 비상관성, 정상성(정규성)
- 정규성 검정: Q-Q plot, 샤피로-윌크 검정, 콜모고르프-스미노프 검정, 히스토그램
- F-통계량 p-value 0.05보다 작으면 회귀식 통계적으로 유의미하다고 봄
- t-통계량 p-value가 모두 0.01보다 작으면 유의
- 결정계수가 1에 가까우면 설명력 높음 =SSR/SST=SSR(SSR+SSE)
- 다중공산성: 보통 VIF 4 넘으면 존재한다고 봄
- 최적 회귀방정식 선택
- 모든 조합 회귀분석: AIC나 BIC의 값이 가장 작은 모형 선택
- 전진선택법: 변수가 유의미하면 추가
- 후진제거법: 적은 영향을 주는 변수 제거
- 단계별방법: 추가, 제거 반복
- 가능한 적은 수의 설명변수 포함
- 정규화 방법
- 라쏘: L1-norm
- 릿지: L2-norm
- 엘라스틱 넷: 라쏘와 릿지의 선형결합
- 다변량 분석 방법: 주성분분석(PCA), 요인분석, 판별분석, 군집분석, 정준상관분석, 다차원척도법
- 상관분석 유형
- 피어슨 상관계수: 등간척도, 비율척도, 선형관계 크기 측정, 비선형적인 관계 X
- 스피어만 상관계수: 순서척도, 서열척도, 비선형적인 관계 나타냄
- 시계열 정상성 조건: 평균 일정, 분산 시점 의존 X, 공분산 시차에만 의존
- 이동평균법, 지수평활법
- 시계열 모형: AR(자기회귀모형), MA(이동평균모형), ARIMA(자기회귀누적이동평균모형)
- 시계열 구성 요소: 추세 요인, 계절 요인, 순환 요인, 불규칙 요인
- 다차원척도법 (스트레스 0.05 이내면 매우 좋음) 종류: 계량적 MDS (구간척도, 비율척도), 비계량적 MDS (순서척도)
- 주성분분석은 포기
정형 데이터 마이닝
- 데이터 마이닝 기능: 분류, 추정, 예측, 연관 분석, 군집, 기술
- 데이터 마이닝 단계: 목적 정의 - 데이터 준비 - 데이터 가공 - 마이닝 기법 적용 - 검증
- 로지스틱 회귀모형: 오즈비 (성공률/실패율), 승산비 (오즈가 몇배 증가하는지), 카이제곱 검정
- 의사결정나무: 정기규칙과 가지치기 방법
- 이산형(분류나무): CHAID - 카이제곱 p, CART - 지니계수, C5.0 - 엔트로피지수
- 연속형(회귀나무): CHAID - ANOVA F, CART - 분산 감소량
- 배깅: 여러 부트스트랩 데이터의 분석 모델 결합
- 부스팅: 약한 모형들을 결합
- 랜덤포레스트: 각각 데이터 집합에 대해 모형 생성 결합
- 홀드아웃, 교차검증, 부트스트랩
- TP, FP(1종오류), FN(2종오류), TN, P와 N은 예측값 기준
- 민감도 = 재현율(Recall): TP / TP + FN
- 정밀도(Precision): TP / TP + FP
- 특이도: TN / TN + FP
- ROC 그래프: x는 1-특이도, y는 민감도, 밑부분 면적 (AUC)
- 이익도표, 향상도 곡선
- 군집 거리 측정 방법
- 최단연결법(단일연결법): 최소값이 군집간 거리, 고립된 군집 찾기 중점
- 최장연결법(완전연결법): 최대값이 군집간 거리, 내부 응집성 중점
- 중심연결법: 중심간 거리를 군집간 거리
- 평균연결법: 모든 평균을 군집간 거리, 계산량이 불필요하게 많음
- 와드연결법: 오차제곱합 기초, 계층적 군집분석 병합시 증가량이 작도록
- 거리
- 유클리드 거리: 일반 거리
- 맨하탄 거리: 좌표 거리
- 마할라노비스 거리: 변수들의 산포를 고려하여 표준화한 거리
- 표준화 거리: 표준편차로 퍽도 변환 후 유클리디안 거리 계산
- K-means: non-convex 군집 성능 떨어짐, 이상값에 민감, PAM, min-max 정규화
- 혼합 분포 군집 (EM 알고리즘), SOM
- 연관분석 측도
- 지지도: P(A n B)
- 신뢰도: P(A n B) / P(A)
- 향상도: P(A n B) / P(A) x P(B)
추가
- 결측값 처리 절차: 식별-부호화-대체
- 시계열 분석 절차: 그래프 - 추세, 계절 제거 - 잔차 예측 - 모델 적합 - 재반영 예측
'STUDY' 카테고리의 다른 글
[자격증] AICE PROFESSIONAL (0) | 2024.12.14 |
---|---|
[자격증] 빅데이터 분석 기사 실기 준비 (2) | 2024.11.16 |
[자격증] 정보처리기사 실기 준비 (3) | 2024.10.17 |
[자격증] DAsP 준비 (6) | 2024.09.25 |
[자격증] 빅데이터 분석 기사 필기 준비 (2) | 2024.08.30 |