데이터 수집 목적
- 기업 활동과 서비스 운영 목적
- 데이터 규모가 크고 복잡한 관계
- 정보와 인사이트를 얻기 위한 절차로 데이터 분석 수행
- 분석 기획 절차가 필요
- 데이터 분석 목적
- 연구와 실험에서 주로 사용
- 관측 및 실험을 통한 측정
- 설문이나 면담을 통한 조사
- 표본 데이터사용
- 비교적 분석 방법론도 단순
알고리즘 활용
- 알고리즘
- 문제 풀이에 필요한 계산 절차 또는 처리 과정의 순서
- 머신러닝
- 인공지능의 한 분야
- 데이터를 통해 학습하고 일반화할 수 있는 알고리즘을 개발
- 목적과 상황에 따라 적절한 알고리즘 선택 필요
- 인공지능
- 넒은 의미에서 기계, 컴퓨터 시스템이 발휘하는 지능
- 환경을 인식하고 학습과 지능을 사용해 정의된 목표를 최대한 달성할 수 있도록 방법을 연구
- 데이터 마이닝 (= 데이터 분석)
- 가치 있는 정보와 인사이트를 추출하고 탐색하기 위한 절차나 방법론을 의미
- KDD, CRISP-DM
데이터 처리
- 분석 방법론을 적용하기 이정에 적합한 형태로 변환
- 처리 프로세스
- 필터링 → 정렬 → 집계 → 변형 → 표준화 및 정규화 → 파생변수 생성
→ 데이터 결합 → 정제(오류 제거) → 결측값 처리 → 이상값 처리
- 결측값(수집되지 못한 값,NA) 처리 방법
- 데이터 제거 - 포함한 것을 제거 , 결측값만 제거
- 평균 대치 - 평균, 중앙값등으로 대치
- 확률론적 대치 - 최빈값, 랜덤변수등
- 단순 대치
- 다중 대치 - 여러 번 대치 후 분석해서 결과를 결합
- 이상값(비정상적인 값) 처리 방법
- ESD 테스트 : 평균에서 양쪽으로 3 표준편차를 정상 범주로 설정
- 사분위수 사용
- (75퍼 값 + 마진) ~ (25퍼 값 - 마진)
- 마진 = (75퍼에 있는 값 - 25퍼에 있는 값) * 1.5 75퍼 + 마진, 25퍼- 마진
분석 방법
- 기술통계와 추론통계
- 통계학에서 사용하는 방식, 모든 계산된 숫자를 통계랑이라고 함
- 기술통계
- 데이터를 직접 활용하여 통계량을 계산하거나 그래프를그림
- 단순 집계 + 시각화
- 추론통계(추리통계)
- 통계량 및 알고리즘의 결과물을 바탕으로 사실을 일반화하고 전체나 미래를 추측
- 확률을 계산해 활용하는 것 → 불확실성이 존재
- 추정/통계검정 + 통계 모형
- 탐색적 데이터 분석 EDA
- 데이터에 숨어 있는 정보를 탐색하기 위한 절차
- 주제나 절차에 상관없이 초기에 주로 실행
- CDA 확증적 데이터 분석: 수집된 데이터를 약속된 분석 방법으로 분석하는것
- 지도학습과 비지도 학습
- 머신러닝에 속하는 알고리즘 - 지도학습, 비지도학습, 강화학습
- 지도학습 : 관심변수가 존재, 나머지 변수를 활용해 관심변수의 차이와 패턴을 설명
- 비지도학습 : 관심변수가 없는 상태, 변수나 관측치 간 관계나 패턴을 탐색하는 방법
- 정형 데이터 분석과 비정형 데이터 분석
- 정형 데이터 분석 : 고전적이고 일반적인 데이터 형태 → 기술통계와 추론통계등 사용
- 비정형 데이터 분석 : 자유로운 형태, 각 형태에 맞는 방법을 사용 → 임베딩을 이용해 정형화
데이터와 확률 변수
- 데이터(자료)
- 대상의 상태와 현황에 대해 관찰이나 측정을 통해 수집한 값들의 집합
- 파일이나 데이터베이스 등에 실제 저장된 값
- 다양한 형식의 데이터 존재
- 확률변수
-
확률 실험의 결과를 수치로 나타내는 변수
- 불확실성을 포함한 미래 가상 상황을 다룰 때 사용
-
고정적이지않고 결정되어있지 않다.
Ex) 한국 성인 남성의 키