• 나이브 베이즈 분류기

    • 설명 범주의 조건에 따라 범주형 관심변수가 특정 범주일 확률
    • 베이즈 정리(사전→사후) + 설명 변수간 독립을 가정한 분류 알고리즘
      • 독립이 아닐때 성능 안좋음
  • 앙상블 기법

    • 분류 정확도 향상
    • 부스팅 : 이전 모양의 오차를 보완 → 잘못된 것에 더 가중치
    • 배깅 : 붓스트랩을 활용 → 여러개의 모형 → 집계
    • 스태킹 : 종합하는 것, 서로 다를 수록 성능 좋음
  • 시계열분해

    • 요인
      • 추세 : 장기적인 경향
      • 순환 : 경제나 자연현상으로 설명되는 일정하지 않은 주기
      • 불규칙 :
      • 계절 : 단기적인 반복 패턴, 장기X
    • 상황에 따라 순환 요소
    • 정상성
      • 평균과 분산이 일정한 상태
      • 차분을가장 많이 사용
  • 거리 측정

    • 연속형 변수간
      • 맨해튼 : 제일짧은거리
      • 체비쇼프 거리 : 동일 위치 최대 절대값의 차이
      • 마할라노비스 : 상관관계를 고려
    • 자카드 거리 : 집합 중 전체 원소 개수와 교집합 개수의 비율 (범주형)
    • 피어슨 상관 계수 : -1, 1 사이
    • 유클리드 : 평면 사이 직선 거리
  • 선형회귀 모형

    • 회귀 계수 : 최소제곱법
    • 유의성 검정 : 회귀 계수가 0에 가까운지 → t 검정
    • 순차적으로 변수를 제거하거나 추가
    • 결정 계수(R^2) : 1(100%)에 가까울수록 설명력이 높음
  • 의사결정 나무

    • 종속변수 : 연속 → 분산 / 범주 → 지니 지수, 엔트로피 분할
      • 지니 지수 : 얼마나 다양한 값이 섞인지, 0~1, 여러개 사용가능
    • 재귀 분할
    • 가지치기
      • 과적합을 줄이고 일반화 성능, 복잡도를 줄임, 정확도 낮음
  • 엔트로피 개념 : $-\sum_{i=1}^{n} p(x_i) \log_2 p(x_i)$

  • 스피어만 상관계수

    • 관측치의 순위를 활용
      • 순서형, 수치형 변수에 사용
      • 범주형에는 사용X
    • 이상값이나 특이값 영향 적음
    • 비선형적인 관계를 잘 설명함
  • K-평균 군집화

    • 사전에 직접 설정
    • 실루엣을 활용해 최적의 k 탐색
    • 이상값에 영향 받음
    • kn반복수 만큼 거리 게산 필요
  • 계층적 군집화

    • n*(n-1)/2 모든 관측치 계산
      • 반복수가 많으면 k가 더 비효율
    • 군집내 분산 증가를 최소화 → 와드 연결법
  • 다변량 회귀 : 관심변수가 여러개

  • A→ B 연관규칙

    • 지지도 : 교집합 / 전체
    • 신뢰도 : 교집합 / A
    • 향상도 : 교집합확률/ A확률 * B확률
    • 비지도학습
  • 선형회귀분석의 가정

    • 독립성 : 오차항들 사이 상관관계 없음
    • 선형성 : 독립변수와 종속변수간 선형관계 존재
    • 등분산성 : 오차의 분산은 모든 관측치에서 동일
    • 정규성 : 오차항은 정규분포를 따름
    • 다중공선성 : 독립변수들간 상관관계가 있음
    • 자기상관 : 현재랑 과거가 얼마나 연관
  • 선형회귀 모형의 오차항 정규성 검증

    • 히스토그램
    • 샤피로 검정
    • Q-Q plot
  • 통계적 가설 검정

    • 유의수준에 따라 결과 달라짐
    • 계산된 유의확률 < 유의 수준 → 귀무가설 기각
    • 계산된 유의확률 > 유의 수준 → 대립가설 기각
  • 주성분 분석

    • 차원 축소 기법
    • 이상치 탐지에 사용
    • 첫번째 주성분의 분산 ≥ 두번째 주성분의 분산
    • p의 모든 상관계수 0 → p개의 주성분 = p개의 변수
  • 오차 행렬

    image.png

    • 민감도(재현률) = TP / (TP + FN) - 실제 양성 중 예측한것
    • 정밀도 = TP / (TP + FP) - 예측중 실제 양성
    • F1-score = 민감도 , 정밀도의 조화평균
    • 정확도 = (TP + TN) / (TP+FP+FN+TN)
    • 오분류률 = (FP + FN) / (TP+FP+FN+TN)
  • 편향과 분산