ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 데이터 분석 알고리즘의 특징과 종류
    AI Study/데이터 분석 이론 2020. 6. 2. 12:00

    데이터 분석 알고리즘은 통계적 방법과 인공지능 방법으로 나눌 수 있다.

     

    • 통계적 방법 : 수집된 데이터에 대해서 어떤 규칙을 가지고 있는지 분석을 하고, 발견된 규칙을 알고리즘과 같이 만들어서 활용하는 방법
    • 인공지능 방법 : 대량의 데이터로부터 데이터에 대한 규첵을 알고리즘이 찾아내게 만든는 방법

    찾은 규칙은 사람이 해석할 수 있는 화이트박스 알고리즘과 해석할 수 없는 알고리즘인 블랙박스 알고리즘으로 나눌 수 있다.

     

    • 화이트박스 알고리즘 : 결정 크리(decision tree)가 있어, 트리 구조를 그래프로 그려 보면 알고리즘이 어떤 규칙을 만들어 냈는지 이해할 수 있다.
    • 블랙박스 알고리즘 : 딥러닝의 기본구조인 신경망은 사람이 해석하기에 무리가 있다.

    데이터 분석에는 변수라는 용어가 많이 사용된다.

    • 종속변수 : 결과를 나타내는 변수로서 일반적으로 Y로 표시한다.
    • 독립변수 : 종속변수의 원인에 해당하는 변수로서 일반적으로 X로 표시한다.

    독립변수와 종속 변수를 이용해 분석하는 데이터 분석 알고리즘 종류

    • 통계적 알고리즘 : 분산분석, 회귀분석, 주성분분석, 요인분석, 판별분석 등
    • 인공지능 알고리즘 : 결정 트리, 신경망, 유전 알고리즘, 서포트 벡터 머신 등

    데이터 분석 알고리즘은 크게 예측, 압축, 분류를 목적으로 이용할 수 있다.

    목적 종속변수 독립변수 주요 알고리즘
    예측 - 종속 변수 예측 O O Linear regression
    support vector regression
    압축 - 차원 축소 X Principal component analysis
    factor analysis
    분류 - 닮은 데이터의 그룹화 O 또는 X O decision tree(supervised learning)
    Mahalanobis-Taguchi system(supervised learning)
    self-organizing map(unsupervised learning)

    *빨간색의 알고리즘은 이 책에서 다룰 알고리즘

     

    • 예측 알고리즘 : 종속변수와 독립변수 사이의 인과 관계를 이용해 모델을 만들어 종속 변수의 값을 예측한다. 주요 알고리즘으로 선경 회귀분석이 있다.
    • 압축 알고리즘 : 데이터의 차원을 축소하기 위해 사용되는 알고리즘으로 독립변수들 간의 관계를 분석해 정보를 압축하는 알고리즘이다. 대표적인 알고리즘으로 주성분 분석이 있다.
    • 분류 알고리즘 : 분류와 군직화로 나눌 수 있다. 분류는 종속 변수를 기준으로 독립변수의 측징을 학습시켜 분류를 하는 알고리즘이다. 종속변수가 없는 군집화는 독립변수의 속성을 파악해 비슷한 속성을 가진 데이터끼리 군집화하는 알고리즘이다. 

    각 알고리즘 특징

    • 회귀분석 : 수익 예측이나 생산량 예측, 그리고 종속변수에 영향을 미치는 변수를 찾기 위한 가장 기본적인 알고리즘으로 알려져 있다. 회귀분석을 1차로 진행한 후에, 좀더 고도화된 알고리즘인 PCR, PLS, 서포트 벡터 회귀(Support vector regression) 등을 사용하게 된다.
    • 주성분분석 : 많은 데이터를 압축할 때 쓰는 알고리즘으로 알려져 있다. 또, 데이터를 다른 방향으로 바라볼 수 있게 변환하여 데이터를 분석할 수 있는 도구로도 많이 사용된다. 특히, 여론조서나 앙케이트 결과를 종합 분석할 때 많이 사용된다.
    • 마할라노비스-다구찌 시스템 : 정상/비정상을 분류하는 최적의 알고리즘이다. 우리가 일반적으로 분류하는 대상은 개, 고양이, 자동차와 같이 특정 물체를 분류하는 것도 있지만, 정상과 비정상을 분류하는 경우가 대부분이다. 

     

     

    출처 : 손민규, 「데이터 분석을 떠받치는 수학」, 위키북스(2020), p23~26

    댓글

Designed by Tistory.