-
데이터 분석 프로세스AI Study/데이터 분석 이론 2020. 6. 2. 11:37
1. 문제정의
데이터 분석의 목적은 무엇이며 목표는 무엇인가를 명확하게 정의해야 한다.
예시)
데이터 분석 목적 데이터 분석 목표 내년에 은퇴하는 우리 팀 타격왕 자리를 메울 선수 영입 비슷한 성향과 성적을 가진 타자 조사 아이스크림 회사의 매출 예측 가게의 입지조건으로 일 평균 손님 수 예측 신체품의 공정 개발 기간 단축 DOE를 통한 공정 파라미터 요인 분석 및 품질 향상
조건 도출2. 데이터 수집
데이터 수집에서 가장 중요한 것은 생각할 수 있는 모든 관련 데이터에 대해서 모두 정의하고 조사하는 것이다.
피시본 다이어그램을 이용하면 누락없이 조사할 수 있다.
3. 데이터 분석
(1) 데이터 전처리 과정 : 데이터의 결측값, 이상치, 중복값등을 처리해 품질이 좋은 데이터로 통합
- 결측값 처리는 결측값이 있는 데이터를 삭제하거나 결측값을 채우는 것 - 해당 변수의 일정 기간 동안의 평균, 중앙값, 최빈값 등 대푯값을 채우는 방법등이 있다.
- 이상치는 비상적인 이상한 값을 의미 - 제거를 하거나 평활하를 해 중간값으로 대체하는 방법등이 있다.
- 중복값은 여러 개의 데이터 중에서 하나만 남기고 삭제한다.
(2) 기초 통계 분석 과정 : 데이터의 평균, 표준편차와 같은 대푯값과 데이터 간의 상관 계수 등을 계산해 각 데이터의 특성을 파악하는 과정
(3) 모델 구축 및 평가 과정 : 모델이란 각 알고리즘이 데이터 분석을 진행하면서 생성하는 로직이나 수식을 말한다.
- 통계적 알고리즘으로는 분산분석, 회귀분석, 주성분분석, 요인분석, 판별분석등이 있으며, 인공지능으로 대표되는 머신러닝이나 데이터 마이닝 분야의 알고리즘을 사용하고 모델을 만든다.
- 수집한 데이터를 훈련데이터와 테스트 데이터로 나눈다. (일반적으로 7:3)
- 훈련 데이터를 이용해 여러 가지 알고리즘을 사용해 모델을 만든다.
- 테스트 데이터를 이용해 모델의 성능을 평가한다.
- 평과 결과를 바탕으로 다시 데이터 분석을 하며 최적의 알고리즘과 모델을 선택한다.
4. 검증 및 고찰
- 분석 보고서로서 데이터를 분석해 얻은 새로운 정보와 앞으로의 방향 등이 실려 있는 것이다.
- 회귀식과 같은 모델로 주로 기업 등의 생산 데이터나 품질 데이터를 분석했을 때 얻을 수 있는 결과이다. 생산성이나 품질 향상을 기대 할 수 있다.
출처 : 손민규, 「데이터 분석을 떠받치는 수학」, 위키북스(2020), p18~19
'AI Study > 데이터 분석 이론' 카테고리의 다른 글
데이터 분석을 위한 통계 수학 기초 - 엑셀 수식 활용 (0) 2020.06.02 데이터 분석 알고리즘의 특징과 종류 (0) 2020.06.02