관리 메뉴

미래기술연구소

데이터 분석 본문

카테고리 없음

데이터 분석

I s a a c 2020. 8. 10. 11:15
728x90
반응형

데이터 분석이란

데이터 분석이란 어떤 데이터가 주어졌을 때,

데이터 간의 관계를 파악하거나

파악된 관계를 사용하여 우리가 원하는 새로운 (출력) 데이터를 만들어 내는 과정

으로 볼 수 있다.
데이터 분석도 분석 목적에 따라 "예측(prediction)", "클러스터링(clustering)", "모사(approximation)" 등 다양한 문제가 있다. 여기에서는 가장 널리 사용되는 예측 문제를 살펴본다.

예측

예측(prediction)은 데이터 분석 작업 중 가장 많이 사용되는 유형 중 하나이다. 예측이란 숫자, 문서, 이미지, 음성, 영상 등의 여러 가지 입력 데이터를 주면, 데이터 분석의 결과로 다른 데이터를 출력하는 분석 방법이다.






예를 들어 다음과 같은 작업은 예측이라고 할 수 있다.

부동산의 위치, 주거환경, 건축연도 등을 주면 해당 부동산의 가치를 추정한다.

꽃잎의 길이와 너비 등 식물의 외형적 특징을 주면 해당하는 식물의 종을 알아낸다.

얼굴 사진을 주면 해당하는 사람의 이름을 출력한다.

현재 바둑돌의 위치들을 주면 다음 바둑돌의 위치를 지정한다.

데이터 분석에서 말하는 예측이라는 용어는 시간상으로 미래의 의미는 포함하지 않는다. 시계열 분석에서는 시간상으로 미래의 데이터를 예측하는 경우가 있는데 이 때는 미래예측(forecasting) 이라는 용어를 사용한다.


입력 데이터와 출력 데이터

예측 문제에서는 데이터의 유형을 입력 데이터(input data)와 출력 데이터(output data)라는 두 가지 유형의 데이터로 분류할 수 있어야 한다.
입력 데이터는 분석의 기반이 되는 데이터로 보통 알파벳 X로 표기한다. 다른 말로 독립변수(independent variable), 특징(feature), 설명변수(explanatory variable) 등의 용어를 쓰기도 한다.
출력 데이터는 추정하거나 예측하고자 하는 목적 데이터를 말한다. 보통 알파벳 Y로 표기하며, 다른 말로 종속변수(dependent variable)라고 부른다. 종속변수가 뒤에서 설명할 카테고리값이면 라벨(label) 또는 클래스(class)라고 하기도 한다.
입력 데이터와 출력 데이터를 정확히 파악하는 것은 예측 문제를 구체화하는 첫 번째 단계이다. 특히 예측 성능은 이러한 입출력 데이터의 숫자와 종류에 크게 의존하기 때문에 정확히 어떠한 값을 가지는 입력을 몇 개 사용하겠다는 문제 정의가 예측 문제를 해결하는 데 가장 중요한 부분이 될 수도 있다.


728x90
반응형