데이터마이닝 개론
|
데이터마이닝의 정의
데이터마이닝(Data Mining)이란 용어는 1995년부터 사용되기 시작한 것으로 알려지고 있다.
이 용어는 광산에서 광물을 캐내는 것에 비유한 것으로 금광석에 극히 미량으로 포함된 금을 여러 단계를 걸쳐 추출하듯이 수많은 데이터로부터 유용한 정보를 찾아내는 것으로 해석된다. 지난 수십년간 여러 조직(국가, 기업 등)에 의한 정보시스템에 대한 투자, 컴퓨터의 발전 및 보급, 데이터베이스 기술의 발전 등으로 다양한 분야에서 다양한 형태의 데이터, 예를 들어, 판매시점관리 데이터, 주식거래 데이터, 병원환자 데이터, 전화통화기록 데이터, 카탈로그 주문 데이터, 은행거래 데이터, 원격입력 이미지 데이터, 항공예약 데이터, 신용카드결제 데이터, 제조업체의 품질관리 데이터, 세금환급 데이터 등이 기하급수적으로 축적되어 왔다.
그러나 이러한 데이터의 무제한적인 증가는 우리가 원하는 정보를 찾아내는 일을 보다 어렵게 만들고 있는 것이 현실이다. 데이터마이닝은 David(1998) 등이 언급한 바와 같이 유용한 정보 추출의 목적 달성을 위하여 통계학, 데이터베이스 기술(Database Technology), 패턴인식(Pattern Recognition), 기계학습(Machine Learning) 등 매우 다양한 학문을 활용하고 있다.
데이터마이닝을 한마디로 정의하기는 어렵지만 “대용량의 데이터로부터 이들 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하여 모형화함으로써 유용한 지식을 추출하는 일련의 과정들”이라 정의할 수 있으며, 또한 통계적인 관점에서 간략하게 표현한다면 “대용량 데이터에 대한 탐색적 데이터 분석(Exploratory Data Analysis)”이라고 할 수도 있을 것이다.
데이터마이닝이 기존의 통계적 기법과 구별되는 큰 차이라면, 주어진 가설의 검정에 그치는 것이 아니고 데이터로부터 유용한 새로운 가설 또는 규칙 등을 이끌어 내는 데 있다고 하겠다.
데이터마이닝의 활용분야
데이터마이닝의 활용분야는 기업의 의사결정 문제, 고객관리, 생물정보학(Bioinformatics)에서의 데이터분석, 인터넷에서 문서 또는 정보검색을 위한 웹 마이닝(Web Mining) 등 다양하며, 주요 활용분야를 나열하면 다음과 같다.
(1) 기업 마케팅
기업 마케팅은 데이터마이닝이 가장 성공적으로 적용되고 있는 분야 중의 하나이며, 고 객세분화(Segmentation), 목표마케팅(Target Marketing), 고객성향변동분석(Churn Analysis), 교차판매(Cross Selling) 등에서 주로 이용된다. 기업 마케팅은 소매, 통신판매, 금융서비스, 건강, 보험, 통신, 운송, 제약 등 다양한 분야에서 활용되고 있다.
(2) 신용평가
신용평가는 특정인의 신용거래 대출한도를 결정하는 것이 주 업무로써 신용거래 확대를 위한 의사결정 적용분야로는 신용카드, 주택할부금융, 소비자대출, 상업대출 등을 들 수 있다. 신용평가의 중요한 사안은 현재의 대출한도액을 유지관리하면서 불량채권에 대한 최선의 대응책을 결정하는 것이다. 신용관리는 은행, 금융서비스, 저당권보험(담보부 보험), 소매(할부 판매) 등 다양한 분야에 적용되고 있다.
(3) 품질개선
품질개선의 목적은 불량품을 찾고, 그 원인을 밝혀서 궁극적으로 이를 예방하는 것이다. 의료보험조합에서는 불필요한 장기입원 및 의료비의 과다청구에 초점을 맞추고 있으며, 제조업체에서는 불량품을 유발시키는 조업패턴의 인식, 수율 증대를 위한 공정변수의 발견과 최적화, 제품보증청구를 유발시키는 불량품 감소를 통한 이윤 증가에 중점을 두고 있다.
(4) 부정행위의 적발(fraud detection)
부정행위적발의 목적은 고도의 사기행위를 발견할 수 있는 패턴을 알아내는 것이다. 은행에서는 발견된 패턴을 이용하여 신용카드 거래사기 및 불량수표를 적발할 수 있고, 통신회사에서는 전화카드거래사기를 방지하며, 보험회사에서는 허위 및 과다청구를 예방할 수 있다.
(5) 금융관리
데이터마이닝은 금융권에 쓰이면서 금융 데이터마이닝(Financial Data Mining)이라는 분야로 발전하여 주가예측, 위험관리, Portfolio 분석 등 다양한 분야에 이용되고 있다.
(6) 이미지분석 (image processing)
이미지분석은 디지털화된 사진으로부터 패턴을 추출하는 기법이며, 천문학, 문자 인식, 의료진단, 방위산업 등 다양한 분야에서 활용되고 있다.
(7) 생물정보학
생물정보학은 다양한 대용량의 생물학 데이터를 분석해 유용하고 의미 있는 정보들을 발견하는 학문이다. 마이크로어레이(Microarray) 데이터분석을 통한 유전자의 기능 파악, DNA 및 RNA의 서열 분석(sequence alignment), 단백질의 구조 분석 등에 데이터마이닝이 활발하게 사용되고 있다.
데이터마이닝의 기능과 기법
데이터마이닝은 위의 활용분야에서 보듯이 다양한 목적으로 사용될 수 있다. 그러나 기본적인 목적에 따라 분류할 때, 예측(prediction), 연관규칙(association rule) 추출, 분류(classification), 군집화(clustering)로 구분할 수 있겠다.
(1) 예측
예측이란 과거의 데이터를 바탕으로 관측되지 않은 변수의 미래의 값을 평가하는 것이라 하겠다. 예를 들어, 제품의 품질특성치 예측, 장래의 시장점유율 예측 등이 그것이다. 다음에 언급할 분류 또한 예측에 속한다고 할 수 있으나 분류는 범주형 변수에 대한 것이기 때문에 여기서 예측이란 주로 연속형 변수에 대한 것이다.
예측을 위해서는 회귀분석이 가장 널리 사용되며, 이 외에도 시계열 분석(time-series analysis), 신경망(neural networks) 등이 종종 활용되고 있다. 변수의 차원이 높은 복잡한 데이터에 대해서는 주성분분석(principal component analysis)을 활용한 PLS(partial least squares), 웨이블릿 변환(wavelet transform) 등으로 특징(feature)을 추출하고 이를 기반으로 예측모형을 구성하는 고도의 기법들이 이용되고 있다.
(2) 연관규칙 추출
연관규칙 추출이란 데이터에 숨어있는 항목간의 관계를 탐색하는 것으로 이러한 활동을 연관분석(association analysis) 또는 링크분석(link analysis)이라 한다. 주로 ‘A가 일어나면 B가 일어난다’는 식의 비교적 간단한 규칙을 추출하는 경우가 대부분이다. 예를 들어, 철물점에서 ‘망치를 사면 못도 산다’는 식이다. 특별히 시간의 흐름과 연관된 관계를 시퀀스 규칙 (sequence rule)이라고도 한다.
이를 위해 대표적으로 사용되는 기법으론 시장바구니 분석(market basket analysis)이 있다. 이는 슈퍼마켓에서 계산하는 손님의 쇼핑카트의 물품들을 분석함으로써 구매행태를 파악하는 데서 비롯된 것이다.
(3) 분류
분류는 예를 들어 암환자의 종양의 크기, 모양, 각종 검사의 결과 등을 바탕으로 악성/양성 여부를 판단하는 것을 일컫는다. 이를 위해서는 악성/양성 여부가 판별된 과거 암환자의 데이터(종양 크기, 모형, 각종 검사결과 등)를 분석하여 판별규칙을 수립한 후, 새로운 환자에 대한 데이터를 입력하여 분류하게 된다. 이와 같이 객체(object)의 상태가 범주형이며 이 상태에 영향을 주는 변수들을 갖고 상태의 분류규칙을 도출하는 것을 분류분석이라 한다. 위의 예에서와 같이 분류규칙을 유도하기 위해서는 과거 데이터가 필요한데 이를 학습표본(learning or training sample)이라 한다. 기계학습이론에서는 학습표본을 이용하는 경우를 지도학습(supervised learning), 그렇지 않은 경우를 비지도학습 또는 자율학습(unsupervised learning)이라 한다. 따라서 분류는 지도학습에 속하며 다음에 언급할 군집은 자율학습에 속한다.
분류를 위한 기법은 무수히 많이 개발되어 있는데, 주로 사용되는 것으로 로지스틱 회귀분석(logistic regression), 판별분석(discriminant analysis), 트리기반 분석(tree-based analysis), 서포트벡터 머신(support vector machine), 신경망 등이 있다.
(4) 군집화
하나의 객체가 여러 속성(attribute)을 갖는다고 하고, 이러한 객체가 다수 있다고 할 때 군집분석이란 유사한 속성들을 갖는 객체들을 묶어 전체의 객체들을 몇 개의 그룹 또는 군집(cluster)으로 나누는 것을 말한다. 예를 들어, 회사에서 관리하는 고객들에 대하여 구매행태를 반영하는 속성들에 대한 데이터가 수집된다고 할 때 유사한 구매행태를 보이는 고객들을 서로 그룹핑하는 것을 군집분석이라 할 수 있겠다. 군집화를 위한 객체 데이터에는 객체가 속하는 범주를 나타내는 상태변수는 없다는 점이 분류분석의 경우와 다르다고 하겠다. 즉, 군집분석은 학습표본이 없는 자율학습에 속한다. 따라서 군집화의 결과가 얼마나 타당한가를 평가함은 매우 어려운 일이며 결과 해석을 위해서는 해당분야의 전문가의 견해가 필요한 분석이다.
군집화를 위한 알고리즘 역시 다양한 편인데, 크게 계층적 방법(hierarchical method)과 비계층적 방법(non-hierarchical or partitioning method)으로 구분된다. 계층적 방법에는 다시 집괴법(agglomerative or amalgamation method)과 분리법(divisive method)으로 나뉘는데 연결법(linkage method), 워드 방법(Ward's method) 등의 집괴법이 널리 사용된다. 비계층적 방법으론 K-means, K-medoids 등이 보편적으로 사용되고 있다.
'IT' 카테고리의 다른 글
데이터마이닝 기법 : 연관규칙의 탐사 (0) | 2007.04.22 |
---|---|
데이터마이닝 기법중에 대표적인것 5가지 (0) | 2007.04.22 |
데이터 저장 기술 (0) | 2007.04.22 |
소프트웨어사업 대가의 기준1/2 (0) | 2007.04.22 |
소프트웨어사업 대가의 기준1/2 (2) | 2007.04.21 |