본문 바로가기
IT

데이터 마이닝(Data Mining) 개념과 이해

by 콩코미 2021. 5. 31.

데이터 마이닝(Data mining)이란?



데이터 지식 발견(KDD)이라고도 하며, 방대한 양의 데이터 세트에서 패턴 및 중요한 정보를 발견하는 프로세스입니다. 이는 하나 이상의 소프트웨어를 사용하여 대량의 데이터 안에서 데이터의 패턴을 분석하는 것을 의미합니다. 데이터 마이닝이라는 용어는 대규모의 데이터베이스에서 귀중한 정보를 검색하고 광물을 채굴한다는 뜻으로, 데이터에서 의미 있는 정보를 찾아낸다는 의미입니다. 
데이터 마이닝 기술은 과학 및 연구와 같은 여러 분야에서 적용이 됩니다. 기업은 고객에 대해 더 많이 배우고 다양한 비즈니스 기능과 관련된 보다 효율적인 전략을 개발할 수 있으며 결과적으로 최적화되고 통찰력 있는 방식으로 리소스를 활용할 수 있습니다. 이를 통하여 기업은 목표에 더 가까워지고 더 나은 결정을 내릴 수 있습니다.
데이터 마이닝에는 효과적인 데이터 수집, 웨어 하우징 및 컴퓨터 처리가 포함됩니다. 데이터를 세분화하고 미래 이벤트의 확률을 평가하기 위해 정교한 수학적 알고리즘을 사용합니다.

 

데이터마이닝이란-무엇일까
데이터마이닝이란?

 



데이터 마이닝(Data mining) 프로세스

데이터 마이닝 프로세스에는 대규모 데이터 세트에서 중요한 정보를 추출하기 위해 데이터 수집에서 시각화까지 여러 단계가 포함됩니다. 데이터 마이닝 기술은 대상 데이터 세트에 대한 설명과 예측을 생성하는 데 사용됩니다. 데이터 과학자는 패턴, 연관성 및 상관관계를 관찰하여 데이터를 설명하고, 분류 및 회귀 방법을 통해 데이터를 분류 및 클러스터링 하고 스팸 감지와 같은 사용 사례에 대한 이상치를 식별합니다.


데이터 마이닝은 일반적으로 목표 설정, 데이터 수집 및 준비, 데이터 마이닝 알고리즘 적용, 결과 평가의 네 가지 주요 단계로 구성됩니다.

  1. 비즈니스 목표 설정 : 데이터 마이닝 프로세스에서 가장 어려운 부분 일 수 있으나, 아주 중요한 단계임에도 불구하고 많은 기업에서 이 단계에 너무 적은 시간을 소비합니다. 데이터 과학자와 비즈니스 이해 관계자는 비즈니스 문제를 정의하기 위해 협력해야 하며, 이는 주어진 프로젝트에 대한 데이터 질문과 매개 변수를 알려주는 데 도움이 됩니다. 분석가는 비즈니스 콘텍스트를 적절하게 이해하기 위해 추가 조사를 수행해야 할 수도 있습니다.
  2. 데이터 준비 : 문제의 범위가 정의되면 데이터 과학자는 비즈니스에 대한 질문에 답하는 데 도움이 될 데이터 세트를 식별합니다. 관련된 데이터를 수집하면 데이터의 중복, 누락된 값 및 이상 값과 같은 노이즈를 제거하고, 모델 내에서 최적의 정확도를 보장하기 위해 가장 중요한 예측 변수를 유지하려고 합니다.
  3. 모델 구축 및 패턴 마이닝 : 분석 유형에 따라 순차 패턴, 연관 규칙 또는 상관관계와 같은 흥미로운 데이터 관계를 조사합니다. 사용 가능한 데이터에 따라 데이터 세트를 분류하거나 클러스터링 하기 위해 딥러닝 알고리즘을 적용할 수도 있습니다. 입력 데이터에 레이블이 지정되면 (지도 학습), 분류 모델을 사용하여 데이터를 분류하거나, 회귀를 적용하여 특정 할당의 가능성을 예측할 수 있습니다. 데이터 세트에 레이블이 지정되지 않은 경우 (비지도 학습) 학습 세트의 개별 데이터 포인트가 서로 비교되어 기본 유사성을 발견하고 해당 특성을 기반으로 클러스터링 합니다.
  4. 결과 평가 및 지식 구현 : 일단 데이터가 집계되면 결과를 평가하고 해석해야 합니다. 결과는 유효하고, 새롭고, 유용하고, 이해할 수 있어야 합니다. 이 기준이 충족되면 조직은 이 지식을 사용하여 새로운 전략을 구현하고 의도한 목표를 달성할 수 있습니다.



데이터 마이닝(Data mining)의 주요 기술

  • 연관 규칙 : 연관 규칙은 주어진 데이터 세트에서 변수 간의 관계를 찾기 위한 규칙 기반 방법입니다. 이러한 방법은 시장바구니 분석에 자주 사용되므로 회사는 서로 다른 제품 간의 관계를 더 잘 이해할 수 있습니다. 고객의 소비 습관을 이해하면 기업이 더 나은 교차 판매 전략과 추천 엔진을 개발할 수 있습니다.
  • 신경망 : 주로 딥러닝 알고리즘에 활용되는 신경망은 노드 계층을 통해 인간 두뇌의 상호 연결성을 모방하여 훈련 데이터를 처리합니다. 각 노드는 입력, 가중치, 편향 (또는 임계 값) 및 출력으로 구성됩니다. 해당 출력 값이 주어진 임계 값을 초과하면 노드를 실행하거나 활성화하여 데이터를 네트워크의 다음 계층으로 전달합니다. 신경망은 지도 학습을 통해 매핑 기능을 학습하고 기울기 하강 과정을 통해 손실 함수를 기반으로 조정합니다. 비용 함수가 0이거나 거의 0에 가까워지면 모델의 정확성을 확신하여 정답을 얻을 수 있습니다.
  • 의사 결정 트리 :  분류 또는 회귀 방법을 사용한 일련의 의사 결정을 기반으로 잠재적인 결과를 분류하거나 예측합니다. 이름에서 알 수 있듯이 이러한 결정의 잠재적인 결과를 나타 내기 위해 나무와 같은 시각화를 사용합니다.
  • KNN (최근접 이웃 알고리즘) : KNN 알고리즘이라고도 하는 K- 최근접 이웃은 사용 가능한 다른 데이터에 대한 근접성과 연관성을 기반으로 데이터 포인트를 분류하는 비모수적 알고리즘입니다. 이 알고리즘은 유사한 데이터 포인트가 서로 가까이 있을 수 있다고 가정하고 유클리드 거리를 통해 데이터 포인트 간의 거리를 계산한 다음 가장 빈번한 범주 또는 평균을 기반으로 범주를 할당합니다.




데이터 마이닝(Data mining)의 용도

  • 데이터 마이닝 기술은 수학, 사이버네틱스, 유전학 및 마케팅을 포함한 많은 연구 프로젝트에서 유용합니다
  • 데이터 마이닝을 통해 소매 업체는 고객 구매에 대한 판매 시점 기록을 관리하고 사용하여 개인의 구매 내역을 기반으로 한 대상 프로모션을 보낼 수 있습니다. 소매 업체는 또한 의견 또는 보증 카드에서 채굴 인구 통계 데이터를 기반으로 특정 고객 세그먼트에 어필하기 위한 제품 및 프로모션을 개발할 수 있습니다.

 

댓글