4 분 소요

👨‍💻🏫KNU 2022-2 SW & media 데이터마이닝 필기노트 1

1. OT. 빅데이터와 데이터 과학

빅데이터의 세가지 요소인 3V는 Volume, velocity, variety를 의미하는데 이때 velocity는 본 강의에서 이루어지는 빅데이터 분석에서 가장 중요한 이슈이다.

빅데이터분석은 계산연산을 통해 모형화를 하기 위한 절차로서 데이터 유형별로 기존 DB에서는 범주형(string)과 수치형(float, int)의 데이터가 존재하였으나, 빅데이터에서 다루는 데이터의 종류는 이와 같은 정형 데이터 외에 이미지와 동영상같은 데이터를 포괄하고있다.

데이터과학이란 크기나 형태에 상관없이 데이터의 가치를 찾는 일을 의미한다.

통계학적 사고나 이해는 데이터과학 발전의 필수요소이다. 이때 통계학적 사고의 통계학은 의사결정을 위해 추측을 위한 random sampling,과 예측을 위한 probablity으로 나뉜다고 볼수있다.

2. 데이터마이닝

2.1. 개념

데이터마이닝은 필요로 하는 정보(지식)을 발견하는 것이다.

대용량의 데이터 내에 존재하는 관계나 패턴, 규칙의 탐색, 모형화, 그리고 그것으로부터 유용한 지식을 추출하는 일련의 과정. 모수적 모형과 알고리즘적 접근을 필요로 한다.

2.2. 활용분야

  • 대용량 관측자료를 manipulation
  • 컴퓨터 중심의 기법으로 경험적 방법을 제시
  • 통계학과 인공지능 위주의 컴퓨팅 엔지니어링 방법론 제시
  • 경영, 경제 등의 다양한 분야에서 의사결정을 돕는다.

2.3. 관련분야

  • KDD에서 OLAP(On-Line Analytical Processing)를 통한 정책결정
  • 머신러닝
  • 패턴인식: 자료로 부터 패턴을 찾는 과정으로 이미지분류나 통계학적 판별, 분류 분석과 유사
  • 통계학: 데이터분석이나 예측 모형 적합과 유사하므로 기존 통계학과의 유사점을 가진다. 데이터 마이닝이 유연한 함수 추정의 단계에서 이루어진다.

2.4. 기법의 구분(중요)

  • 지도학습(supervised learning)

$X \Rightarrow Y$

독립변수와 종속변수가 존재한다. 모형화가 가능하다는 특징을 가지고 있다.

     
지도학습    
  분류분석 로지스틱회귀분석, 신경망, 나이브베이지안분석, SVM
  예측분석 회귀분석, 최근접이웃기법, 신경망, 평활법
     
  • 자율학습(unsupervised learning);비지도학습

$X \Rightarrow X$

독립변수만을 사용한다.

     
자율학습    
  군집분석 K-mean, Hierarchical클러스터링
  연관분석 트랜젝션 데이터분석, 서열분석
  가중치결정 신경망

2.5. 수행단계

flowchart LR
    A[목적결정]
    B[데이터수집]
    C[데이터탐색 및 정제]
    D[데이터 마이닝 방법 결정]
    E[모형의 선택]
    F[성능평가]
    G[적용]
    A --> B --> C --> D --> E --> F --> G

2.6. 활용분야

  • 고객관리
  • 품질개선
  • 부정행위적발(Fraud detection)
  • 이미지분석
  • 생명정보학
  • 인터넷비즈니스

태그:

카테고리:

업데이트:

댓글남기기