数据挖掘概述

什么是数据挖掘?

数据挖掘(Data Mining, DM),是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程

简单上来说就是,从大量数据提炼出有价值的信息的过程就叫数据挖掘

数据挖掘与知识发现

数据挖掘是数据库中知识发现(knowledge discovery in database,KDD)不可缺少的一部分,KDD是将未加工的数据转换为有用信息的过程。

数据挖掘的任务

  • 预测建模(predictive modeling):用自变量给目标变量建立模型
    • 分类(classification), 用于预测离散的目标变量
    • 回归(regression), 用于预测连续的目标变量
  • 关联分析(association analysis): 用来发现数据中的强关联特征的模式
  • 聚类分析(cluster analysis):用来研究形式上密切相似的群体
  • 异常检测(anomaly detection):用于识别特征显著不同于其他数据的观测值。这样的观测值叫做异常点或者离群点。异常检测算法的目的是为了发现真正的异常点