什么是数据挖掘?
数据挖掘(Data Mining, DM),是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。
简单上来说就是,从大量数据提炼出有价值的信息的过程就叫数据挖掘。
数据挖掘与知识发现
数据挖掘是数据库中知识发现(knowledge discovery in database,KDD)不可缺少的一部分,KDD是将未加工的数据转换为有用信息的过程。
数据挖掘的任务
- 预测建模(predictive modeling):用自变量给目标变量建立模型
- 分类(classification), 用于预测离散的目标变量
- 回归(regression), 用于预测连续的目标变量
- 关联分析(association analysis): 用来发现数据中的强关联特征的模式
- 聚类分析(cluster analysis):用来研究形式上密切相似的群体
- 异常检测(anomaly detection):用于识别特征显著不同于其他数据的观测值。这样的观测值叫做异常点或者离群点。异常检测算法的目的是为了发现真正的异常点。