数据仓库：1.数据挖掘-摩杜云开发者社区

数据仓库：1.数据挖掘_数据库

数据挖掘

定义

SAS研究所（1997）：“在大量相关数据基础之上进行数据探索和建立相关模型的先进方法”。

Hand et al（2000）：“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过程”。

确切地说，数据挖掘（Data Mining），又称数据库中的知识发现（Knowledge Discovery in Database，KDD），是指从大型数据库或数据仓库中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式，它是数据库研究中的一个很有应用价值的新领域，融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。

功能及分析方法

数据总结	分类	聚类
关联分析	预测	异常检测

数据总结

继承于数据分析中的统计分析。数据总结目的是对数据进行浓缩，给出它的紧凑描述。传统统计方法如求和值、平均值、方差值等都是有效方法。另外还可以用直方图、饼状图等图形方式表示这些值。广义上讲，多维分析也可以归入这一类。

分类

目的是构造一个分类函数或分类模型（也常常称作分类器），该模型能把数据库中的数据项映射到给定类别中的某一个。要构造分类器，需要有一个训练样本数据集作为输入。训练集由一组数据库记录或元组构成，每个元组是一个由有关字段（又称属性或特征）值组成的特征向量，此外，训练样本还有一个类别标记。一个具体样本的形式可表示为：（v1，v2，…，vn；c），其中vi表示字段值，c表示类别。

例如：银行部门根据以前的数据将客户分成了不同的类别，现在就可以根据这些来区分新申请贷款的客户，以采取相应的贷款方案。

聚类

是把整个数据库分成不同的群组。它的目的是使群与群之间差别很明显，而同一个群之间的数据尽量相似。这种方法通常用于客户细分。在开始细分之前不知道要把用户分成几类，因此通过聚类分析可以找出客户特性相似的群体，如客户消费特性相似或年龄特性相似等。在此基础上可以制定一些针对不同客户群体的营销方案。

例如：将申请人分为高度风险申请者，中度风险申请者，低度风险申请者。

关联分析

关联分析是寻找数据库中值的相关性。两种常用的技术是关联规则和序列模式。关联规则是寻找在同一个事件中出现的不同项的相关性；序列模式与此类似，寻找的是事件之间时间上的相关性，例如：今天银行利率的调整，明天股市的变化。

预测（回归分析）

把握分析对象发展的规律，对未来的趋势做出预见。例如：对未来经济发展的判断。

异常检测

对分析对象的少数的、极端的特例的描述，揭示内在的原因。例如：在银行的100万笔交易中有500例的欺诈行为，银行为了稳健经营，就要发现这500例的内在因素，减小以后经营的风险。
以上数据挖掘的各项功能不是独立存在的，它们在数据挖掘中互相联系，发挥作用。

其他方法

可视化技术：用图表等方式把数据特征直观地表述出来。
神经网络方法：神经网络非常适合解决数据挖掘的问题，是由于其具有良好的健壮性、自组织自适应性、并行处理、分布存储和高度容错等特性，因此近年来越来越受到人们的关注。
遗传算法：遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法，是一种仿生全局优化方法。遗传算法应用于数据挖掘是因为其具有的隐含并行性、易于和其他模型结合等特性。
决策树方法：决策树是一种常用于预测模型的算法，它通过对大量数据进行有目的的分类，从中找到一些有价值的、潜在的信息。它的主要优点是描述简单、分类速度快，因此特别适合大规模的数据处理应用。
粗集方法：粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法具有不需要给出额外信息、简化输入信息的表达空间、算法简单和易于操作的优点。粗集处理的对象是类似二维关系表的信息表。
覆盖正例排斥反例方法：覆盖正例排斥反例方法利用覆盖所有正例、排斥所有反例的逻辑来寻找潜在规则。
统计分析方法：统计分析方法是指对数据库字段进行函数关系或相关关系的分析，即利用统计学原理对数据库中的信息进行分析。常用统计分析方法包括回归分析、相关分析、差异分析等。
模糊集方法：模糊集方法即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别和模糊聚类分析。系统的复杂性越高、模糊性越强，一般模糊集合理论是用隶属度来刻画模糊事物的亦此亦彼性的。
回归分析：回归分析分为线性回归、多元回归和非线性同归。在线性回归中，数据用直线建模，多元回归是线性回归的扩展，涉及多个预测变量。非线性回归是在基本线性模型上添加多项式项形成非线性同门模型。
差别分析：差别分析的目的是试图发现数据中的异常情况，如噪音数据，欺诈数据等异常数据，从而获得有用信息。
概念描述：概念描述就是对某类对象的内涵进行描述，并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述，前者描述某类对象的共同特征，后者描述不同类对象之间的区别，生成一个类的特征性描述只涉及该类对象中所有对象的共性。
聚集检测：将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其它簇中的对象相异。相异度是根据描述对象的属眭值来计算的，距离是经常采用的度量方式。
连接分析：连接分析，Link analysis，它的基本理论是图论。图论的思想是寻找一个可以得出好结果但不是完美结果的算法，而不是去寻找完美的解的算法。连接分析就是运用了这样的思想：不完美的结果如果是可行的，那么这样的分析就是一个好的分析。利用连接分析，可以从一些用户的行为中分析出一些模式；同时将产生的概念应用于更广的用户群体中。
关联规则：数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之 I 司存在某种规律性，就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数，即使知道也是不确定的，因此关联分析生成的规则带有可信度。

常用方法