《数据挖掘原理与实践》

2018年12月10日 0 条评论 908 次阅读 0 人点赞

《数据挖掘原理与实践》

第二章 数据处理机基础

根据属性具有的不同性质,属性可分为4种:标称(Nominal)、序数(Ordinal)、 区间(Interval)和比率(Ratio)

标称(Nominal)属性:其属性值只提供足够的信息以区分对象,如颜色、性别、产品编号等;这种属性值没有实际意义,如三个对象可以用甲乙丙来区分,也可以用ABC来区分。

序数(Ordinal)属性:其属性值提供足够的信息,以区分对象的序,如成绩等级(优、良、中、及格、不及格)、年级(一年级、二年级、三年级、四年级)、职称(助教、讲师、副教授、教授)、学生(本科生、硕士生、博士生)等。

区间(Interval)属性:其属性值之间的差是有意义的,如日历日期、摄氏温度。

比率(Ratio)属性:其属性值之间的差和比率都是有意义的,如长度、时间和速度等。

属性可以进一步归类为2种。

标称和序数属性:统称为分类的(Categorical)或定性的(Qualitative)属性,取值为集合。

区间和比率属性:统称为数值的(Numeric)或定量的(Quantitative)属性,取值为区间。注意:定量属性可以是整数值或者连续值。

数据集可以看做具有相同属性的数据对象的集合。在数据挖掘领域,数据集具有三个重要特性:维度、稀疏性和分辨率。

维度(Dimensionality):指数据集中的对象具有的属性个数总和。根据数据集的维度大小,数据集可以分

为高、中、低维数据集。在面对高维数据集时经常会碰到维数灾难(Curse of Dimensionality)的情况。正因为如此,数据预处理的一个重要技术就是维归约(Dimensionality Reduction)。

稀疏性(Sparsity):指在某些数据集中,有意义的数据非常少,对象在大部分属性上的取值为0,非零项不到1%。超市购物记录或事务数据集、文本数据集具有典型的稀疏性。

分辨率(Resolution):可以在不同的分辨率或粒度下得到数据,而且在不同的分辨率下对象的性质也不同。例如,在肉眼看来,一张光滑的桌面是十分平坦的,在显微镜下观察,则发现其表面十分粗糙。数据的模式依赖于分辨率,分辨率太高、太低,都得不到有效的模式,针对具体应用,需要选择合适的分辨率或粒度。例如,我们分析不同大学网络用户(假定每个人使用不同的IP地址)的行为特性时,如果使用每个具体地址,则难以体现群体的特性,使用部分IP地址(如前三个IP地址段),则容易发现不同群体的行为特性。

随着数据挖掘技术的发展和成熟,数据集的类型呈现出多样化的趋势。为方便起见,我们将数据集分为三类:记录数据、基于图形的数据和有序的数据集

高质量的数据是进行有效挖掘的前提,高质量的决定必须建立在高质量的数据上。数据清理,数据集成,数据变换,数据归约,数据离散化。

数据规范化

数据规范化是将原来的度量值转换为无量纲的值。利用距离度量的分类算法,如涉及神经网络、最近邻分类和聚类算法,规范化特别有用。对于基于距离的方法,规范化可以帮助平衡具有较大初始值域的属性与具有较小初始值域的属性可比性。

第三章 分类与回归

分类模型学习方法主要有以下几类。

(1)基于决策树的分类方法

决策树分类方法的特点是对训练样本集进行训练,生成一棵形如二叉或多叉的决策树。树的叶子节点代表某一类别值,非叶节点代表某个一般属性(非类别属性)的一个测试,测试的输出构成该非叶节点的多个分支。从根节点到叶子节点的一条路径形成一条分类规则,一棵决策树能够方便地转化为若干分类规则。人们可以依据分类规则直观地对未知类别的样本进行预测。其中,选择测试属性和划分样本集是构建决策树的关键环节,不同的决策树算法对此使用的技术不尽相同。目前,已经出现多种决策树学习算法,如ID3、C4.5、CART、SLIQ、SPRINT、PUBLIC、Random Forests等。其中,ID3、C4.5、CART算法将在3.2节中详细阐述。

决策树(Decision Tree)是一种树型结构,一个典型的决策树如图3-1所示,包括决策节点(内部节点)、分支和叶节点三部分。其中,决策节点代表某个测试,通常对应于待分类对象的某个属性,在该属性上的不同测试结果对应一个分支。每个叶节点存放某个类标号值,表示一种可能的分类结果。图3-1中有5个叶子节点和3个决策节点,在决策节点"是否有房"的测试中,属性"是否有房"有2个取值{yes, no},因此该决策节点测试结果有2个分支。决策树可以用来对未知样本进行分类,分类过程如下:从决策树的根节点开始,从上往下沿着某个分支往下搜索,直到叶节点,以叶节点的类标号值作为该未知样本所属类标号。

(2)贝叶斯分类方法

贝叶斯分类方法的特点是有一个明确的基本概率模型,用以给出某样本属于某个类标号的概率值。主要技术有朴素贝叶斯分类器和贝叶斯网络等。朴素贝叶斯分类器是基于贝叶斯定理的统计分类方法,它假定属性之间相互独立,该分类器的特点是分类速度快且分类准确度较高。但实际数据集中很难保证属性之间没有关联,属性之间往往具有一定的依赖关系,基于贝叶斯网络的学习方法利用贝叶斯网络描述了属性之间的依赖关系。贝叶斯定理、朴素贝叶斯分类器将在3.3节中详细介绍。

贝叶斯分类方法是一种基于统计的学习方法,利用概率统计进行学习分类,如预测一个数据对象属于某个类别的概率。主要算法有朴素贝叶斯分类算法、贝叶斯信念网络分类算法等。 贝叶斯分类方法的主要特点如下: ① 充分利用领域知识和其他先验信息,显式地计算假设概率,分类结果是领域知识和数据样本信息的综合体现。 ② 利用有向图的表示方式,用弧表示变量之间的依赖关系,用概率分布表示依赖关系的强弱。表示方法非常直观,有利于对领域知识的理解。 ③ 能进行增量学习,数据样本可以增量地提高或降低某种假设的估计,并且能方便地处理不完整数据。

(3)k-最近邻分类方法

k-最近邻分类算法是一种基于实例的学习算法,不需要事先使用训练样本进行分类器的构建,而是直接用训练集对数据样本进行分类,确定其类别标号。算法的关键技术是搜索模式空间,找出最接近的k个训练样本,即k个最近邻,如果这k个最近邻的多数样本属于某一个类别,则未知样本被分配为该类别。k-最近邻分类算法将在3.4节中详细介绍。

(4)神经网络方法

神经网络是大量的简单神经元按一定规则连接构成的网络系统,能够模拟人类大脑的结构和功能,采用某种学习算法从训练样本中学习,并将获取的知识存储在网络各单元之间的连接权中。神经网络主要有前向神经网络、后向神经网络和自组织网络。数据挖掘领域主要采用前向神经网络提取分类规则。本书将在3.5节中详细介绍神经网络概念及其学习方法。

其他较新的分类技术,如支持向量机、集成学习法、不平衡类的分类问题将分别在3.6、3.7和3.8节加以介绍。

今从晚向

这个人太懒什么东西都没留下

文章评论(0)

你必须 登录 才能发表评论