基于weka的数据库挖掘➖分类方法决策树分类-摩杜云开发者社区

基于weka的数据库挖掘➖分类方法决策树分类

uZb9u17BWBam 2023年11月02日 73 0

信息增益决策树决策树信息增益数据集数据集

基于weka的数据库挖掘➖分类方法决策树分类

关于作者

作者介绍

🍓 博客主页：作者主页<br> 🍓 简介：JAVA领域优质创作者🥇、一名初入职场小白🎓、曾在校期间参加各种省赛、国赛，斩获一系列荣誉🏆<br> 🍓 关注我：关注我学习资料、文档下载统统都有，每日定时更新文章，励志做一名JAVA资深程序猿👨‍💻

决策树思想的来源非常朴素，程序设计中的条件分支结构就是if-else结构，最早的决策树就是利用这类结构分割数据的一种分类学习方法

决策树算法思想：

是一种树形结构，本质是一颗由多个判断节点组成的树
其中每个内部节点表示一个属性上的判断
每个分支代表一个判断结果的输出
最后每个叶节点代表一种分类结果

概念

要学习决策树首先需要明白以下关键字

熵 Entropy ：系统越有序，熵值越低；系统越混乱或者分散，熵值越高

信息熵 informationentropy：度量样本集合纯度最常用的一种指标假定当前样本集合 D 中第类样本所占的比例为 pk(k = 1,2,...，|y|)

则 D 的信息熵定义为( (log是以2为底，lg是以10为底)

交叉熵 ：用来衡量两个概率分布之间差异的度量指标。在分类问题中，我们通常有一个真实的概率分布和一个模型预测的概率分布，交叉熵可以衡量模型预测的分布与真实分布之间的差异。

其中，Σ表示求和符号，x表示所有可能的取值。交叉熵可以理解为对于真实分布p的平均信息量的度量。当两个分布完全相同时，交叉熵达到最小值为0。

相对熵 ：（也称为KL散度）衡量了两个概率分布之间的差异。相对熵用于衡量在给定真实分布p的情况下，使用模型分布q来表示这个真实分布的信息损失或失真程度。

其中，Σ表示求和符号，x表示所有可能的取值。相对熵可以理解为真实分布p相对于模型分布q的信息增益（或损失）。当两个分布完全相同时，相对熵为0。

信息增益（ID3）

以某特征划分数据集前后的熵的差值。熵可以表示样本集合的不确定性，熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏，信息增益越大，则意味着使用属性 $a$ 来进行划分所获得的"纯度提升"越大

信息增益 = entropy (前) - entropy (后)

信息增益 = 整体信息熵 − 按某个属性划分后的信息熵信息增益 = 整体信息熵 − 按某个属性划分后的信息熵

po_diagram

信息增益率（C4.5）

信息增益准则对可取值数目较多的属性（类型多）有所偏好（信息增益倾向于选择类别多属性进行划分），为减少这种偏好可能带来的不利影响，著名的 C4.5 决策树算法 [Quinlan， 1993J 不直接使用信息增益，而是使用"增益率" (gain ratio) 来选择最优划分属性

增益率：增益率是用前面属性a的信息增益Gain(D, a) 和属性a对应的"固有值"(intrinsic value)

信息增益率 = 属性信息增益 / 属性分裂信息度量

Gini系数（CART）

基尼值Gini（D）：从数据集D中随机抽取两个样本，其类别标记不一致的概率。故，Gini（D）值越小，数据集D的纯度越高。

计算公式: 1 - 每一个类别概率平方的和

基尼指数Gini_index（D）：一般，选择使划分后基尼系数最小的属性作为最优化分属性

按照某种分割方式, 分割后的基尼值

具体实现：

1、打开weather.nominal.arff，切换到classify页，选择决策树算法 weka-\>classifiers-\>trees-\>J48，算法参数不变。选择10折交叉验证方法，单击start运行，得出如下结果。

2、再选择使用训练集作为测试数据，如下

单击start运行，得出如下结果

可以看到分类准确率是100%，解释上图矩形框中数据的含义，并思考为什么使用训练数据集进行测试的最终准确率要高。

图中以解释

为什么使用训练数据集进行测试的最终准确率要高？

1、数据集太小的话，如果数据集切分的不均匀，或者说训练集和测试集的分布不均匀

2、在训练期间，Dropout将这些分类器的随机集合切掉，因此，训练准确率将受到影响

3.选中下图矩形框中内容，右键，选择Visualize tree，可生成对应的决策树。

4、使用J48预测未知数据，创建测试数据集如下编辑，名命为weather.nominal.test.arff

5、选择，点击右边的set,打开测试数据集，再点击more option，设置如下

点击ok，再start运行决策树算法，得到如下结果：

注意：

特征选择：选择合适的划分特征对算法的性能至关重要。常用的特征选择方法包括信息增益、基尼指数、方差等。
剪枝策略：为了避免过拟合，可以采用剪枝策略对构建好的决策树进行修剪，去除一些不必要的节点。
处理连续特征：决策树算法通常处理离散特征，对于连续特征，可以采用二分法或其他方法进行离散化处理。
处理缺失值：决策树算法对缺失值敏感，需要考虑如何处理缺失值，常见的方法包括填充缺失值或使用缺失值作为一个特殊的取值。

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇：【UVA 536】Tree Recovery 题解（根据遍历序列还原二叉树）下一篇： BERT模型在训练时会出现预测结果只有一个标签

分享：

最后一次编辑于 2023年11月08日 0

暂无评论

推荐阅读

基于GAN先验嵌入网络的野外盲脸复原

24eTNZKd6a8S 2023年12月23日 113 0 0 深度神经网络数据集 HTTPS 数据集深度神经网络 HTTPS

Stable Zero123震撼发布：单图生成高质量3D模型

BfeTe3rB0Jc5 2023年12月23日 72 0 0 3D 3D 数据集建模建模数据集

halcon深度学习助手

3czl9YULOO7G 2023年12月10日 35 0 0 深度学习数据集数据数据深度学习数据集

浪潮信息大突破：全面开源1026亿参数模型源2.0

BfeTe3rB0Jc5 2023年12月23日 137 0 0 数据集人工智能开发者人工智能数据集开发者

利用大模型训练提升AI能力

vq0vV6F1YWYp 2023年12月23日 80 0 0 泛化泛化过拟合数据集数据集过拟合

deep - glu:卷积神经网络和Bi-LSTM模型的结合，使用ProtBert和手工特征来识别l

24eTNZKd6a8S 2023年12月23日 61 0 0 语言模型深度学习数据集深度学习数据集语言模型

深度学习在线

vbyzBTPBnJJV 2023年12月10日 45 0 0 Python 深度学习数据集深度学习 python 数据集

Stable LM Zephyr 3B：手机上的强大LLM助手

BfeTe3rB0Jc5 2023年12月23日 37 0 0 语言模型语言模型数据集自动生成自动生成数据集

昆仑万维携Skywork-13B打造AI新纪元：600GB中文数据集全球开源

BfeTe3rB0Jc5 2023年12月09日 33 0 0 数据集人工智能商业人工智能数据集商业

深度学习图像分割优点

6x82OSIkB82a 2023年12月23日 92 0 0 图像分割深度学习图像分割数据集深度学习数据集

Playground v2发布：生成效果胜过Stable Diffusion XL 2.5倍

BfeTe3rB0Jc5 2023年12月11日 37 0 0 数据集基准测试生成模型生成模型数据集基准测试

pytorch怎么判断网络是否在Gpu上

2iBE5Ikkruz5 2023年12月23日 50 0 0 数据集 python 2d python 数据集 2d

深度学习是用机械硬盘还是固态硬盘

vv2O73UnQfVU 2023年12月11日 52 0 0 开发者深度学习开发者数据集深度学习数据集

NuScenes数据可视化

LmBMtyfFr57Y 2023年12月23日 45 0 0 饼状图饼状图数据集数据可视化数据集数据可视化

AlphaPeptDeep：用于预测蛋白质组学肽特性的模块化深度学习框架

24eTNZKd6a8S 2023年12月23日 117 0 0 迁移学习迁移学习数据集数据数据数据集

机器学习算法的稳定性都不太好

XvG6ESYW5A2p 2023年12月09日 27 0 0 Python 机器学习算法 python 机器学习算法数据集数据集

图注意力网络

dT82YT6m3Dew 2023年12月09日 36 0 0 邻域权重邻域数据集权重数据集

突破自然语言处理的新前沿

vq0vV6F1YWYp 2023年12月11日 78 0 0 自然语言处理数据数据自然语言处理数据集数据集

大模型那么火，教你一键ModelArts玩转开源LlaMA大模型

YqbaJkf98QJO 2023年12月23日 132 0 0 llama 大模型 ModelArts 数据集大模型 ModelArts 数据集 llama

12/19每日总结数据处理与数据划分

3XDZIv8qh70z 2023年12月23日 58 0 0 数据集 desktop 数据集 desktop 元组元组

uZb9u17BWBam

作者其他文章更多

基于weka的数据库挖掘及数据预处理

2023-11-12

基于weka的数据库挖掘➖数据离散化

2023-11-12

深入理解 Kubernetes 中的 Pod 调度原理

2023-11-12

构建高可靠性的 ELK 日志收集

2023-11-12

基于weka的数据库挖掘➖聚类方法K-Means算法

2023-11-12

人大金仓数据库设置大小写敏感

2023-11-02

Mybatisplus中如何使用databaseId来适配多种数据库

2023-11-02

在代码中配置乐观锁插件和分页插件

2023-11-02

Mybaits-plus采坑之UpdateWrapper 更新字段重复

2023-11-02

Kingbase中手写Mysql底层函数DATE_FORMAT()

2023-11-02

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14