R语言鸢尾花iris数据集的层次聚类分析-摩杜云开发者社区

R语言鸢尾花iris数据集的层次聚类分析

TEZNKK3IfmPf 2023年11月12日 26 0

R语言开发

介绍

本文在数据集上展示了如何使用dendextend R软件包来增强Hierarchical Cluster Analysis（更好的可视化和灵敏度分析）。

背景

#加载数据

iris <- datasets::iris

iris2 <- iris[,-5]

species_labels <- iris[,5]

library(colorspace) # 颜色包

species_col <- rev(rainbow_hcl(3))[as.numeric(species_labels)]

#绘制 SPLOM:

pairs(iris2, col = species_col,

      lower.panel = NULL,

       cex.labels=2, pch=19, cex = 1.2)



# 添加图例

par(xpd = TRUE)

legend(x = 0.05, y = 0.4, cex = 2,

   legend = as.character(levels(species_labels)),

    fill = unique(species_col))

par(xpd = NA)

我们可以看到，Setosa物种与Versicolor和Virginica明显不同（它们具有较低的花瓣长度和宽度）。但是，基于对萼片和花瓣宽度/长度的测量，不易将Versicolor和Virginica分开。

通过查看数据的平行坐标图可以得出同样的结论：

R语言鸢尾花iris数据集的层次聚类分析_R语言开发_02

我们可以通过将对象转化为树状图并对对象进行一些调整来可视化运行它的结果

R语言鸢尾花iris数据集的层次聚类分析_R语言开发_03

相同的可以在圆形布局中呈现：

R语言鸢尾花iris数据集的层次聚类分析_R语言教程_04

这些可视化很容易证明分层聚类的分离对于“Setosa”物种来说是非常好的，但是在将许多“Versicolor”物种标记为“Virginica”时未能实现。

我们也可以使用热图探索数据。

在热图中，我们还可以看到Setosa物种的花瓣值如何（浅黄色），但很难看出其他两种物种之间的明显区别。

R语言鸢尾花iris数据集的层次聚类分析_R语言开发_05

各种聚类算法之间的相似/不同

为了进行这种分析，我们将创建所有8个hclust对象，并将它们链接在一起成为一个dendlist对象（顾名思义，它可以将一组树状图组合在一起用于进一步分析）。

接下来，我们可以看看每个聚类结果之间的同源相关性cor.dendlist。（这可以使用corrplot包中的corrplot函数很好地绘制）：

R语言鸢尾花iris数据集的层次聚类分析_R语言开发_06

从上图中我们可以很容易地看到，除了完整的方法（默认方法in hclust），大多数聚类方法的结果非常相似，其结果相关度大约为0.6。

默认的同源相关使用皮尔逊的度量，但如果我们使用spearman的相关系数呢？

R语言鸢尾花iris数据集的层次聚类分析_R语言教程_07

我们可以看到，相关性不是很强，表明一个行为依赖于彼此距离很远的一些项目，这些项目对皮尔森相关性的影响相关性更大。

R语言鸢尾花iris数据集的层次聚类分析

【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载，内容版权归原作者所有。本网站的目的在于传递更多信息，不拥有版权，亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@moduyun.com

上一篇： R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据下一篇： R语言调整随机对照试验中的基线协变量

分享：

最后一次编辑于 2023年11月12日 0

暂无评论

推荐阅读

ggplot2如何在R语言中绘制表格

TEZNKK3IfmPf 2023年11月15日 19 0 0 R语言开发表格

r语言中对LASSO回归，Ridge岭回归和Elastic Net模型实现

TEZNKK3IfmPf 2023年11月15日 21 0 0 R语言开发

R语言中Gibbs抽样的Bayesian简单线性回归

TEZNKK3IfmPf 2023年11月15日 27 0 0 R语言开发

R语言中的LDA模型：对文本数据进行主题模型topic modeling分析

TEZNKK3IfmPf 2023年11月12日 41 0 0 R语言开发

R语言BUGS/JAGS贝叶斯分析: 马尔科夫链蒙特卡洛方法（MCMC）采样

TEZNKK3IfmPf 2023年11月15日 31 0 0 R语言开发

R语言使用ARIMA模型预测股票收益时间序列

AnyLlCIhvKpr 2023年11月12日 39 0 0 R语言开发

R语言随机搜索变量选择SSVS估计贝叶斯向量自回归（BVAR）模型

TEZNKK3IfmPf 2023年11月12日 28 0 0 R语言开发

R语言文本主题模型之潜在语义分析（LDA:Latent Dirichlet Allocation）

TEZNKK3IfmPf 2023年11月15日 19 0 0 R语言开发 R语言教程

R语言Poisson回归的拟合优度检验

TEZNKK3IfmPf 2023年11月12日 35 0 0 R语言开发

R语言风险价值VaR（Value at Risk）和损失期望值ES（Expected shortfall）的估计

TEZNKK3IfmPf 2023年11月15日 23 0 0 R语言开发数据分析

用R语言模拟混合制排队随机服务排队系统

TEZNKK3IfmPf 2023年11月15日 34 0 0 R语言开发编程开发

R语言线性分类判别LDA和二次分类判别QDA实例

TEZNKK3IfmPf 2023年11月12日 41 0 0 R语言开发

R语言蒙特卡洛计算和快速傅立叶变换计算矩生成函数

TEZNKK3IfmPf 2023年11月15日 34 0 0 R语言开发函数

R语言使用倾向评分提高RCT（随机对照试验）的效率

TEZNKK3IfmPf 2023年11月15日 33 0 0 R语言开发

R语言GAM（广义相加模型）对物业耗电量进行预测

TEZNKK3IfmPf 2023年11月15日 28 0 0 R语言开发数据分析

R语言CRAN软件包Meta分析

TEZNKK3IfmPf 2023年11月12日 79 0 0 R语言开发编程开发

在R语言中实现Logistic逻辑回归

TEZNKK3IfmPf 2023年11月12日 60 0 0 R语言开发

R语言鸢尾花iris数据集的层次聚类分析

TEZNKK3IfmPf 2023年11月12日 26 0 0 R语言开发

R语言中使用非凸惩罚函数回归(SCAD、MCP)分析前列腺数据

TEZNKK3IfmPf 2023年11月12日 21 0 0 R语言开发数据分析

R语言调整随机对照试验中的基线协变量

TEZNKK3IfmPf 2023年11月12日 41 0 0 R语言开发 R语言教程

TEZNKK3IfmPf

作者其他文章更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

最新推荐更多

使用代码获得所有适用于创建的transaction type

2024-06-14

C/C++ realloc()函数解析

2024-06-14

生成一个文件保存在指定的文件夹中思路 python

2024-06-14

Windows 10封装中出现“无法验证你的Windows安装”错误解决方法

2024-06-14

109-修改返回体的内容RestControllerAdvice

2024-06-14

C/C++ 判断进程是否存在

2024-06-14

使用面向对象重构之-使用接口完成行为抽象

2024-06-14

使用面向对象重构之-把抽象控制在一处：提高内聚性

2024-06-14

重操旧业障碍多

2024-06-14

关于关闭自动装配

2024-06-14

使用面向对象重构之-从过程式设计到面向对象

2024-06-14

nodejs部署神器pm2的使用体验

2024-06-14

java虚拟机启动过程解析

2024-06-14

mysql-忘记密码时重置操作

2024-06-14

Callable和runnable的区别

2024-06-14

python的粘包和分包

2024-06-14

tftp文件服务（udp端口：69）

2024-06-14

C语言反汇编 - 流程控制与循环结构

2024-06-14

python-列表包字典-根据字典的某一个键的值来进行排序

2024-06-14

使用面向对象重构之-使用接口抽象完成不同维度的扩展

2024-06-14