聚类算法的性能度量
  VW0ZAOA6bLNz 2023年12月22日 31 0


聚类算法的性能度量

聚类算法就是根据数据中样本与样本之间的距离或相似度,将样本划分为若干组/类/簇,其划分的原则:簇内样本相似、簇间样本不相似,聚类的结果是产生一个簇的集合。

其划分方式主要分为两种,

  • 嵌套类型

聚类算法的性能度量_聚类算法

  • 非嵌套类型

聚类算法的性能度量_机器学习_02

其中簇往往分为三种情况

  1. 基于中心的簇:簇内的点和其“中心”较为相近(或相似),和其他簇的“中心”较远,这样的一组样本形成的簇
  2. 基于邻接的簇:相比其他任何簇的点,每个点都至少和所属簇的某一个点更近
  3. 基于密度的簇:簇是由高密度的区域形成的,簇之间是一些低密度的区域

簇的相似性与距离度量

若采用距离为度量

闵可夫斯基距离: 聚类算法的性能度量_机器学习_03
聚类算法的性能度量_机器学习_04时,为欧氏距离聚类算法的性能度量_聚类算法_05
聚类算法的性能度量_聚类算法_06时,为曼哈顿距离: 聚类算法的性能度量_聚类算法_07

这类距离函数对特征的旋转和平移变换不敏感,对数值尺度敏感

若采用余弦相似度量

两变量聚类算法的性能度量_机器学习_08,看作D维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算
聚类算法的性能度量_机器学习_09
若采用相关系数
聚类算法的性能度量_聚类算法_10
当数据采用中心化处理后聚类算法的性能度量_机器学习_11,相关系数等于余弦相似度

对聚类算法的性能评价指标

参考模型

设存在数据集聚类算法的性能度量_相似度_12,聚类结果聚类算法的性能度量_相似度_13,其中聚类算法的性能度量_相似度_14表示属于类别聚类算法的性能度量_相似度_15的样本的集合,其中参考模型的分类结果为聚类算法的性能度量_相似度_16,聚类算法的性能度量_机器学习_17聚类算法的性能度量_相似度_18 分别为聚类算法的性能度量_聚类算法_19聚类算法的性能度量_嵌套类型_20

其中聚类结果有4种情况
聚类算法的性能度量_机器学习_21
每个样本对聚类算法的性能度量_聚类算法_22 仅能出现在一个集合中,因此有 聚类算法的性能度量_嵌套类型_23

聚类算法的性能度量_聚类算法_24

Jaccard 系数(Jaccard Coefficient, 简称 JC)
聚类算法的性能度量_相似度_25
FM 指数(Fowlkes and Mallows Index, 简称 FMI)
聚类算法的性能度量_机器学习_26
Rand 指数(Rand Index, 简称 RI$) $
聚类算法的性能度量_嵌套类型_27
上述性能度量的结果值均在 [0,1] 区间,值越大越好

无参考模型

其要求簇内相似度越大越好,簇间相似度越小越好

平均距离:
聚类算法的性能度量_聚类算法_28
最大距离:
聚类算法的性能度量_聚类算法_29
簇的半径:
聚类算法的性能度量_机器学习_30
其中聚类算法的性能度量_嵌套类型_31

最小距离:
聚类算法的性能度量_机器学习_32
类中心的距离:
聚类算法的性能度量_机器学习_33
DB指数(DBI)【簇内距离/簇间距离】:
聚类算法的性能度量_嵌套类型_34
其中DBI越小越好,即簇越小越远

Dunn 指数(DI)【最小簇间距离/最大簇的半径】:
聚类算法的性能度量_相似度_35
其中DI越大越好


【版权声明】本文内容来自摩杜云社区用户原创、第三方投稿、转载,内容版权归原作者所有。本网站的目的在于传递更多信息,不拥有版权,亦不承担相应法律责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@moduyun.com

  1. 分享:
最后一次编辑于 2023年12月22日 0

暂无评论

推荐阅读
VW0ZAOA6bLNz