聚类算法的性能度量-摩杜云开发者社区

聚类算法的性能度量

聚类算法就是根据数据中样本与样本之间的距离或相似度，将样本划分为若干组／类／簇，其划分的原则：簇内样本相似、簇间样本不相似，聚类的结果是产生一个簇的集合。

其划分方式主要分为两种，

嵌套类型

聚类算法的性能度量_聚类算法

非嵌套类型

聚类算法的性能度量_机器学习_02

其中簇往往分为三种情况

基于中心的簇：簇内的点和其“中心”较为相近（或相似），和其他簇的“中心”较远，这样的一组样本形成的簇
基于邻接的簇：相比其他任何簇的点，每个点都至少和所属簇的某一个点更近
基于密度的簇：簇是由高密度的区域形成的，簇之间是一些低密度的区域

簇的相似性与距离度量

若采用距离为度量

闵可夫斯基距离： $聚类算法的性能度量_机器学习_03$
当聚类算法的性能度量_机器学习_04 时，为欧氏距离 $聚类算法的性能度量_聚类算法_05$
当聚类算法的性能度量_聚类算法_06 时，为曼哈顿距离： $聚类算法的性能度量_聚类算法_07$

这类距离函数对特征的旋转和平移变换不敏感，对数值尺度敏感

若采用余弦相似度量

两变量聚类算法的性能度量_机器学习_08 ,看作D维空间的两个向量，这两个向量间的夹角余弦可用下式进行计算
$聚类算法的性能度量_机器学习_09$
若采用相关系数
$聚类算法的性能度量_聚类算法_10$
当数据采用中心化处理后聚类算法的性能度量_机器学习_11 ，相关系数等于余弦相似度

对聚类算法的性能评价指标

参考模型

设存在数据集聚类算法的性能度量_相似度_12 ，聚类结果聚类算法的性能度量_相似度_13 ,其中聚类算法的性能度量_相似度_14 表示属于类别聚类算法的性能度量_相似度_15 的样本的集合，其中参考模型的分类结果为 $聚类算法的性能度量_相似度_16$ , 聚类算法的性能度量_机器学习_17 和 $聚类算法的性能度量_相似度_18$ 分别为聚类算法的性能度量_聚类算法_19 和 $聚类算法的性能度量_嵌套类型_20$

其中聚类结果有4种情况
$聚类算法的性能度量_机器学习_21$
每个样本对 $聚类算法的性能度量_聚类算法_22$ 仅能出现在一个集合中，因此有 $聚类算法的性能度量_嵌套类型_23$

聚类算法的性能度量_聚类算法_24

Jaccard 系数(Jaccard Coefficient, 简称 JC)
聚类算法的性能度量_相似度_25
FM 指数(Fowlkes and Mallows Index, 简称 FMI)
聚类算法的性能度量_机器学习_26
Rand 指数(Rand Index, 简称 RI$) $
$聚类算法的性能度量_嵌套类型_27$
上述性能度量的结果值均在 [0,1] 区间，值越大越好

无参考模型

其要求簇内相似度越大越好，簇间相似度越小越好

平均距离：
$聚类算法的性能度量_聚类算法_28$
最大距离：
$聚类算法的性能度量_聚类算法_29$
簇的半径：
$聚类算法的性能度量_机器学习_30$
其中聚类算法的性能度量_嵌套类型_31

最小距离：
$聚类算法的性能度量_机器学习_32$
类中心的距离：
$聚类算法的性能度量_机器学习_33$
DB指数（DBI）【簇内距离/簇间距离】：
$聚类算法的性能度量_嵌套类型_34$
其中DBI越小越好，即簇越小越远

Dunn 指数（DI）【最小簇间距离/最大簇的半径】：
$聚类算法的性能度量_相似度_35$
其中DI越大越好