聚类算法的性能度量
聚类算法就是根据数据中样本与样本之间的距离或相似度,将样本划分为若干组/类/簇,其划分的原则:簇内样本相似、簇间样本不相似,聚类的结果是产生一个簇的集合。
其划分方式主要分为两种,
- 嵌套类型
- 非嵌套类型
其中簇往往分为三种情况
- 基于中心的簇:簇内的点和其“中心”较为相近(或相似),和其他簇的“中心”较远,这样的一组样本形成的簇
- 基于邻接的簇:相比其他任何簇的点,每个点都至少和所属簇的某一个点更近
- 基于密度的簇:簇是由高密度的区域形成的,簇之间是一些低密度的区域
簇的相似性与距离度量
若采用距离为度量
闵可夫斯基距离:
当时,为欧氏距离
当时,为曼哈顿距离:
这类距离函数对特征的旋转和平移变换不敏感,对数值尺度敏感
若采用余弦相似度量
两变量,看作D维空间的两个向量,这两个向量间的夹角余弦可用下式进行计算
若采用相关系数
当数据采用中心化处理后,相关系数等于余弦相似度
对聚类算法的性能评价指标
参考模型
设存在数据集,聚类结果,其中表示属于类别的样本的集合,其中参考模型的分类结果为, 和 分别为和
其中聚类结果有4种情况
每个样本对 仅能出现在一个集合中,因此有
Jaccard 系数(Jaccard Coefficient, 简称 JC)
FM 指数(Fowlkes and Mallows Index, 简称 FMI)
Rand 指数(Rand Index, 简称 RI$) $
上述性能度量的结果值均在 [0,1] 区间,值越大越好
无参考模型
其要求簇内相似度越大越好,簇间相似度越小越好
平均距离:
最大距离:
簇的半径:
其中
最小距离:
类中心的距离:
DB指数(DBI)【簇内距离/簇间距离】:
其中DBI越小越好,即簇越小越远
Dunn 指数(DI)【最小簇间距离/最大簇的半径】:
其中DI越大越好