4种外部指标总结
项目中要用到NMI和ARI两个指标,但是一直不太理解这两个指标究竟侧重点是什么,正好做一下记录,顺便对另外两种外部指标也进行一个调研(Purity and F-Measures)
Purity的定义
Purity的纯净度其实就是对划定好的聚类结果,对每个cluster中数目最多的一类作为该集簇的类别,从而计算样本正确分配到相应集簇的数目
但如果集簇的数目很多时,很容易取得较高purity,比如如果每一个样本自为一类则纯净度为1,因此我们不能用纯净度作为集簇的质量和数目的tradeoff。
NMI的定义
nmi主要是用来通过互信息和熵值得比值,对于Ω为划分的集合,C为总共的类别,
ARI的定义
rule of thumb is :
- Use ARI when the ground truth clustering has large equal sized clusters
介绍ARI之前先介绍一个Rand Index(RI), 假设一个集合S=o1,⋯,on和两个划分X=X1,⋯,Xr与Y=Y1,⋯,Ys,可以获得以下四个统计量:
- a 用来表示集合S中节点对若在X中属于同一划分同时在Y中也属于同一划分的数目
- b 用来表示集合S中节点对若在X中属于不同划分同时在Y中也属于不同划分的数目
- c 用来表示集合S中节点对若在X中属于同一个划分同时在Y中属于不同划分的数目
- d 用来表示集合S中节点对若在X中属于不同划分同时在Y中也属于同一划分的数目
则RI指标为:
RI=a+ba+b+c+d=a+bC2n
对于ARI来说其公式首先涉及到一个contigency table
表格中的nij代表公共元素个数对于子集Xi与Yj: |Xi∪Yj|, 随后ARI的计算公式为