4种外部指标总结
项目中要用到NMI和ARI两个指标,但是一直不太理解这两个指标究竟侧重点是什么,正好做一下记录,顺便对另外两种外部指标也进行一个调研(Purity and F-Measures)
Purity的定义
Purity的纯净度其实就是对划定好的聚类结果,对每个cluster中数目最多的一类作为该集簇的类别,从而计算样本正确分配到相应集簇的数目
但如果集簇的数目很多时,很容易取得较高purity,比如如果每一个样本自为一类则纯净度为1,因此我们不能用纯净度作为集簇的质量和数目的tradeoff。
NMI的定义
nmi主要是用来通过互信息和熵值得比值,对于$\Omega$为划分的集合,$\mathbb{C}$为总共的类别,
ARI的定义
rule of thumb is :
- Use ARI when the ground truth clustering has large equal sized clusters
介绍ARI之前先介绍一个Rand Index(RI), 假设一个集合$S={o_1, \cdots, o_n}$和两个划分$X={X_1, \cdots, X_r}$与$Y={Y_1, \cdots, Y_s}$,可以获得以下四个统计量:
- $a$ 用来表示集合$S$中节点对若在$X$中属于同一划分同时在$Y$中也属于同一划分的数目
- $b$ 用来表示集合$S$中节点对若在$X$中属于不同划分同时在$Y$中也属于不同划分的数目
- $c$ 用来表示集合$S$中节点对若在$X$中属于同一个划分同时在$Y$中属于不同划分的数目
- $d$ 用来表示集合$S$中节点对若在$X$中属于不同划分同时在$Y$中也属于同一划分的数目
则RI指标为:
$$RI=\frac{a+b}{a+b+c+d}=\frac{a+b}{C_{n}^{2}}$$
对于ARI来说其公式首先涉及到一个contigency table
表格中的$n_{ij}$代表公共元素个数对于子集$X_i$与$Y_j$: $|X_{i} \cup Y_{j}|$, 随后ARI的计算公式为