Processing math: 100%

聚类外部指标总结

4种外部指标总结

项目中要用到NMI和ARI两个指标,但是一直不太理解这两个指标究竟侧重点是什么,正好做一下记录,顺便对另外两种外部指标也进行一个调研(Purity and F-Measures

Purity的定义

Purity的纯净度其实就是对划定好的聚类结果,对每个cluster中数目最多的一类作为该集簇的类别,从而计算样本正确分配到相应集簇的数目
Purity


Purity definition
Purity definition

但如果集簇的数目很多时,很容易取得较高purity,比如如果每一个样本自为一类则纯净度为1,因此我们不能用纯净度作为集簇的质量和数目的tradeoff

NMI的定义

nmi主要是用来通过互信息和熵值得比值,对于Ω为划分的集合,C为总共的类别,
NMI


mutual information
mutual information

ARI的定义

rule of thumb is :

  • Use ARI when the ground truth clustering has large equal sized clusters

介绍ARI之前先介绍一个Rand Index(RI), 假设一个集合S=o1,,on和两个划分X=X1,,XrY=Y1,,Ys,可以获得以下四个统计量:

  • a 用来表示集合S中节点对若在X中属于同一划分同时在Y中也属于同一划分的数目
  • b 用来表示集合S中节点对若在X中属于不同划分同时在Y中也属于不同划分的数目
  • c 用来表示集合S中节点对若在X中属于同一个划分同时在Y中属于不同划分的数目
  • d 用来表示集合S中节点对若在X中属于不同划分同时在Y中也属于同一划分的数目

则RI指标为:
RI=a+ba+b+c+d=a+bC2n
对于ARI来说其公式首先涉及到一个contigency table
contigency table


表格中的nij代表公共元素个数对于子集XiYj: |XiYj|, 随后ARI的计算公式为ARI
ARI

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×