机器学习中所涉及到数学知识
接下来持续更新会对看论文过程中所遇到的一些不理解的数学知识进行汇总,方便以后进行查阅
- Contraction Mapping
- Mutual Information
- Normal Vector
Contraction Mapping
一个收缩映射(contraction mapping)可以看做在度量空间(metric space) $(M,d)$中从$M$映射到自己本身的函数$f$,其满足对于任意$x \in M, y \in M$,
$$d(f(x), f(y)) \le kd(x,y), \tag{1}$$其中$0 \le k \le 1$,$k$最小的那个值被叫做该映射$f$的Lipschitz constant。
同样这个概念可以推广到任意两个度量空间$(M, d), (N, d’)$上,对于$f\colon M\rightarrow N$,$f$为收缩映射时满足存在一个常量$k<1$,使所有$x,y \in M$满足
$$d’(f(x), f(y)) \le kd(x,y) \tag{2}$$
Mutual Information
Mutual information is calculated between two variables and measures the reduction in uncertainty for one variable given a known value of the other variable.
总的来说互信息就是为了衡量两个随机变量之间的依赖性,对于随机变量$X$和$Y$,他们之间的互信息$I(X;Y)$可以用以下公式来计算:
$$I(X;Y)=H(X)-H(X|Y) \tag{3}$$
其中$H(X)$为随机变量$X$的熵(entropy),$H(X|Y)$为给定随机变量$Y$后$X$的条件熵,显然如果两个随机变量互相独立,则其互信息为$0$,给定$Y$的信息不会对$X$减少任何不确定性,互信息越大,意味着两个随机变量之间的依赖程度越高。
Normal Vector
normal vector即法线向量,就是过平面一个点与该平面垂直的向量,对于平面$$f(x, y,z)=ax+by+cz+d=0,$$法线向量定义为$$\mathbf{N}=\nabla f= \begin{bmatrix} a \ b \c \end{bmatrix} $$