1.1. 信息量、熵、相对熵、交叉熵

预期收益

  • ★ 通过交叉熵的定义和含义知道为什么用来作为损失函数

时间成本

  • 阅读 03 分钟
  • 思考 05 分钟
概念 含义 公式
信息量 事件发生带来的信息量 \(I(x) = \lg(\frac{1}{p(x)})\)
表示所有信息量的期望 \(H(X) = E(I(x)) = \displaystyle\sum_{x\in X}{p(x)I(x)}\)
相对熵 两个不同分布间的距离 \(D_{KL}(p\|q) = H_p(q) - H(p)=\displaystyle\sum_{x\in X}{p(x)\lg\frac{p(x)}{q(x)}}\)
交叉熵 与相对熵相差常数 \(CE(p,q) = H_p(q)=\displaystyle\sum_{x\in X}{p(x)\lg(\frac{1}{q(x)})}\)
  1. 信息量
  • 必然事件, \(p(x)=1\), 信息量为 \(I(x)=0\)
  • 越不可能发生的事件, 信息量越大
  • 分布均匀的随机变量, 对应的熵越大
  1. 相对熵
  • 同一随机变量两个分布 \(p, q\) 相同时, 相对熵为0, 交叉熵此时取得最小
  • 在实际应用中,假如 \(p(x)\) 是目标真实的分布,而 \(q(x)\) 是预测得来的分布,为了让这两个分布尽可能的相同的,就需要最小化KL散度
  1. 交叉熵
  • 机器学习中, 样本分布 \(p(x)\) 通常是训练数据的分布是固定,即是 \(H(p)\) 是一个常量, 最小化相对熵, 等价于最小化交叉熵
  • 最大化似然估计等价于最小化交叉熵, \(\displaystyle\theta_{ML} = \arg{\max_\theta}\frac{1}{m}\sum_{}^m{\lg(q(x_i;\theta))}=\arg{\min_\theta}E_P{\lg(\frac{1}{q(x;\theta)})}\)

[1]一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉
[2]一文搞懂交叉熵损失
[3]神经网络的分类模型 LOSS 函数为什么要用 CROSS ENTROPY