1.1. 信息量、熵、相对熵、交叉熵¶
预期收益
- ★ 通过交叉熵的定义和含义知道为什么用来作为损失函数
时间成本
- 阅读 03 分钟
- 思考 05 分钟
概念 | 含义 | 公式 |
---|---|---|
信息量 | 事件发生带来的信息量 | \(I(x) = \lg(\frac{1}{p(x)})\) |
熵 | 表示所有信息量的期望 | \(H(X) = E(I(x)) = \displaystyle\sum_{x\in X}{p(x)I(x)}\) |
相对熵 | 两个不同分布间的距离 | \(D_{KL}(p\|q) = H_p(q) - H(p)=\displaystyle\sum_{x\in X}{p(x)\lg\frac{p(x)}{q(x)}}\) |
交叉熵 | 与相对熵相差常数 | \(CE(p,q) = H_p(q)=\displaystyle\sum_{x\in X}{p(x)\lg(\frac{1}{q(x)})}\) |
- 信息量
- 必然事件, \(p(x)=1\), 信息量为 \(I(x)=0\)
- 越不可能发生的事件, 信息量越大
- 熵
- 分布均匀的随机变量, 对应的熵越大
- 相对熵
- 同一随机变量两个分布 \(p, q\) 相同时, 相对熵为0, 交叉熵此时取得最小
- 在实际应用中,假如 \(p(x)\) 是目标真实的分布,而 \(q(x)\) 是预测得来的分布,为了让这两个分布尽可能的相同的,就需要最小化KL散度
- 交叉熵
- 机器学习中, 样本分布 \(p(x)\) 通常是训练数据的分布是固定,即是 \(H(p)\) 是一个常量, 最小化相对熵, 等价于最小化交叉熵
- 最大化似然估计等价于最小化交叉熵, \(\displaystyle\theta_{ML} = \arg{\max_\theta}\frac{1}{m}\sum_{}^m{\lg(q(x_i;\theta))}=\arg{\min_\theta}E_P{\lg(\frac{1}{q(x;\theta)})}\)
[1] | 一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉 |
[2] | 一文搞懂交叉熵损失 |
[3] | 神经网络的分类模型 LOSS 函数为什么要用 CROSS ENTROPY |