1.1. 信息量、熵、相对熵、交叉熵¶
预期收益
- ★ 通过交叉熵的定义和含义知道为什么用来作为损失函数
时间成本
- 阅读 03 分钟
- 思考 05 分钟
概念 | 含义 | 公式 |
---|---|---|
信息量 | 事件发生带来的信息量 | I(x)=lg(1p(x)) |
熵 | 表示所有信息量的期望 | H(X)=E(I(x))=∑x∈Xp(x)I(x) |
相对熵 | 两个不同分布间的距离 | DKL(p‖q)=Hp(q)−H(p)=∑x∈Xp(x)lgp(x)q(x) |
交叉熵 | 与相对熵相差常数 | CE(p,q)=Hp(q)=∑x∈Xp(x)lg(1q(x)) |
- 信息量
- 必然事件, p(x)=1, 信息量为 I(x)=0
- 越不可能发生的事件, 信息量越大
- 熵
- 分布均匀的随机变量, 对应的熵越大
- 相对熵
- 同一随机变量两个分布 p,q 相同时, 相对熵为0, 交叉熵此时取得最小
- 在实际应用中,假如 p(x) 是目标真实的分布,而 q(x) 是预测得来的分布,为了让这两个分布尽可能的相同的,就需要最小化KL散度
- 交叉熵
- 机器学习中, 样本分布 p(x) 通常是训练数据的分布是固定,即是 H(p) 是一个常量, 最小化相对熵, 等价于最小化交叉熵
- 最大化似然估计等价于最小化交叉熵, θML=argmaxθ1mm∑lg(q(xi;θ))=argminθEPlg(1q(x;θ))
[2] | 一文搞懂交叉熵损失 |