1.1. 信息量、熵、相对熵、交叉熵

预期收益

  • ★ 通过交叉熵的定义和含义知道为什么用来作为损失函数

时间成本

  • 阅读 03 分钟
  • 思考 05 分钟
概念 含义 公式
信息量 事件发生带来的信息量 I(x)=lg(1p(x))
表示所有信息量的期望 H(X)=E(I(x))=xXp(x)I(x)
相对熵 两个不同分布间的距离 DKL(pq)=Hp(q)H(p)=xXp(x)lgp(x)q(x)
交叉熵 与相对熵相差常数 CE(p,q)=Hp(q)=xXp(x)lg(1q(x))
  1. 信息量
  • 必然事件, p(x)=1, 信息量为 I(x)=0
  • 越不可能发生的事件, 信息量越大
  • 分布均匀的随机变量, 对应的熵越大
  1. 相对熵
  • 同一随机变量两个分布 p,q 相同时, 相对熵为0, 交叉熵此时取得最小
  • 在实际应用中,假如 p(x) 是目标真实的分布,而 q(x) 是预测得来的分布,为了让这两个分布尽可能的相同的,就需要最小化KL散度
  1. 交叉熵
  • 机器学习中, 样本分布 p(x) 通常是训练数据的分布是固定,即是 H(p) 是一个常量, 最小化相对熵, 等价于最小化交叉熵
  • 最大化似然估计等价于最小化交叉熵, θML=argmaxθ1mmlg(q(xi;θ))=argminθEPlg(1q(x;θ))