机器学习中的损失函数
交叉熵交叉熵 cross-entropy cost,是信息论中和“信息量”有关的一个概念。
信息量首先是信息量。假设我们听到了两件事,分别如下:
事件A:巴西队进入了2018世界杯决赛圈。
事件B:中国队进入了2018世界杯决赛圈。仅凭直觉来说,显而易见事件B的信息量比事件A的信息量要大。究其原因,是因为事件A发生的概率很大,事件B发生的概率很小。所以当越不可能的事件发生了,我们获取到的信息量就越大。越可能发生的事件发生了,我们获取到的信息量就越小。那么信息量应该和事件发生的概率有关。假设 $X$ 是一个离散型随机变量,其取值集合为 $\chi$,概率分布函数 $p(x)=Pr(X=x), x∈\chi$ 则定义事件 $X=x_0$ 的信息量为:
I(x_0) = −log(p(x_0))
由于是概率所以 $p(x0)$ 的取值范围是 $[0,1]$ ,绘制为图形如下:
熵考虑另一
...