交叉熵损失函数

发表于2025-10-01|更新于2025-10-01|机器学习深度学习

|总字数:613|阅读时长:2分钟|浏览量:

深度学习–交叉熵损失函数

二分类

如果要预测事件的结果只有两种情况–是或不是，用计算机语言来说要么为 1 ，要么为 0 ，那么在设计损失函数时就可以使用二分类的交叉熵损失函数。

例如，在判断图片是否为猫时，一张图片的预测结果只可能有两个：

这张图片的内容是猫
这张图片的内容不是猫

我们对二元交叉熵损失函数定义如下：

令单个样本的二元交叉熵损失 $\mathcal{L}(\mathbf{a}^{i}, \mathbf{y}^{i})$ 为

$\mathcal{L}(\mathbf{a}^{i}, \mathbf{y}^{i}) = - \mathbf{y}^{i} \log(\mathbf{a}^{i}) - \left(1 - \mathbf{y}^{i}\right) \log\left(1 - \mathbf{a}^{i}\right)$

取所有样本损失的平均值：

$J = \frac{1}{m} \sum_{i=1}^{m} \mathcal{L}\left(a^{(i)}, y^{(i)}\right)$

我们称这个 $J$ 函数为代价函数(成本函数)

上式中的符号解释：

$y^i$ ：真实标签，值为1或0，表示是猫/不是猫。
$a^i$ ：预测值，默认认为它是猫的概率，介于 $[0,1]$ 。

可以发现，

当 $y^i = 1$ 时，表示该图片是猫，二元交叉熵函数的 $y^i$ 项为 $1$ ，此时计算 $a^i$ 项的概率对数。损失 $L = -log(a^i)$ ， $a^i$ 越接近 $1$ ，表示模型认为该图片是猫的概率越高，预测的就越准，损失函数的LOSS值越接近 $0$ ； $a^i$ 越接近 $0$ ，表示模型预测的越不准，损失函数的LOSS值就会趋于无穷大。

当 $y^i = 0$ 时，表示该图片是不是猫，二元交叉熵函数的 $y^i$ 项为 $0$ ，相应的 $1-y^i$ 项就为 $1$ , 此时计算 $1 - a^i$ 项的概率对数。损失 $L = -log(1 - a^i)$ ， $a^i$ 越接近 $0$ ，表示模型认为该图片是猫的概率越低，预测的就越准，损失函数的LOSS值越接近 $0$ ； $a^i$ 越接近 $1$ ，表示模型预测的越不准，损失函数的LOSS值就会趋于无穷大。

函数图像

二元交叉熵损失函数图像

注意到这是凸函数，可以通过求导收敛到局部最优

文章作者: HLAIA-光子

文章链接: https://hlaia.top/2025/10/01/%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0/%E4%BA%A4%E5%8F%89%E7%86%B5%E6%8D%9F%E5%A4%B1%E5%87%BD%E6%95%B0/

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 HLAIA-光子！

机器学习深度学习损失函数

相关推荐

AdamW优化器--Adam的升级版

回顾Adam优化器 AdamW是Adam的升级版，我们先回顾一下 Adam 假如你在训练一个神经网络，目标是找到损失函数的最小损失值。优化器就是你找最小损失值的策略，我们可以把这个过程比作下山，找到这片区域的最低山谷。 Adam优化器是一个不错的策略(放以前来看很好，但现在有AdamW了)，它结合了两个方法：动量：就像下山有惯性一样，Adam 会记住之前几步的方向，这样就走得更稳更快，用术语说就是加速收敛。自适应学习率：山势陡峭（梯度大）的地方，它就小步走，防止摔倒(降低学习率)；山势平缓（梯度小）的地方，它就迈大步，加快速度(增大学习率)。它为每个参数都单独调整步幅（也就是学习率）。 Adam 的公式比较复杂(毕竟不复杂就不会这么出名)，但核心的参数更新步骤可以简化为：新参数=旧参数−学习率∗动量梯度平方+一个小常数新参数 = 旧参数 - \frac{学习率 * 动量} {\sqrt{梯度平方} + 一个小常数} 新参数=旧参数−梯度平方+一个小常数学习率∗动量它有一个问题：处理“权重衰减”的方式有缺陷。要理解 AdamW，必须先理解“权重衰减”和“L2正则...

Logistic回归--识别小猫

本文用于记录Logistic回归在神经网络中的应用，主要用到 SigmoidSigmoidSigmoid 函数和二元交叉熵损失函数，做一个可以识别图片中是否是小猫的简单神经网络。关于二元交叉熵损失函数，在我的博文交叉熵损失函数里有相关介绍。本项目用到的数据集是从博主何宽开源的数据集处获得，你可以点击这里下载，提取码: 2u3w 用到的库 torch numpy h5py matplotlib 神经网络实现数据文件训练数据由209张64×64的图片组成，测试数据由50张64×64的图片组成。图片分为两类：一类是猫，比如：另一类不是猫，比如: 另外还有标签数据，是一个[img numbers, 1]的矩阵，1表示该图片是猫，0表示该图片不是猫。用以下代码加载数据集： 1234567891011121314151617181920212223242526272829303132333435import torchimport numpy as npimport h5pydef load_dataset(): train_dataset = h5...

模拟退火Simulated annealing算法

在记录模拟退火之前，我们来看看它的启发灵感–(详情见WIKI) “模拟退火”来自冶金学术语退火，是将材料加热后再经特定速率冷却的技术，目的是增大晶粒的体积，并且减少晶格中的缺陷，以改变材料的物理性质。材料中的原子原来会停留在使内能有局部最小值的位置，加热使能量变大，原子会离开原来位置，而随机在其他位置中移动。退火冷却时速度较慢，使得原子有较多可能可以找到内能比原先更低的位置。模拟退火的原理也和金属退火的原理近似：我们将热力学的理论套用到统计学上，将搜寻空间内每一点想像成空气内的分子；分子的能量，就是它本身的动能；而搜寻空间内的每一点，也像空气分子一样带有“能量”，以表示该点对命题的合适程度。算法先以搜寻空间内一个任意点作起始：每一步先选择一个“邻居”，然后再计算从现有位置到达“邻居”的概率。可以证明，模拟退火算法所得解依概率收敛到全局最优解。模拟退火法可用于精确算法失效的高难度计算优化问题，虽然通常只能获得全局最优的近似，但对很多实际问题已经足够。模拟退火直观收敛图：模拟退火(SA)是一种优化算法，用来找全局最优。如上面的灵感所说，模拟退火算法模仿的是金属...

评论

数据加载中