数学公式 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

在每次迭代中，我们首先随机抽样一个小批量B，它是由固定数量的训练样本组成的。然后，我们计算小批量的平均损失关于模型参数的导数（也可以称为梯度）。最后，我们将梯度乘以一个预先确定的正数η，并从当前参数的值中减掉。我们用下面的数学公式来表示这一更新过程（∂表示偏导数）： (w, b) ← (w, b) − η |B| � i∈B ∂(w,b)l(i)(w, b). (3.1.9) 总结一下，算法的步骤如下：（1）初始来很困难，但是我们可以在不改变目标的前提下，通过最大化似然对数来简化。由于历史原因，优化通常是说最小化而不是最大化。我们可以改为最小化负对数似然− log P(y | X)。由此可以得到的数学公式是： − log P(y | X) = n � i=1 1 2 log(2πσ2) + 1 2σ2 � y(i) − w⊤x(i) − b �2 . (3.1.15) 现在我们只需要

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

太空入侵者等游戏上取得类人水平的 DQN 算法、制胜 Dota2 的主要功臣 PPO 算法等。 14.1 先睹为快强化学习算法的设计与传统的有监督学习不太一样，包含了大量的新的数学公式推导。在进入强化学习算法的学习过程之前，我们先通过一个简单的例子来感受强化学习算法的魅力。此节不需掌握每个细节，以直观感受为主，获得第一印象即可。 14.1.1 平衡杆游戏平

0 码力 | 439 页 | 29.91 MB | 1 年前
3

共 2 条前往

页

动手深度学习 v2 PyTorch 深度学习

分类

语言

格式

动手学深度学习 v2.0

【PyTorch深度学习-龙龙老师】-测试版202112