动手学深度学习 v2.0
在每次迭代中,我们首先随机抽样一个小批量B,它是由固定数量的训练样本组成的。然后,我们计算小批 量的平均损失关于模型参数的导数(也可以称为梯度)。最后,我们将梯度乘以一个预先确定的正数η,并从 当前参数的值中减掉。 我们用下面的数学公式来表示这一更新过程(∂表示偏导数): (w, b) ← (w, b) − η |B| � i∈B ∂(w,b)l(i)(w, b). (3.1.9) 总结一下,算法的步骤如下:(1)初始 来很困难, 但是我们可以在不改变目标的前提下,通过最大化似然对数来简化。由于历史原因,优化通常是说最小化而 不是最大化。我们可以改为最小化负对数似然− log P(y | X)。由此可以得到的数学公式是: − log P(y | X) = n � i=1 1 2 log(2πσ2) + 1 2σ2 � y(i) − w⊤x(i) − b �2 . (3.1.15) 现在我们只需要0 码力 | 797 页 | 29.45 MB | 1 年前3【PyTorch深度学习-龙龙老师】-测试版202112
太空入侵者等游戏上取得类人水 平的 DQN 算法、制胜 Dota2 的主要功臣 PPO 算法等。 14.1 先睹为快 强化学习算法的设计与传统的有监督学习不太一样,包含了大量的新的数学公式推 导。在进入强化学习算法的学习过程之前,我们先通过一个简单的例子来感受强化学习算 法的魅力。 此节不需掌握每个细节,以直观感受为主,获得第一印象即可。 14.1.1 平衡杆游戏 平0 码力 | 439 页 | 29.91 MB | 1 年前3
共 2 条
- 1