机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob
2.6 一些常见的随机变量 3. 两个随机变量 3.1 联合分布和边缘分布 3.2 联合概率和边缘概率质量函数 3.3 联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 3.7 期望和协方差 4. 多个随机变量 4.1 基本性质 4.2 随机向量 4.3 多元高斯分布 5. 其他资源 概率论复习和参考 概率论是对不确定性的研究 假设我们有两个随机变量,一个方法是分别考虑它们。如果我们这样做,我们只需要 和 。 但是如果我们想知道在随机实验的结果中, 和 同时假设的值,我们需要一个更复杂的结构,称为 和 的联合累积分布函数,定义如下: 可以证明,通过了解联合累积分布函数,可以计算出任何涉及到 和 的事件的概率。 联合CDF: 和每个变量的联合分布函数 和 分别由下式关联: 这里我们称 和 为 的边缘累积概率分布函数。 性质: 3 在连续的情况下,在技术上要复杂一点,因为连续随机变量的概率等于零。忽略这一技术点,我们通过 类比离散情况,简单地定义给定 的条件概率密度为: 假设分母不等于0。 3.5 贝叶斯定理 当试图推导一个变量给定另一个变量的条件概率表达式时,经常出现的一个有用公式是贝叶斯定理。 对于离散随机变量 和 : 对于连续随机变量 和 : 3.6 独立性 如果对于 和 的所有值, ,则两个随机变量 和 是独立的。等价地,0 码力 | 12 页 | 1.17 MB | 1 年前3动手学深度学习 v2.0
器学习科学家提供起步;(3)包括可运行的代码,向读者展示如何解决实践中的问题;(4)允许我们和社区 的快速更新;(5)由一个论坛2作为补充,用于技术细节的互动讨论和回答问题。 这些目标经常是相互冲突的。公式、定理和引用最好用LaTeX来管理和布局。代码最好用Python描述。网页 原生是HTML和JavaScript的。此外,我们希望内容既可以作为可执行代码访问、作为纸质书访问,作为可下 载的PDF访问 写数字的数据集被认为是巨大的。考虑到数据和计算的稀缺性,核方法 (kernel method)、决策树(decision tree)和图模型(graph models)等强大的统计工具(在经验上)证明 是更为优越的。与神经网络不同的是,这些算法不需要数周的训练,而且有很强的理论依据,可以提供可预 测的结果。 1.5 深度学习的发展 大约2010年开始,那些在计算上看起来不可行的神经网络算 和真实数 据。通过使用任意算法生成数据的能力,它为各种技术打开了密度估计的大门。驰骋的斑马 (Zhu et al., 2017) 和假名人脸 (Karras et al., 2017) 的例子都证明了这一进展。即使是业余的涂鸦者也可以根据描述 场景布局的草图生成照片级真实图像((Park et al., 2019) )。 • 在许多情况下,单个GPU不足以处理可用于训练的大量数据。在过去的十年中,构建并行和分布式训练0 码力 | 797 页 | 29.45 MB | 1 年前3机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)
= ? 机器学习的数学基础 4 9.微分中值定理,泰勒公式 Th1:(费马定理) 若函数?(?)满足条件: (1)函数?(?)在?0的某邻域内有定义,并且在此邻域内恒有 ?(?) ≤ ?(?0)或?(?) ≥ ?(?0), (2) ?(?)在?0处可导,则有 ?′(?0) = 0 Th2:(罗尔定理) 设函数?(?)满足条件: (1)在闭区间[? ) 则在(?, ?)内∃一个?,使 ?′(?) = 0 Th3: (拉格朗日中值定理) 设函数?(?)满足条件: (1)在[?, ?]上连续;(2)在(?, ?)内可导; 则在(?, ?)内存在一个?,使 ?(?)−?(?) ?−? = ?′(?) Th4: (柯西中值定理) 设函数?(?),?(?)满足条件: (1) 在[?, ?]上连续;(2) 在( 函数凹凸性的判断 Th1: (凹凸性的判别定理)若在 I 上?″(?) < 0(或?″(?) > 0), 则?(?)在 I 上是凸的 (或凹的)。 Th2: (拐点的判别定理 1)若在?0处?″(?) = 0,(或?″(?)不存在),当?变动经过?0时, ?″(?)变号,则(?0, ?(?0))为拐点。 Th3: (拐点的判别定理 2)设?(?)在?0点的某邻域内有三阶导数,且0 码力 | 31 页 | 1.18 MB | 1 年前3机器学习课程-温州大学-高等数学回顾
(0) = ? 13 高等数学 9.微分中值定理,泰勒公式 Th1:(费马定理) 若函数?(?)满足条件: (1)函数?(?)在?0的某邻域内有定义,并且在此邻域内恒有 ?(?) ≤ ?(?0)或?(?) ≥ ?(?0), (2) ?(?)在?0处可导,则有 ?′(?0) = 0 14 高等数学 Th3: (拉格朗日中值定理) 设函数?(?)满足条件: (1)在[?, ?]上连续;(2)在(?, ?)内可导; 则在(?, ?)内存在一个?,使 ?(?)−?(?) ?−? = ?′(?) 15 高等数学 Th4: (柯西中值定理) 设函数?(?),?(?)满足条件: (1) 在[?, ?]上连续;(2) 在(?, ?)内可导且?′(?),?′(?)均存在,且?′(?) ≠ 0 则在(?, ?)内存在一个?,使 ?(?)−?(?) ?(?)−?( 25 14.函数凹凸性的判断 Th1: (凹凸性的判别定理)若在I上?″(?) < 0(或?″(?) > 0), 则?(?)在I上是凸的(或凹的) 。 Th2: (拐点的判别定理1)若在?0处?″(?) = 0,(或?″(?)不存在),当?变动经过?0时,?″(?)变 号,则(?0, ?(?0))为拐点。 Th3: (拐点的判别定理2)设?(?)在?0点的某邻域内有三阶导数,且?″(?)0 码力 | 28 页 | 787.86 KB | 1 年前3机器学习课程-温州大学-04机器学习-朴素贝叶斯
朴素贝叶斯原理 03 朴素贝叶斯案例 04 朴素贝叶斯代码实现 4 1.贝叶斯方法-背景知识 先验概率: 后验概率: 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为 基础,故统称为贝叶斯分类。 根据以往经验和分析得到的概率。我们用?(?)来代表在没有训练 数据前假设?拥有的初始概率。 根据已经发生的事件来分析得到的概率。以?(?|?)代表假设? 成 这是一个较强的假设。由于这一假设,模型包含的条件概率的数量大为减 少,朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效,且易 于实现。其缺点是分类的性能不一定很高。 11 2.朴素贝叶斯原理 3.朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测 我们要求的是?(?|?),根据生成模型定义我们可以求?(?, ?)和?(?)假设中的 特征是条件独立的。这个称作朴素贝叶斯假设。 形式化表示为,(如果给定 ?的情况下, = ?? 1 16 2.朴素贝叶斯原理 朴素贝叶斯法分类时,对给定的输入?,通过学习到的模型计算 后验概率分布? ? = ?? ? = ? ,将后验概率最大的类作为?的类输 出。根据贝叶斯定理: ? ? ? = ? ? ? ? ? ? ? 可以计算后验概率 ? ? = ?? ? = ? = ? ? = ? ? = ?? ? ? = ?? σ?=1 ? ? ? = ? ? =0 码力 | 31 页 | 1.13 MB | 1 年前3机器学习课程-温州大学-线性代数回顾
04 线性方程组 4 (1) 设? = ??? ?×?,则:??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 1.行列式按行(列)展开定理 或?1??1? + ?2??2? + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 即 ??∗ = ?∗? = ? ?,其中:?∗ = ?11 ?12 … ?1? ?21 ),所以二次型矩阵均为对称矩阵,且二次型与对称矩 阵一一对应,并把矩阵?的秩称为二次型的秩。 6.二次型 35 2.惯性定理,二次型的标准形和规范形 (1) 惯性定理 对于任一二次型,不论选取怎样的合同变换使它化为仅含平方项的标准型,其正负 惯性指数与所选变换无关,这就是所谓的惯性定理。 (2) 标准形 二次型? = ?1, ?2, ⋯ , ?? = ????经过合同变换? = ??化为? =0 码力 | 39 页 | 856.89 KB | 1 年前3机器学习课程-温州大学-01机器学习-引言
训练数据集的平均损失称为经验风险。基于经验风险最小化原则,可构建全局损失函数求解最优 化问题: min ? 1 ? ?=1 ? L ??, ? ?? 机器学习的概念-损失函数 24 当样本数量足够大时,根据大数定理,经验风险会近似于模型的期望风险。此时,经验风险最 小化能确保有好的学习性能。然而,当样本数量不足时,单单利用经验风险最小化可能会导致 “过拟合”的问题。 为此,我们再原有基础上加上用于控制模 ? = ??T。 正定性 对于 ? ∈ ℝ?×?, ∀? ∈ ℝ?×1,满足 ?T?? > 0, A为正定矩阵; ?T?? ≥ 0,?为半正定矩阵。 42 线性代数 行列式按行(列)展开定理 (1) 设? = ??? ?×?,则:??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 或?1??1? + ?2??2? + ⋯ + ??0 码力 | 78 页 | 3.69 MB | 1 年前3深度学习与PyTorch入门实战 - 35. Early-stopping-Dropout
??? Stochastic Gradient Descent ▪ Not single usually ▪ batch = 16, 32, 64, 128… Why 下一课时 贝叶斯定理 Thank You.0 码力 | 16 页 | 1.15 MB | 1 年前3机器学习课程-温州大学-01深度学习-引言
? = ??T。 正定性 对于 ? ∈ ℝ?×?, ∀? ∈ ℝ?×1,满足 ?T?? > 0, A为正定矩阵; ?T?? ≥ 0,?为半正定矩阵。 43 线性代数 行列式按行(列)展开定理 (1) 设? = ??? ?×?,则:??1??1 + ??2??2 + ⋯ + ?????? = ቊ ? , ? = ? 0, ? ≠ ? 或?1??1? + ?2??2? + ⋯ + ??0 码力 | 80 页 | 5.38 MB | 1 年前3机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra
转置的以下属性很容易验证: 3.3 对称矩阵 如果 ,则矩阵 是对称矩阵。 如果 ,它是反对称的。 很容易证明,对于任 何矩阵 ,矩阵 是对称的,矩阵 是反对称的。 由此得出,任何方矩阵 可以表示为对称矩阵和反对称矩阵的和,所以: 上面公式的右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。 事实证明,对称矩阵在实践中 用到很多,它们有很多很好的属性,我们很快就会看到它们。 通常将大小为 的所有对称矩阵的集合表 , 为方阵, 则: 对于矩阵 , , , 为方阵, 则: , 同理,更多矩阵的积也是有 这个性质。 作为如何证明这些属性的示例,我们将考虑上面给出的第四个属性。 假设 和 (因 此 是方阵)。 观察到 也是一个方阵,因此对它们进行迹的运算是有意义的。 要证明 ,请注意: 这里,第一个和最后两个等式使用迹运算符和矩阵乘法的定义,重点在第四个等式,使用标量乘法的可 交换性来反转每 矩阵 的列秩是构成线性无关集合的 的最大列子集的大小。 由于术语的多样性,这通常简称 为 的线性无关列的数量。同样,行秩是构成线性无关集合的 的最大行数。 对于任何矩阵 ,事实证明 的列秩等于 的行秩(尽管我们不会证明这一点),因此两个量统称为 的秩,用 表示。 以下是秩的一些基本属性: 对于 , ,如果 ,则: 被称作满秩。 对于 , 对于 , , 对于 , 3.70 码力 | 19 页 | 1.66 MB | 1 年前3
共 17 条
- 1
- 2