Lecture 5: Gaussian Discriminant Analysis, Naive Bayes

语言	格式	评分
英语	.pdf	3
摘要
第五讲介绍了高斯判别分析（GDA）、朴素贝叶斯（Naive Bayes）和期望最大化算法（EM Algorithm）。GDA部分详细推导了条件概率密度函数，假设各类条件分布为高斯分布，并导出了最终线性判别边界。Naive Bayes则基于特征独立假设，通过因子分解联合概率密度函数来进行分类。EP算法用于处理不完全数据，通过迭代估计参数并最大化对数似然函数。
AI总结
《Lecture 5: Gaussian Discriminant Analysis, Naive Bayes and EM Algorithm》总结本讲座由山东大学的李峰教授主讲，内容涵盖高斯判别分析（Gaussian Discriminant Analysis，GDA）、朴素贝叶斯（Naive Bayes，NB）和期望最大化算法（Expectation-Maximization Algorithm，EM），共计122页。以下是核心内容的总结： --- ### 概率论回顾 -ISODE 数据集的概率模型为高斯分布（Normal distribution），条件概率密度函数用于描述类内数据分布。 - PROVIDED 数据集的概率模型为伯努利分布（Bernoulli distribution）。 --- ### 热身案例 -讲解了分类问题的基本思路，包括如何通过概率密度函数和条件概率构建判别函数。 -引出了高斯判别分析的核心思想。 --- ### 高斯判别分析（GDA） [1] 1. 条件概率密度函数： - X\|Y=0 ~ Normal(µ₀, Σ) - X\|Y=1 ~ Normal(µ₁, Σ) - 对于给定类别 Y，观测变量 X 的条件概率密度函数为： \[ p_{X\|Y}(x\|y) = \frac{1}{(2\pi)^{n/2}\|\Sigma\|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu_y)^T\Sigma^{-1}(x-\mu_y)\right) \] 2. 判别函数： - 对数验算后，得判别函数： \[ \delta(x) = (\mu_0 - \mu_1)^T\Sigma^{-1}x + \frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1 - \frac{1}{2}\mu_0^T\Sigma^{-1}\mu_0 \] - 判别式为： \[ p(Y=1\|X=x) = \frac{1}{1+\exp(-\theta x)} \] 3. 参数估计： - 通过极大似然估计（MLE）计算均值（$\mu_0, \mu_1$）、协方差矩阵（$\Sigma$）和类别先验概率（$\psi$）。 - 对数似然函数： \[ \ell(\psi, \mu_0, \mu_1, \Sigma) = \sum_{i=1}^m \log p_{X\|Y}(x^{(i)}\|y^{(i)}; \mu_0, \mu_1, \Sigma) + \sum_{i=1}^m \log p_Y(y^{(i)}; \psi) \] - 通过对参数求导并令导数为零，得到参数的最大似然估计值。 4. 分类过程： - 计算后验概率 $p(Y=1\|X=x)$，若概率大于阈值，则归类为1，否则归类为0。 --- ### 朴素贝叶斯（Naive Bayes） [2] 1. 基本假设： - 假设特征之间在类别 Y 下条件独立，即： \[ p(X_1=x_1, X_2=x_2, \dots, X_n=x_n\|Y=y) = \prod_{j=1}^n p(X_j=x_j\|Y=y) \] 2. 联合概率分布： - 数据分布为： \[ p(X, Y) = p(Y) \prod_{j=1}^n p(X_j\|Y) \] 3. 后验概率： - 通过贝叶斯定理计算后验概率： \[ p(Y\|X) \propto p(Y) \prod_{j=1}^n p(X_j\|Y) \] 4. 参数估计： - 使用贝叶斯估计（Bayesian Estimation）计算参数。 - 优点：模型简单，训练效率高，适合高维数据。 --- ### 期望最大化算法（EM Algorithm） [3] 1. 问题描述： - 用于极大似然估计的迭代优化算法，适用于存在隐变量或缺失数据的场景。 - 目标：最大化观测数据的对数似然函数。 2. 步骤： - E步（Expectation）：基于当前参数估计值，计算隐变量的条件期望。 - M步（Maximization）：基于E步的结果，更新参数以使对数似然函数增大。 - 迭代直至收敛。 3. 数学推导： - 对数似然函数的下界（Jensen不等式）： \[ Q(\theta\|\theta^{(t)}) = E_{Z\|X,\theta^{(t)}}[\log p(X,Z;\theta)] \] - M步中，通过最大化 Q 函数更新参数。 4. 收敛性与应用： - 算法保证收敛到极大似然估计的局部最大值。 - 广泛应用于高斯混合模型、K-均值聚类等场景。 --- ### 总结 - 高斯判别分析：基于高斯分布的判别方法，适用于类间协方差矩阵相同的情况。 - 朴素贝叶斯：基于特征独立假设的贝叶斯分类器，适合高维数据和文本分类。 - EM算法：用于处理隐变量或缺失数据的迭代优化算法，广泛应用于机器学习和统计推断。这三种方法在模式识别、分类和参数估计中具有重要作用，各有优缺点，适用于不同场景。