Lecture 5: Gaussian Discriminant Analysis, Naive Bayes
1.35 MB
122 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
第五讲介绍了高斯判别分析(GDA)、朴素贝叶斯(Naive Bayes)和期望最大化算法(EM Algorithm)。GDA部分详细推导了条件概率密度函数,假设各类条件分布为高斯分布,并导出了最终线性判别边界。Naive Bayes则基于特征独立假设,通过因子分解联合概率密度函数来进行分类。EP算法用于处理不完全数据,通过迭代估计参数并最大化对数似然函数。 | ||
AI总结 | ||
**《Lecture 5: Gaussian Discriminant Analysis, Naive Bayes and EM Algorithm》总结**
本讲座由山东大学的李峰教授主讲,内容涵盖高斯判别分析(Gaussian Discriminant Analysis,GDA)、朴素贝叶斯(Naive Bayes,NB)和期望最大化算法(Expectation-Maximization Algorithm,EM),共计122页。以下是核心内容的总结:
---
### **概率论回顾**
-ISODE 数据集的概率模型为高斯分布(Normal distribution),条件概率密度函数用于描述类内数据分布。
- PROVIDED 数据集的概率模型为伯努利分布(Bernoulli distribution)。
---
### **热身案例**
-讲解了分类问题的基本思路,包括如何通过概率密度函数和条件概率构建判别函数。
-引出了高斯判别分析的核心思想。
---
### **高斯判别分析(GDA)** [1]
1. **条件概率密度函数**:
- X|Y=0 ~ Normal(µ₀, Σ)
- X|Y=1 ~ Normal(µ₁, Σ)
- 对于给定类别 Y,观测变量 X 的条件概率密度函数为:
\[
p_{X|Y}(x|y) = \frac{1}{(2\pi)^{n/2}|\Sigma|^{1/2}} \exp\left(-\frac{1}{2}(x-\mu_y)^T\Sigma^{-1}(x-\mu_y)\right)
\]
2. **判别函数**:
- 对数验算后,得判别函数:
\[
\delta(x) = (\mu_0 - \mu_1)^T\Sigma^{-1}x + \frac{1}{2}\mu_1^T\Sigma^{-1}\mu_1 - \frac{1}{2}\mu_0^T\Sigma^{-1}\mu_0
\]
- 判别式为:
\[
p(Y=1|X=x) = \frac{1}{1+\exp(-\theta x)}
\]
3. **参数估计**:
- 通过极大似然估计(MLE)计算均值($\mu_0, \mu_1$)、协方差矩阵($\Sigma$)和类别先验概率($\psi$)。
- 对数似然函数:
\[
\ell(\psi, \mu_0, \mu_1, \Sigma) = \sum_{i=1}^m \log p_{X|Y}(x^{(i)}|y^{(i)}; \mu_0, \mu_1, \Sigma) + \sum_{i=1}^m \log p_Y(y^{(i)}; \psi)
\]
- 通过对参数求导并令导数为零,得到参数的最大似然估计值。
4. **分类过程**:
- 计算后验概率 $p(Y=1|X=x)$,若概率大于阈值,则归类为1,否则归类为0。
---
### **朴素贝叶斯(Naive Bayes)** [2]
1. **基本假设**:
- 假设特征之间在类别 Y 下条件独立,即:
\[
p(X_1=x_1, X_2=x_2, \dots, X_n=x_n|Y=y) = \prod_{j=1}^n p(X_j=x_j|Y=y)
\]
2. **联合概率分布**:
- 数据分布为:
\[
p(X, Y) = p(Y) \prod_{j=1}^n p(X_j|Y)
\]
3. **后验概率**:
- 通过贝叶斯定理计算后验概率:
\[
p(Y|X) \propto p(Y) \prod_{j=1}^n p(X_j|Y)
\]
4. **参数估计**:
- 使用贝叶斯估计(Bayesian Estimation)计算参数。
- 优点:模型简单,训练效率高,适合高维数据。
---
### **期望最大化算法(EM Algorithm)** [3]
1. **问题描述**:
- 用于极大似然估计的迭代优化算法,适用于存在隐变量或缺失数据的场景。
- 目标:最大化观测数据的对数似然函数。
2. **步骤**:
- **E步**(Expectation):基于当前参数估计值,计算隐变量的条件期望。
- **M步**(Maximization):基于E步的结果,更新参数以使对数似然函数增大。
- 迭代直至收敛。
3. **数学推导**:
- 对数似然函数的下界(Jensen不等式):
\[
Q(\theta|\theta^{(t)}) = E_{Z|X,\theta^{(t)}}[\log p(X,Z;\theta)]
\]
- M步中,通过最大化 Q 函数更新参数。
4. **收敛性与应用**:
- 算法保证收敛到极大似然估计的局部最大值。
- 广泛应用于高斯混合模型、K-均值聚类等场景。
---
### **总结**
- **高斯判别分析**:基于高斯分布的判别方法,适用于类间协方差矩阵相同的情况。
- **朴素贝叶斯**:基于特征独立假设的贝叶斯分类器,适合高维数据和文本分类。
- **EM算法**:用于处理隐变量或缺失数据的迭代优化算法,广泛应用于机器学习和统计推断。
这三种方法在模式识别、分类和参数估计中具有重要作用,各有优缺点,适用于不同场景。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
115 页请下载阅读 -
文档评分