机器学习课程-温州大学-特征工程
1.28 MB
38 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
中文(简体) | .pdf | 3 |
摘要 | ||
本文档阐述了特征工程的定义、目的及作用,指出其核心目标是将原始数据转换为适合模型训练的数据特征,从而提升模型性能。文档详细介绍了特征工程的三大构成部分:特征构建、特征提取和特征选择,并重点讨论了特征选择的方法,包括过滤式和包裹式,以及具体的Relief方法。文中还提到,特征选择旨在解决维数灾难问题,去除无关特征以简化模型并降低计算复杂度。 | ||
AI总结 | ||
以下是对文档内容的中文总结:
---
### 特征工程
#### 定义与作用
特征工程是将原始数据转化为模型训练数据的过程,其目的是获取更优质的训练数据特征,使机器学习模型性能更接近上限。它在机器学习中占据重要地位,是提升模型性能的关键步骤。
#### 构成
特征工程主要包括以下三个部分:
1. **特征构建**:
2. **特征提取**:
3. **特征选择**:
#### 特征选择
特征选择是从特征集合中选出对当前学习任务最相关的特征子集的过程。
- **相关特征**:对当前学习任务有用的特征。
- **无关特征**:对当前学习任务没有用的特征。
**目的**:
1. 解决维数灾难问题。
2. 降低学习任务难度,简化模型,减少计算复杂度。
3. 确保不丢失重要特征。
**特征选择方法**:
1. **过滤式特征选择**:
- 优点:计算高效,鲁棒性强(抗过拟合)。
- 缺点:可能选择冗余特征,忽略特征之间的相关性。
2. **包裹式特征选择**:
- 通过递归特征消除法(RFE)等方法,逐步减少特征数量,选择最佳子集。
**具体算法**:
- **Relief 方法**:
- 设计相关统计量度量特征重要性。
- 选择相关统计量分量大于阈值 k 或前 m 个特征。
- Relief 适用于二分类,Relief-F 扩展用于多分类。
#### 模型性能与计算复杂度的权衡
- **模型性能**:保留更多特征可能提升性能,但模型复杂度增加。
- **计算复杂度**:剔除无关特征可降低复杂度,但可能导致性能下降。
#### 相关概念
- **数据决定一切**:机器学习成功的关键在于数据量,而非算法。
- **算法性能**:当数据量达到一定规模后,各算法的准确率趋近。
---
以上是文档的核心内容总结,涵盖特征工程的定义、作用、构成,以及特征选择的方法和相关概念。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
31 页请下载阅读 -
文档评分