机器学习课程-温州大学-10机器学习-聚类
聚类的评价指标 4 1.无监督学习方法概述 监督学习 在一个典型的监督学习中,训练集有标签? ,我们的目标是找到能够 区分正样本和负样本的决策边界,需要据此拟合一个假设函数。 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签?,无 监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类(Clustering) 什么商品呢? 主要的无监督学习方法 6 1.无监督学习方法概述 主要算法 K-means、密度聚类、层次聚类 聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词 典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产 集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预 测…… 7 1.无监督学习方法概述 聚类案例 1.医疗 以使用聚类算法来识别甲状腺疾病数据集。 8 1.无监督学习方法概述 聚类案例 2.市场细分 为了吸引更多的客户,每家公司都在开发易 于使用的功能和技术。为了了解客户,公司 可以使用聚类。聚类将帮助公司了解用户群 ,然后对每个客户进行归类。这样,公司就 可以了解客户,发现客户之间的相似之处, 并对他们进行分组。 9 1.无监督学习方法概述 聚类案例 3.金融业 银行可以观察到可能的金融欺诈行为,就此0 码力 | 48 页 | 2.59 MB | 1 年前3机器学习课程-温州大学-08机器学习-集成学习
1 2022年12月 机器学习-集成学习 黄海广 副教授 2 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 3 1.集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 4 Bagging 小,而且方差的减小补偿了偏差的增大,因 此总体而言是更好的模型。 随机森林 数据集 自助采样 自助采样 自助采样 Bootstraping 10 2.AdaBoost和GBDT算法 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 11 AdaBoost算法 AdaBoost(Adaptive Boosting,自适应增强),其自适应在于:前 = ??−1 ? + ??? ?: ?? ? 计算步长, ?? = ??? min ? ?=1 L(??, ??−1 ?? + ?? ?: ?? ) GBDT算法 26 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM 3.XGBoost 27 3.XGBoost XGBoost 是大规模并行0 码力 | 50 页 | 2.03 MB | 1 年前3机器学习课程-温州大学-04机器学习-朴素贝叶斯
6 1. 贝叶斯方法 贝叶斯公式 后验概率 似然度 先验概率 边际似然度 ?(?|?) = ?(?, ?) ?(?) = ?(?|?)?(?) ?(?) 朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率 分布 ?(?, ?),然后求得后验概率分布?(?|?)。 具体来说,利用训练数据学习?(?|?)和?(?)的估计,得到联合概率分布: ?(?, ?)=?(?| 朴素贝叶斯、HMM、深度信念网络(DBN)…… 监督学习方法又分 生成方法(Generative approach)和判别方法(Discriminative approach) 所学到的模型分别称为 生成模型(Generative Model)和判别模型(Discriminative Model)。 2.朴素贝叶斯原理 9 2.朴素贝叶斯原理 1.朴素贝叶斯法是典型的生成学习方法。 生成方法由训练数据学习联合概率分布 Conference on Knowledge Discovery and Data Mining (KDD), Portland, OR, 202-207, 1996. [7] 李航. 统计学习方法[M]. 北京: 清华大学出版社,2019. 31 谢 谢!0 码力 | 31 页 | 1.13 MB | 1 年前3机器学习课程-温州大学-15深度学习-GAN
(二)生成式模型的积累 (三)神经网络的深化 (四)对抗思想的成功 GAN的概念简介及提出背景 2. GAN的理论与实现模型 12 GAN的理论与实现模型 GAN的基本原理 GAN的学习方法 GAN的衍生模型 2. GAN的理论与实现模型 13 GAN 的核心思想来源于博弈论的纳什均衡。 它设定参与游戏双方分别为一个生成器 (Generator) 和一个判别器(Discriminator),生成器的目的是尽 GAN的理论与实现模型 14 生成式对抗网络(GAN)结构图 2. GAN的理论与实现模型 15 GAN的学习方法 GAN的理论与实现模型 首先, 在给定生成器 G 的情况下, 我们考虑最优化判别器 D. 2. GAN的理论与实现模型 16 GAN的学习方法 总之, 对于 GAN 的学习过程, 我们需要训练模型 D 来最大化判别数据 来源于真实数据或者伪数据分布 G(z)0 码力 | 35 页 | 1.55 MB | 1 年前3机器学习课程-温州大学-01机器学习-引言
授,前“百度大脑”的负责人与百 度首席科学家。 6 李航, 现任字节跳动科技有限公司人 工智能实验室总监,北京大学、南京 大学客座教授,IEEE 会士,ACM 杰 出科学家,CCF 高级会员。 代表作:《统计学习方法》 机器学习界的国内泰斗 周志华,南京大学计算机科学与技 术系主任 、人工智能学院院长。 代表作:《机器学习》(西瓜书) 7 陈天奇,陈天奇是机器学习领域著名的青 年华人学者之一,本科毕业于上海交通 强化学习(Reinforcement Learning) ✓ 用于描述和解决智能体(agent)在与环境的交 互过程中通过学习策略以达成回报最大化或实现 特定目标的问题 。 2. 机器学习的类型-强化学习 19 ✓ 机器学习方法 ✓ 模型 ✓ 损失函数 ✓ 优化算法 ✓ 模型评估指标 机器学习的概念 20 机器学习的概念-模型 机器学习首先要考虑使用什么样的模型。 模型的类别,大致有两种:一是概率模型(Probabilistic Machine Learning[EB/OL]. StanfordUniversity,2014.https://www.coursera.org/course/ml [2] 李航. 统计学习方法[M]. 北京: 清华大学出版社,2019. [3] 周志华. 机器学习[M]. 北京: 清华大学出版社,2016. [4] Hastie T., Tibshirani R., Friedman0 码力 | 78 页 | 3.69 MB | 1 年前3Android概述与学习指南
学习目的决定学习方法 只学实际开发中要用到 的技术与知识。 重点关注业界在这块的人 才需求,为面试预作准备。 重点关注技术背后所关联 的计算机科学与技术理论。 了解Android这一技术领域,为进一步系 统学习其他计算机科学技术打好基础 找到一份Android实习或工作机会 出于某种特定的目的,满足某些特定的 需求,需要开发特定的Android应用 学习目的 学习方法 1 20 码力 | 33 页 | 3.38 MB | 1 年前3机器学习课程-温州大学-05机器学习-机器学习实践
些模型选择的算法来帮忙(例如PCA)。 3.正则化 正则化(regularization)的技术,保留所有的特征,但是减少参数的大小(magnitude) ,它可以改善或者减少过拟合问题。 4.集成学习方法 集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险。 21 通过这张图可以看出, 各种不同算法在输入的 数据量达到一定级数后 ,都有相近的高准确度 。于是诞生了机器学习 界的名言: Conference on Knowledge Discovery and Data Mining (KDD), Portland, OR, 202-207, 1996. [7] 李航. 统计学习方法[M]. 北京: 清华大学出版社,2019. [8] CHAWLA N V, BOWYER K W, HALL L O, et al. SMOTE: Synthetic Minority Over-sampling0 码力 | 33 页 | 2.14 MB | 1 年前3机器学习课程-温州大学-02机器学习-回归
些模型选择的算法来帮忙(例如PCA)。 3.正则化 正则化(regularization)的技术,保留所有的特征,但是减少参数的大小(magnitude) ,它可以改善或者减少过拟合问题。 4.集成学习方法 集成学习是把多个模型集成在一起,来降低单一模型的过拟合风险。 25 通过这张图可以看出, 各种不同算法在输入的 数据量达到一定级数后 ,都有相近的高准确度 。于是诞生了机器学习 界的名言: Machine Learning[EB/OL]. StanfordUniversity,2014.https://www.coursera.org/course/ml [2] 李航. 统计学习方法[M]. 北京: 清华大学出版社,2019. [3] 周志华. 机器学习[M]. 北京: 清华大学出版社,2016. [4] WEINBERGER K. Distance metric learning0 码力 | 33 页 | 1.50 MB | 1 年前3机器学习课程-温州大学-07机器学习-决策树
叶节点 (leaf node) (代表分类后所获得的分类标记) ⚫ 决策树算法是一种归纳分类算法 ,它通过对训练集的学习,挖掘 出有用的规则,用于对新数据进 行预测。 ⚫ 决策树算法属于监督学习方法。 ⚫ 决策树归纳的基本算法是贪心算法 ,自顶向下来构建决策树。 ⚫ 贪心算法:在每一步选择中都采取 在当前状态下最好/优的选择。 ⚫ 在决策树的生成过程中,分割方法 即属性选择的度量是关键。 A, et al. Classification and regression trees[M]. New York: Chapman and Hall/CRC,1984 [4] 李航. 统计学习方法[M]. 北京: 清华大学出版社,2019. [5] 周志华. 机器学习[M]. 北京: 清华大学出版社,2016. [6] Hastie T., Tibshirani R., Friedman0 码力 | 39 页 | 1.84 MB | 1 年前3动手学深度学习 v2.0
时,将图像裁剪成标准尺寸是一种方法,但这种办法很局限,有丢失信息的风险。此外,文本数据更不符合 “固定长度”的要求。比如,对于亚马逊等电子商务网站上的客户评论,有些文本数据很简短(比如“好极 了”),有些则长篇大论。与传统机器学习方法相比,深度学习的一个主要优势是可以处理不同长度的数据。 一般来说,拥有越多数据的时候,工作就越容易。更多的数据可以被用来训练出更强大的模型,从而减少对 预先设想假设的依赖。数据集的由小变大为现 的多臂赌博机(multi‐armed bandit problem)。 1.3. 各种机器学习问题 31 1.4 起源 为了解决各种各样的机器学习问题,深度学习提供了强大的工具。虽然许多深度学习方法都是最近才有重大 突破,但使用数据和神经网络编程的核心思想已经研究了几个世纪。事实上,人类长期以来就有分析数据和 预测未来结果的愿望,而自然科学大部分都植根于此。例如,伯努利分布是以雅各布•伯努利(1654‐1705)16命 本节到目前为止讨论的问题,例如从原始音频信号中学习,图像的原始像素值,或者任意长度的句子与外语 中的对应句子之间的映射,都是深度学习优于传统机器学习方法的问题。事实证明,这些多层模型能够以以 前的工具所不能的方式处理低级的感知数据。毋庸置疑,深度学习方法中最显著的共同点是使用端到端训练。 也就是说,与其基于单独调整的组件组装系统,不如构建系统,然后联合调整它们的性能。例如,在计算机视 觉中,0 码力 | 797 页 | 29.45 MB | 1 年前3
共 56 条
- 1
- 2
- 3
- 4
- 5
- 6