伦理风险 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

动手学深度学习 v2.0

例，如果它们全部来自标准显微镜设备，那么“固定长度”是可取的；但是如果图像数据来自互联网，它们很难具有相同的分辨率或形状。这时，将图像裁剪成标准尺寸是一种方法，但这种办法很局限，有丢失信息的风险。此外，文本数据更不符合 “固定长度”的要求。比如，对于亚马逊等电子商务网站上的客户评论，有些文本数据很简短（比如“好极了”），有些则长篇大论。与传统机器学习方法相比，深度学习的一个主要优势是可以处理不同长度的数据。 “输入的是垃圾，输出的也是垃圾。”（“Garbage in, garbage out.”）此外，糟糕的预测性能甚至会加倍放大事态的严重性。在一些敏感应用中，如预测性监管、简历筛选和用于贷款的风险模型，我们必须特别警惕垃圾数据带来的后果。一种常见的问题来自不均衡的数据集，比如在一个有关医疗的训练数据集中，某些人群没有样本表示。想象一下，假设我们想要训练一个皮肤癌识别模型，但它（在训练设这个分类器输出图1.3.2 包含死帽蕈的概率是0.2。换句话说，分类器80%确定图中的蘑菇不是死帽蕈。尽管如此，我们也不会吃它，因为不值得冒20%的死亡风险。换句话说，不确定风险的影响远远大于收益。因此，我们需要将“预期风险” 作为损失函数，即需要将结果的概率乘以与之相关的收益（或伤害）。在这种情况下，食用蘑菇造成的损失为0.2 × ∞ + 0.8 × 0 = ∞，而丢弃蘑菇的损失为0

0 码力 | 797 页 | 29.45 MB | 1 年前
3
机器学习课程-温州大学-01机器学习-引言

将训练数据集的平均损失称为经验风险。基于经验风险最小化原则，可构建全局损失函数求解最优化问题： min ? 1 ? ෍ ?=1 ? L ??, ? ?? 机器学习的概念-损失函数 24 当样本数量足够大时，根据大数定理，经验风险会近似于模型的期望风险。此时，经验风险最小化能确保有好的学习性能。然而，当样本数量不足时，单单利用经验风险最小化可能会导致 “过拟合”的问题。化准则。具体定义是：其中，?(?)代表对模型复杂度的惩罚。模型越复杂，?(?)越大，模型越简单，?(?)就越小。?是一个正的常数，也叫正则化系数，用于平衡经验风险和模型复杂度。一般来说，结构风险小的模型需要经验风险和模型复杂度同时小，因此对训练数据和测试数据都能有较好的拟合。机器学习的概念-损失函数 min ? 1 ? ෍ ?=1 ? ? ??, ? ?? 25

0 码力 | 78 页 | 3.69 MB | 1 年前
3
机器学习课程-温州大学-07机器学习-决策树

剪枝的基本策略有“预剪枝”（prepruning）和“后剪枝”（post-pruning）通过剪枝处理去掉一些分支来降低过拟合的风险。 20 C4.5的剪枝预剪枝（prepruning）预剪枝不仅可以降低过拟合的风险而且还可以减少训练时间，但另一方面它是基于“贪心” 策略，会带来欠拟合风险。编号色泽根蒂敲声纹理脐部触感好瓜 1 青绿蜷缩浊响清晰凹陷硬滑是 2 乌黑浊响稍糊凹陷硬滑否训练集验证集在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树。后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下，后剪枝的欠拟合风险更小，泛化性能往往优于预剪枝决策树。 24 C4.5的剪枝后剪枝基于表生成未剪枝的决策树平坦纹理色泽好瓜坏瓜根蒂色泽脐部坏瓜坏瓜坏瓜坏瓜好瓜替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率。后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。 25 C4.5的剪枝后剪枝后剪枝的决策树剪枝方法在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树。 C4.5 采用的悲观剪枝方法，用递归的方式从低往上针

0 码力 | 39 页 | 1.84 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

次 4000亿QQ空间存量图片，每天空间相册新增6亿张上传图片 SACC2017 内容审核 - 痛点和诉求默默承受自建识别模型加大审核人力一旦出现严重违规平台面临停业整顿风险昂贵的专业机器、AI专家, 样本不足导致识别模型漏过模型调优难度大人力审核疲劳容易发生漏过，人力招聘、管理需要耗费不小成本识别种类完备节约成本节省审核人力减少人工漏审技术诉求：自动识别图片或视频中出现的文字、二维码、logo等内容以及违规人像、淫秽、血腥、暴力、极端主义、恐怖主义图像等，方便平台进行违规处理和风险管控。业务痛点：面对越来越爆发的安全风险，解决办法门槛高，成本高；迫切需要技术解决方案 SACC2017 图像内容审核技术 OCR技术图像分割以及超分辨率技术优图图像技术还包括：图像分类、图像增强预测： 113.4人 • 结合视频监控场景，在图像序列中，识别图像物体，识别人体，人群密度，人体属性等各种信息 • 融合图像，动作识别能力，提升审核准确率，召回率，增加更多场景风险控制 SACC2017 从图像到声音：音频识别声纹识别小语种声音分类 l 优图原音音频识别系统 QQ 音乐- 音乐检索 SACC2017 腾讯优图部分合作伙伴南宁公安福建公安

0 码力 | 32 页 | 5.17 MB | 1 年前
3
机器学习课程-温州大学-特征工程

fit_transform(iris.target.reshape((-1,1))) 12 分箱一般在建立分类模型时，需要对连续变量离散化，特征离散化后，模型会更稳定，降低了模型过拟合的风险。 2. 特征构建设成绩为：[63 64 88 71 42 60 99 70 32 88 34 69 83 52 66 92 82 58 66 41] bins=[0,59,70,80,90 者在同一个优化过程中完成的。即学习器训练过程中自动进行了特征选择。常用的方法包括： ➢利用正则化，如L1, L2 范数，主要应用于如线性回归、逻辑回归以及支持向量机(SVM)等算法；优点：降低过拟合风险；求得的 w 会有较多的分量为零，即：它更容易获得稀疏解。 ➢使用决策树思想，包括决策树、随机森林、Gradient Boosting 等。嵌入式 4. 特征选择 36 许永洪,吴林颖

0 码力 | 38 页 | 1.28 MB | 1 年前
3
机器学习课程-温州大学-05深度学习-深度学习实践

正则化(regularization)的技术，保留所有的特征，但是减少参数的大小（magnitude），它可以改善或者减少过拟合问题。 4.集成学习方法集成学习是把多个模型集成在一起，来降低单一模型的过拟合风险。 9 通过这张图可以看出，各种不同算法在输入的数据量达到一定级数后，都有相近的高准确度。于是诞生了机器学习界的名言：成功的机器学习应用不是拥有最好的算法，而是拥有最多的数据！

0 码力 | 19 页 | 1.09 MB | 1 年前
3
《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别

类型，则输出为输入窗口内四个值的平均值 Dropout 层 Dropout 是常用的一种正则化方法，Dropout层是一种正则化层。全连接层参数量非常庞大（占据了CNN模型参数量的80%～90%左右），发生过拟合问题的风险比较高，所以我们通常需要一些正则化方法训练带有全连接层的CNN模型。在每次迭代训练时，将神经元以一定的概率值暂时随机丢弃，即在当前迭代中不参与训练。 Flatten 将卷积和池化后提取的特征摊平后输入全连接网络，这里与

0 码力 | 38 页 | 1.82 MB | 1 年前
3
机器学习课程-温州大学-04机器学习-朴素贝叶斯

独立性将输入?分到后验概率最大的类?。 ? = argmax ?? ? ? = ?? ෑ ?=1 ? ? ?? = ?(?)|? = ?? 后验概率最大等价于0-1损失函数时的期望风险最小化。 14 2.朴素贝叶斯原理 ? = argmax ?? ? ? = ?? ෑ ?=1 ? ? ?? = ?(?)|? = ?? 训练数据集? = ?1, ?1 , ?2, ?2

0 码力 | 31 页 | 1.13 MB | 1 年前
3
机器学习课程-温州大学-05机器学习-机器学习实践

正则化(regularization)的技术，保留所有的特征，但是减少参数的大小（magnitude），它可以改善或者减少过拟合问题。 4.集成学习方法集成学习是把多个模型集成在一起，来降低单一模型的过拟合风险。 21 通过这张图可以看出，各种不同算法在输入的数据量达到一定级数后，都有相近的高准确度。于是诞生了机器学习界的名言：成功的机器学习应用不是拥有最好的算法，而是拥有最多的数据！

0 码力 | 33 页 | 2.14 MB | 1 年前
3
机器学习课程-温州大学-02机器学习-回归

正则化(regularization)的技术，保留所有的特征，但是减少参数的大小（magnitude），它可以改善或者减少过拟合问题。 4.集成学习方法集成学习是把多个模型集成在一起，来降低单一模型的过拟合风险。 25 通过这张图可以看出，各种不同算法在输入的数据量达到一定级数后，都有相近的高准确度。于是诞生了机器学习界的名言：成功的机器学习应用不是拥有最好的算法，而是拥有最多的数据！

0 码力 | 33 页 | 1.50 MB | 1 年前
3

共 11 条前往

页

分类

语言

格式

动手学深度学习 v2.0

机器学习课程-温州大学-01机器学习-引言

机器学习课程-温州大学-07机器学习-决策树

谭国富：深度学习在图像审核的应用

机器学习课程-温州大学-特征工程

机器学习课程-温州大学-05深度学习-深度学习实践

《TensorFlow 快速入门与实战》5-实战TensorFlow手写体数字识别

机器学习课程-温州大学-04机器学习-朴素贝叶斯

机器学习课程-温州大学-05机器学习-机器学习实践

机器学习课程-温州大学-02机器学习-回归