谭国富:深度学习在图像审核的应用
深度学习在图像审核的应用 腾讯优图实验室 谭国富 http://open.youtu.qq.com SACC2017 优图团队立足于社交网络大平台,借助社交业务积累 的海量人脸、图片、音乐等数据,专注在人脸、图像、 音乐、语音、机器学习等领域开展技术研究,并积极 推动研究成果在业务中落地产生价值。 关于优图实验室 人脸识别 图像识别 音频识别 SACC2017 目录 01 腾讯优图内容审核能力介绍 腾讯优图内容审核能力介绍 02 深度学习技术介绍 03 内容审核的扩展和延伸 00 图像审核的行业背景 SACC2017 内容审核 - 行业现状 不良信息泛滥,监管猝不及防 Ø 随着互联网的飞速发展和信息量的猛增, 大量的色情图片、暴力等不良信息夹杂其 中,严重影响着互联网的健康发展。 Ø 直播行业的快速兴起,使得视频中不良信 息含量更加迅猛增长,色情暴力等不雅视 频频繁流出,导致各网络直播平台面临危 秽、血腥、暴力、极端主义、恐怖主义图像 等,方便平台进行违规处理和风险管控。 业务痛点:面对越来越爆发的安全风险,解决办法门 槛高, 成本高;迫切需要技术解决方案 SACC2017 图像内容审核技术 OCR技术 图像分割以及超分辨率技术 优图图像技术还包括:图像分类、图像增强、艺术滤镜、图片去水印、图像融合、图像修补等。 图像识别技术 01 腾讯优图图像技术能力 SACC20170 码力 | 32 页 | 5.17 MB | 1 年前3深度学习下的图像视频处理技术-沈小勇
深度学习下的图像视频处理技术 沈小勇 优图X-Lab视觉AI负责人 专家研究员 自我介绍 自我介绍 2006.9 – 2012.7 浙江大学数学系本科硕士 2012.8 – 2016.6 香港中文大学博士 2016.6 – 2017.5 香港中文大学 Research Fellow 2017.5 – 现在 腾讯优图X-Lab 视觉AI负责人,专家研究员 个人主页:http://xiaoyongshen https://scholar.google.com/citations?user=P eMuphgAAAAJ&hl=en 看得更清,看得更懂 目录 1. 夜景增强 2. 图像视频去模糊 3. 视频超分辨率 1. 夜景图像增强 Taking photos is easy Amateur photographers typically create underexposed photos ?????????? = ???????????? − 1 ???????????? = ???????????? + 1 skip connections Decoder 3. 图像视频去模糊 图像去模糊问题 75 Data from previous work Different Blur Assumptions Uniform: [Fergus et al, 2006], [Shan0 码力 | 121 页 | 37.75 MB | 1 年前3李东亮:云端图像技术的深度学习模型与应用
云端图像技术的深度学习模型与应用 李东亮 360 人工智能研究院 lidongliang@360.cn 2017.10.20 SACC2017 360电脑安全产品 月活跃数达到4.42亿 360手机安全产品 移动端用户总数已达约1.49亿 360浏览器 月活跃用户数量为3.03亿 360导航 日均独立访问用户为8900万人 日均点击量约为4.51亿次 360搜索 稳定拥有35%以上的市场份额 智能家居 机器人 AR/VR/MR 智能手机 穿戴设备 SACC2017 万物互联的核心技术 视觉感知 语音感知 语义理解 人工智能 大数据分析 物 环境 SACC2017 图像 视频 检测 识别 分割 跟踪 物 环境 数 据 核 心 云端 移动端 业 务 视觉感知模型 SACC2017 视觉感知核心问题 Object Segmentation Object Classification Person, Horse, Barrier, Table, etc Object Detection 检测 识别 分割 跟踪 核 心 SACC2017 图像技术的三个核心难点>>小、快、准 小模型 线上速度快 预测准 Frequent remote upgrade CPU-constrained, real-time Cloud processing0 码力 | 26 页 | 3.69 MB | 1 年前3动手学深度学习 v2.0
109 3.4.8 模型预测和评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 3.5 图像分类数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 3.5.1 . 220 6.1.4 “沃尔多在哪里”回顾 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 221 6.2 图像卷积 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222 6 卷积层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 6.2.3 图像中目标的边缘检测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225 6.2.4 学习卷积核 . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3Keras: 基于 Python 的深度学习库
123 6.2.4 text_to_word_sequence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 6.3 图像预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.3.1 ImageDataGenerator . . . . . . 152 12 常用数据集 Datasets 154 12.1 CIFAR10 小图像分类数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 154 12.2 CIFAR100 小图像分类数据集 . . . . . . . . . . . . . . . . . . . . . . . . 1 可用的模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 13.2 图像分类模型的示例代码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 13.2.1 使用 ResNet500 码力 | 257 页 | 1.19 MB | 1 年前3《TensorFlow 2项目进阶实战》5-商品识别篇:使用ResNet识别你的货架商品
2项目进阶实战》视频课程 • 基础:图像分类问题定义与说明 • 基础:越来越深的图像分类网络 • 应⽤用:检测SKU抠图与分类标注流程 • 应⽤用:分类训练集与验证集划分 • 应⽤用:使⽤用TensorFlow 2训练ResNet • 应⽤用:使用ResNet识别货架商品 • 扩展:图像分类常用数据集综述 • 扩展:图像分类更多应⽤用场景介绍 目录 基础:图像分类问题定义与说明 图像分类问题 语义级分类 语义级分类 细粒度分类 图像分类问题 实例级分类 识别问题 图像分类问题 实例级分类 识别问题 图像分类问题 图像分类评估:Top-1 / Top-5 准确率 图像分类评估:混淆矩阵 图像分类评估:ROC 曲线 基础:越来越深的图像分类网络 历年 SOTA 模型对比 AlexNet(2012) AlexNet(2012) AlexNet(2012) VGGNet(2014) TensorFlow 2 训练 ResNet “Hello TensorFlow” Try it! 应⽤用:使用ResNet识别货架商品 “Hello TensorFlow” Try it! 扩展:图像分类常用数据集综述 https://github.com/zalandoresearch/fashion-mnist http://yann.lecun.com/exdb/mnist/ MNIST0 码力 | 58 页 | 23.92 MB | 1 年前3机器学习课程-温州大学-01深度学习-引言
人脸识别、深度学习等 社交 美国 2004年 上市 市值5934亿美元 4 百度 计算机视觉技术、自然语言处理技 术 、知识图谱等 综合 中国 2001年 上市 市值438亿美元 5 大疆创新 图像识别技术、智能引擎技术等 无人机 中国 2006年 战略融资 估值210亿美元 6 商汤科技 计算机视觉技术、深度学习 安防 中国 2014年 D轮融资 估值70亿美元 7 旷视科技 计算机视觉技术等 智适应学习技术、机器学习 教育 中国 2015年 A轮融资 估值11亿美元 12 字节跳动 跨媒体分析推理技术、深度学习、自 然 语言处理、图像识别 资讯 中国 2012年 Pre-IPO轮融资 估值750亿美元 13 Netflix(网飞) 视频图像优化、剧集封面图片个性 化 、视频个性化推荐 媒体及内容 美国 1997年 上市 市值1418亿美元 14 Graphcore 智能芯片技术、机器学习 准 确 率 11 深度学习-CV(计算机视觉方向) 图像获取 提取二维图像 、三维图组、 图像序列或相 关的物理数据 ,如声波、电 磁波或核磁 共振的深度、 吸收度或反射 度 预处理 对图像做一 种或一些预 处理,使图 像满足后继 处理的要 求 ,如:二次 取样保证图 像坐标的正 确,平滑、 去噪等 特征提取 从图像中提取 各种复杂度的 特征,如:线 ,边缘提取和 脊侦测,边角0 码力 | 80 页 | 5.38 MB | 1 年前3机器学习课程-温州大学-07深度学习-卷积神经网络
04 卷积神经网络案例 本章目录 4 计算机视觉 图像获取 提取二维图像 、三维图组、 图像序列或相 关的物理数据 ,如声波、电 磁波或核磁 共振的深度、 吸收度或反射 度 预处理 对图像做一 种或一些预 处理,使图 像满足后继 处理的要 求 ,如:二次 取样保证图 像坐标的正 确,平滑、 去噪等 特征提取 从图像中提取 各种复杂度的 特征,如:线 ,边缘提取和 脊侦测,边角 特征点检测 检测/分割 对图像进行分割 ,提取有价值的 内容,用于后继 处理, 如:筛 选特征点,分割 含有特定目标的 部分 高级处理 验证得到的 数据是否匹 配前提要求 ,估测特定 系数,对 目 标进行分类 •图像分类 •目标检测 •图像分割 •目标跟踪 •OCR文字识别 •图像滤波与降噪 •图像增强 •风格迁移 •三维重建 •图像检索 •GAN 5 图像分类 6 目标检测 目标检测结合了目标分类和定位两个任务。 YOLOV5,SSD等) two-stage(OverFeat,R-CNN,Fast R-CNN,Faster R-CNN 等) 7 目标检测 8 目标检测 9 图像分割 10 目标跟踪 11 计算机视觉 图像的数字表示 一张图片数据量是64×64×3,因为每张图片都有3个颜色通道。 如果计算一下的话,可得知数据量为12288 12 01 计算机视觉概述 020 码力 | 29 页 | 3.14 MB | 1 年前3《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别
Python 解释器添加了图像处理功能。但是,在 2009 年发布 1.1.7 版本后,社区便停止更新和维护。 Pillow 是由 Alex Clark 及社区贡献者 一起开发和维护的一款分叉自 PIL 的图像工具库。 至今,社区依然非常活跃,Pillow 仍在快速迭代。 Pillow提供广泛的文件格式支持,高效的内部表示和相当强大的图像处理功能。 核心图像库旨在快速访问以几种基本像素格式存储的数据, 核心图像库旨在快速访问以几种基本像素格式存储的数据, 它应该为一般的图像处理工 具提供坚实的基础。 https://github.com/python-pillow/Pillow captcha Catpcha 是一个生成图像和音频验证码的开源工具库。 https://github.com/lepture/captcha from captcha.image import ImageCaptcha from captcha 早期的Captcha验证码 "smwm" ,由EZ-Gimpy 程序产生,使用扭曲的字母和背景颜色梯度 一种更现代的CAPTCHA,其不使用扭曲的背景及 字母,而是增加一条曲线来使得图像分割 (segmentation)更困难。 另一种增加图像分割难度的方法为将符号彼此拥挤 在一起,但其也使得真人用户比较难以识别 要求用户识别图片的验证方式,本图为模拟12306 网站的验证界面 验证码(CAPTCHA)生成0 码力 | 51 页 | 2.73 MB | 1 年前3机器学习课程-温州大学-14深度学习-Vision Transformer (ViT)
Embedding 就是把每个Patch再经过一 个全连接网络压缩成一定 维度的向量。 1.背景知识 7 为什么需要用transformer CNN(如ResNet)是图像分类的最 佳解决方案。 如果预训练的数据集足够大(至少一 亿张图像),则Vision Transformer (ViT)将击败CNN(小幅度) Vision Transformer(ViT)实际上就 是Transformer的encode网络。 encoder 中 作 者将类别作为一个可学习的 patch (?0)输入模型,与图像 的patch+pos 信息作为multi- head attention 的输入。 可以叠加多层encoder: 2.模型介绍 17 将encoder得到的结果 输入分类层 encoder 会输出多个上 下文向量,对于图像分 类,只需要 ?0。 2.模型介绍 18 1.背景知识 将encoder得到的结果 将encoder得到的结果 输入分类层 encoder 会输出多个上 下文向量,对于图像分 类,只需要 ?0。 19 模型框架 最简洁的Vision Transformer模型 ,先将图片分成 16x16的patch块, 送入transformer encoder,第一个 cls token的输出送 入mlp head得到 预测结果。 2.模型介绍 20 来自输入空间的注意力表达 输入0 码力 | 34 页 | 2.78 MB | 1 年前3
共 43 条
- 1
- 2
- 3
- 4
- 5