华为云深度学习在文本分类中的实践-李明磊
华为云深度学习在文本分类中的实践 华为 Cloud&AI 李明磊 3 2 3 1 4 分类 算法 简史 深度 学习 架构 难点 应用 案例 目录 4 文本分类介绍 内容: 买没几天就降价一点都不开心,闪存跑分就五百多点点 --- 外观漂亮音质不错,现在电子产品基本上都是华为的了 --- 汽车不错,省油,性价比高 --- 这个政策好啊,利国利民 --- f(text)=label 词 句子 篇章 对话 5 文本分类方法简史-机器学习 特征提取 特征选择 输入 文本 模型训练 模型部署 评测 label 预测标签 词袋 TFIDF Ngram 词典 … 卡方 PCA 互信息 RFE … 分类器 SVM LR XGBoost 随机森林 … 6 文本分类方法简史-深度学习 输入 文本 模型训练 模型部署 评测 label label 预测标签 RNN CNN LSTM DCNN Attention HAN Transformer Elmo BERT MT-DNN 7 文本分类方法简史-深度学习 神经网络 语言模型 2003 神经网络NLP里程碑: Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难0 码力 | 23 页 | 1.80 MB | 1 年前3情感分类实战
情感分类实战 主讲人:龙良曲 Google CoLab ▪ Continuous 12 hours ▪ free K80 for GPU ▪ no need to cross GFW Load Dataset Network Load word embedding Train Test 下一课时 GAN Thank You.0 码力 | 11 页 | 999.73 KB | 1 年前3LR多分类实战
多分类问题 主讲人:龙良曲 Network Architecture Train em…. 下一课时 PyTorch全连接 层 Thank You.0 码力 | 8 页 | 566.94 KB | 1 年前3Qcon北京2018-《文本智能处理的深度学习技术》-陈运文
达观数据 陈运文 文本智能处理的深度学习技术 达观数据CEO 陈运文 博士 • 中 国 计 算 机 学 会 高 级 会 员 , A C M 和 I E E E 学 会 会 员 , 复 旦 大 学 计 算 机 博 士 和 杰 出 毕 业 生 • 原 腾 讯 文 学 高 级 总 监 、 盛 大 文 学 首 席 数 据 官 、 百 度 核 心 技 术 工 程 师 • 三 十 项 国 家 技 术 挖 掘 技 术 和 相 关 应 用 系 统 的 服 务 个人简介——达观数据CEO 陈运文 达观数据:全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服 务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司 专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉,拥有国家级高新技术企业、CMMI3资质认 证 全 l 覆盖金融、制造、法律、电商、传媒等行业,提升企业文档自动化处理能力 为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本 语音 图像 人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的0 码力 | 46 页 | 25.61 MB | 1 年前3动手学深度学习 v2.0
softmax回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 3.4.1 分类问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.4.2 网络架构 3.4.8 模型预测和评估 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110 3.5 图像分类数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111 3.5.1 读取数据集 3.6.4 定义损失函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 3.6.5 分类精度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 3.6.6 训练0 码力 | 797 页 | 29.45 MB | 1 年前3Ubuntu 桌面培训 2010
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293 6.9.1 软件仓库分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 294 6.10 添加新语言设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 4.60 三维文本 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 4.87 在绘图区域中编辑文本 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 200 4.88 应用视觉效果0 码力 | 524 页 | 57.54 MB | 1 年前32020美团技术年货 算法篇
比赛冠军技术方案及在美团的实践 141 KDD Cup 2020 多模态召回比赛亚军方案与搜索业务应用 161 CIKM 2020 | 一文详解美团 6 篇精选论文 179 MT-BERT 在文本检索任务中的实践 192 美团无人车引擎在仿真中的实践 204 美团无人配送 CVPR2020 论文 CenterMask 解读 215 WSDM Cup 2020 检索排序评测任务第一名经验总结 } ], "default_value": -1 } 通过以上配置,一个模型可以通过特征名和 Transformer 的组合清晰地表达。因此, 模型与特征都只是一段纯文本配置,可以保存在外部,Augur 在需要的时候可以动态 的加载,进而实现模型和特征的上线配置化,无需编写代码进行上线,安全且高效。 其中,我们将输入模型的特征名(tf_input_name)和原始特征名(name)做了区分。 )来完成下游的 NLP 任务(文本分类、序列标注、句间关系判断和机器阅读理解等)。美团 AI 平台搜 索与 NLP 部算法团队基于美团海量业务语料训练了 MT-BERT 模型,已经将 MT- BERT 应用到搜索意图识别、细粒度情感分析、点评推荐理由、场景化分类等业务场 景中 [2]。 作为 BERT 的核心组成结构,Transformer 具有强大的文本特征提取能力,早在多 项 NLP0 码力 | 317 页 | 16.57 MB | 1 年前3Ubuntu 桌面培训 2010
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 296 VI.IX.I 软件仓库分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 297 VI.X 添加新语言设置 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491 XI.III.VIIGedit 打开一些文本文件时会乱码,其他文本编辑器 却正常,这是怎么回事? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491 XI.IV 常用工具软件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42 II.25 语言和文本对话框 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .0 码力 | 540 页 | 26.26 MB | 1 年前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 对数据进行诊断、预测、关联、聚类分析,常用于问题 定位、需求预测、推荐系统、异常检测等。 对数据进行分类、社交网络分析或时序模式挖掘,常用 于客户细分、信用评分、社交媒体营销、股价预测等。 性能之间取得平衡,适合 中等规模任务。 多模态支持:支持文本和 图像处理,扩展应用场景。 可解释性:注重模型输出 的可解释性和透明性。 DeepSeek R1 高效推理:专注于低延迟和 高吞吐量,适合实时应用。 轻量化设计:模型结构优化, 资源占用少,适合边缘设备 和移动端。 多任务支持:支持多种任务, 如文本生成、分类和问答。 Kimi k1.5 垂直领域优化:针对特定领域 (如医疗、法律)进行优化, 提供高精度结果。 长文本处理:擅长处理长文本 和复杂文档,适合专业场景。 定制化能力:支持用户自定义 训练和微调,适应特定需求。 Open AI o3 mini 小型化设计:轻量级模型, 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容;0 码力 | 85 页 | 8.31 MB | 7 月前32022年美团技术年货 合辑
Decoupled Head 在 YOLOv6 中,我们采用了解耦检测头(Decoupled Head)结构,并对其进行了 精简设计。原始 YOLOv5 的检测头是通过分类和回归分支融合共享的方式来实现的, 而 YOLOX 的检测头则是将分类和回归分支进行解耦,同时新增了两个额外的 3x3 的卷积层,虽然提升了检测精度,但一定程度上增加了网络延时。 因此,我们对解耦头进行了精简设计,同时综合考虑到相关算子表征能力和硬件上计 1.3% AP。 SIoU 边界框回归损失 为了进一步提升回归精度,YOLOv6 采用了 SIoU[9] 边界框回归损失函数来监督网络 的学习。目标检测网络的训练一般需要至少定义两个损失函数:分类损失和边界框回 归损失,而损失函数的定义往往对检测精度以及训练速度产生较大的影响。 近年来,常用的边界框回归损失包括 IoU、GIoU、CIoU、DIoU loss 等等,这些损 失函数通过考 7.4%,在实际工程中基本不可用。而 YOLOv6s_repopt 网络的量化模型精度为 40.9%,精度损失仅为 1.5%,相比原版 模型有了极大的改善。 表 1 使用 RepOpt 在标准分类和检测任务上的 INT8 精度提升 2.1.3 RepOpt 版本的 QAT 此外,使用 RepOpt 结构解决了原本的 RepVGG 网络无法直接使用现有量化感知训 练的问题。对于结构重参数化的0 码力 | 1356 页 | 45.90 MB | 1 年前3
共 830 条
- 1
- 2
- 3
- 4
- 5
- 6
- 83