华为云深度学习在文本分类中的实践-李明磊
华为云深度学习在文本分类中的实践 华为 Cloud&AI 李明磊 3 2 3 1 4 分类 算法 简史 深度 学习 架构 难点 应用 案例 目录 4 文本分类介绍 内容: 买没几天就降价一点都不开心,闪存跑分就五百多点点 --- 外观漂亮音质不错,现在电子产品基本上都是华为的了 --- 汽车不错,省油,性价比高 --- 这个政策好啊,利国利民 --- f(text)=label 词 句子 篇章 对话 5 文本分类方法简史-机器学习 特征提取 特征选择 输入 文本 模型训练 模型部署 评测 label 预测标签 词袋 TFIDF Ngram 词典 … 卡方 PCA 互信息 RFE … 分类器 SVM LR XGBoost 随机森林 … 6 文本分类方法简史-深度学习 输入 文本 模型训练 模型部署 评测 label label 预测标签 RNN CNN LSTM DCNN Attention HAN Transformer Elmo BERT MT-DNN 7 文本分类方法简史-深度学习 神经网络 语言模型 2003 神经网络NLP里程碑: Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难0 码力 | 23 页 | 1.80 MB | 1 年前3Qcon北京2018-《文本智能处理的深度学习技术》-陈运文
达观数据 陈运文 文本智能处理的深度学习技术 达观数据CEO 陈运文 博士 • 中 国 计 算 机 学 会 高 级 会 员 , A C M 和 I E E E 学 会 会 员 , 复 旦 大 学 计 算 机 博 士 和 杰 出 毕 业 生 • 原 腾 讯 文 学 高 级 总 监 、 盛 大 文 学 首 席 数 据 官 、 百 度 核 心 技 术 工 程 师 • 三 十 项 国 家 技 术 挖 掘 技 术 和 相 关 应 用 系 统 的 服 务 个人简介——达观数据CEO 陈运文 达观数据:全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服 务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司 专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉,拥有国家级高新技术企业、CMMI3资质认 证 全 l 覆盖金融、制造、法律、电商、传媒等行业,提升企业文档自动化处理能力 为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本 语音 图像 人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的0 码力 | 46 页 | 25.61 MB | 1 年前3Weblate 4.18 用户文档
表示简单的标记,例如以粗体或斜体突出显示消息的重要部分。 此检查确保在翻译中也找到它们。 备注: 目前检测 BBCode 的方法非常简单,所以此检查可能会产生误报。 连续重复的单词 在 4.1 版本加入. 概要 一行文本中包含同一单词两次: 范围 已翻译字符串 检查的类 weblate.checks.duplicate.DuplicateCheck 检查的标识符 duplicate 忽略的标记 ignore-duplicate 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 32 Chapter 1. 用户文档 The Weblate Manual, 发行版本 4.18 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式字符串通常会导致严重的 问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自 可以按每条字符串(请参阅源字符串另外的信息)或在部件配置 中完成此操作。按部件逐一定义比较简 单,但是如果该字符串未解释为格式化字符串,而碰巧使用了格式化字符串语法,则可能导致误报。 提示: 如果 Weblate 中不提供特定格式的检查,则可以使用通用占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 1.6. 检查和修正 33 The Weblate Manual, 发行版本0 码力 | 525 页 | 8.76 MB | 1 年前3Weblate 4.18.2 用户文档
表示简单的标记,例如以粗体或斜体突出显示消息的重要部分。 此检查确保在翻译中也找到它们。 备注: 目前检测 BBCode 的方法非常简单,所以此检查可能会产生误报。 连续重复的单词 在 4.1 版本加入. 概要 一行文本中包含同一单词两次: 范围 已翻译字符串 检查的类 weblate.checks.duplicate.DuplicateCheck 检查的标识符 duplicate 忽略的标记 ignore-duplicate 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 32 Chapter 1. 用户文档 The Weblate Manual, 发行版本 4.18.2 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式字符串通常会导致严重的 问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自 可以按每条字符串(请参阅源字符串另外的信息)或在部件配置 中完成此操作。按部件逐一定义比较简 单,但是如果该字符串未解释为格式化字符串,而碰巧使用了格式化字符串语法,则可能导致误报。 提示: 如果 Weblate 中不提供特定格式的检查,则可以使用通用占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 1.6. 检查和修正 33 The Weblate Manual, 发行版本0 码力 | 525 页 | 8.76 MB | 1 年前3Weblate 4.18.1 用户文档
表示简单的标记,例如以粗体或斜体突出显示消息的重要部分。 此检查确保在翻译中也找到它们。 备注: 目前检测 BBCode 的方法非常简单,所以此检查可能会产生误报。 连续重复的单词 在 4.1 版本加入. 概要 一行文本中包含同一单词两次: 范围 已翻译字符串 检查的类 weblate.checks.duplicate.DuplicateCheck 检查的标识符 duplicate 忽略的标记 ignore-duplicate 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 32 Chapter 1. 用户文档 The Weblate Manual, 发行版本 4.18.1 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式字符串通常会导致严重的 问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自 可以按每条字符串(请参阅源字符串另外的信息)或在部件配置 中完成此操作。按部件逐一定义比较简 单,但是如果该字符串未解释为格式化字符串,而碰巧使用了格式化字符串语法,则可能导致误报。 提示: 如果 Weblate 中不提供特定格式的检查,则可以使用通用占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 1.6. 检查和修正 33 The Weblate Manual, 发行版本0 码力 | 525 页 | 8.76 MB | 1 年前3Weblate 4.17 用户文档
表示简单的标记,例如以粗体或斜体突出显示消息的重要部分。 此检查确保在翻译中也找到它们。 备注: 目前检测 BBCode 的方法非常简单,所以此检查可能会产生误报。 连续重复的单词 在 4.1 版本加入. 概要 一行文本中包含同一单词两次: 范围 已翻译字符串 检查的类 weblate.checks.duplicate.DuplicateCheck 检查的标识符 duplicate 忽略的标记 ignore-duplicate 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 30 Chapter 1. 用户文档 The Weblate Manual, 发行版本 4.17 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式字符串通常会导致严重的 问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自 可以按每单位(请参阅源字符串另外的信息)或在部件配置 中完成此操作。为每个部件定义它比较简单, 但是如果该字符串未解释为格式化字符串,而碰巧使用了格式化字符串语法,则可能导致误报。 提示: 如果 Weblate 中不提供特定格式的检查,则可以使用通用占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 1.6. 检查和修正 31 The Weblate Manual, 发行版本0 码力 | 506 页 | 8.37 MB | 1 年前3Weblate 4.16 用户文档
表示简单的标记,例如以粗体或斜体突出显示消息的重要部分。 此检查确保在翻译中也找到它们。 备注: 目前检测 BBCode 的方法非常简单,所以此检查可能会产生误报。 连续重复的单词 在 4.1 版本加入. 概要 一行文本中包含同一单词两次: 范围 已翻译字符串 检查的类 weblate.checks.duplicate.DuplicateCheck 检查的标识符 duplicate 28 Chapter 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 1.6. 检查和修正 29 The Weblate Manual, 发行版本 4.16 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式字符串通常会导致严重的 问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自 可以按每单位(请参阅源字符串另外的信息)或在部件配置 中完成此操作。为每个部件定义它比较简单, 但是如果该字符串未解释为格式化字符串,而碰巧使用了格式化字符串语法,则可能导致误报。 提示: 如果 Weblate 中不提供特定格式的检查,则可以使用通用占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 30 Chapter 1. 用户文档 The Weblate Manual0 码力 | 502 页 | 8.32 MB | 1 年前3Weblate 4.16.2 用户文档
表示简单的标记,例如以粗体或斜体突出显示消息的重要部分。 此检查确保在翻译中也找到它们。 备注: 目前检测 BBCode 的方法非常简单,所以此检查可能会产生误报。 连续重复的单词 在 4.1 版本加入. 概要 一行文本中包含同一单词两次: 范围 已翻译字符串 检查的类 weblate.checks.duplicate.DuplicateCheck 检查的标识符 duplicate 28 Chapter 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 1.6. 检查和修正 29 The Weblate Manual, 发行版本 4.16.2 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式字符串通常会导致严重的 问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自 可以按每单位(请参阅源字符串另外的信息)或在部件配置 中完成此操作。为每个部件定义它比较简单, 但是如果该字符串未解释为格式化字符串,而碰巧使用了格式化字符串语法,则可能导致误报。 提示: 如果 Weblate 中不提供特定格式的检查,则可以使用通用占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 30 Chapter 1. 用户文档 The Weblate Manual0 码力 | 502 页 | 8.32 MB | 1 年前3Weblate 4.16.1 用户文档
表示简单的标记,例如以粗体或斜体突出显示消息的重要部分。 此检查确保在翻译中也找到它们。 备注: 目前检测 BBCode 的方法非常简单,所以此检查可能会产生误报。 连续重复的单词 在 4.1 版本加入. 概要 一行文本中包含同一单词两次: 范围 已翻译字符串 检查的类 weblate.checks.duplicate.DuplicateCheck 检查的标识符 duplicate 28 Chapter 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 1.6. 检查和修正 29 The Weblate Manual, 发行版本 4.16.1 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式字符串通常会导致严重的 问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自 可以按每单位(请参阅源字符串另外的信息)或在部件配置 中完成此操作。为每个部件定义它比较简单, 但是如果该字符串未解释为格式化字符串,而碰巧使用了格式化字符串语法,则可能导致误报。 提示: 如果 Weblate 中不提供特定格式的检查,则可以使用通用占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 30 Chapter 1. 用户文档 The Weblate Manual0 码力 | 502 页 | 8.32 MB | 1 年前3Weblate 4.15 用户文档
表示简单的标记,例如以粗体或斜体突出显示消息的重要部分。 此检查确保在翻译中也找到它们。 备注: 目前检测 BBCode 的方法非常简单,所以此检查可能会产生误报。 连续重复的单词 在 4.1 版本加入. 概要 一行文本中包含同一单词两次: 范围 已翻译字符串 检查的类 weblate.checks.duplicate.DuplicateCheck 检查的标识符 duplicate 28 Chapter 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 1.6. 检查和修正 29 The Weblate Manual, 发行版本 4.15 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式字符串通常会导致严重的 问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自 可以按每单位(请参阅源字符串另外的信息)或在部件配置 中完成此操作。为每个部件定义它比较简单, 但是如果该字符串未解释为格式化字符串,而碰巧使用了格式化字符串语法,则可能导致误报。 提示: 如果 Weblate 中不提供特定格式的检查,则可以使用通用占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 30 Chapter 1. 用户文档 The Weblate Manual0 码力 | 497 页 | 8.22 MB | 1 年前3
共 575 条
- 1
- 2
- 3
- 4
- 5
- 6
- 58