华为云深度学习在文本分类中的实践-李明磊
华为云深度学习在文本分类中的实践 华为 Cloud&AI 李明磊 3 2 3 1 4 分类 算法 简史 深度 学习 架构 难点 应用 案例 目录 4 文本分类介绍 内容: 买没几天就降价一点都不开心,闪存跑分就五百多点点 --- 外观漂亮音质不错,现在电子产品基本上都是华为的了 --- 汽车不错,省油,性价比高 --- 这个政策好啊,利国利民 --- f(text)=label 词 句子 篇章 对话 5 文本分类方法简史-机器学习 特征提取 特征选择 输入 文本 模型训练 模型部署 评测 label 预测标签 词袋 TFIDF Ngram 词典 … 卡方 PCA 互信息 RFE … 分类器 SVM LR XGBoost 随机森林 … 6 文本分类方法简史-深度学习 输入 文本 模型训练 模型部署 评测 label label 预测标签 RNN CNN LSTM DCNN Attention HAN Transformer Elmo BERT MT-DNN 7 文本分类方法简史-深度学习 神经网络 语言模型 2003 神经网络NLP里程碑: Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难0 码力 | 23 页 | 1.80 MB | 1 年前3Qcon北京2018-《文本智能处理的深度学习技术》-陈运文
达观数据 陈运文 文本智能处理的深度学习技术 达观数据CEO 陈运文 博士 • 中 国 计 算 机 学 会 高 级 会 员 , A C M 和 I E E E 学 会 会 员 , 复 旦 大 学 计 算 机 博 士 和 杰 出 毕 业 生 • 原 腾 讯 文 学 高 级 总 监 、 盛 大 文 学 首 席 数 据 官 、 百 度 核 心 技 术 工 程 师 • 三 十 项 国 家 技 术 挖 掘 技 术 和 相 关 应 用 系 统 的 服 务 个人简介——达观数据CEO 陈运文 达观数据:全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服 务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司 专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉,拥有国家级高新技术企业、CMMI3资质认 证 全 l 覆盖金融、制造、法律、电商、传媒等行业,提升企业文档自动化处理能力 为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本 语音 图像 人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的0 码力 | 46 页 | 25.61 MB | 1 年前3Weblate 4.17 用户文档
表示简单的标记,例如以粗体或斜体突出显示消息的重要部分。 此检查确保在翻译中也找到它们。 备注 目前检测 BBCode 的方法非常简单,所以此检查可能会产生误报。 连续重复的单词 在 4.1 版本加入. 一行文本中包含同一单词两次: 已翻译字符串 weblate.checks.duplicate.DuplicateCheck duplicate ignore-duplicate 检查译文中是否有连续重复的单词出现。这通常表示译文中存在错误。 ignore-double-space 检查翻译中是否存在双空格,以避免其他与空格相关的检查出现误报。 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式 字符串通常会导致严重的问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自动启用该检查。Gettext 可以按每单位(请参阅 源字符串另外的信息)或在 部件配置 中完成此操作。 为每个部件定义它比较简单,但是如果该字符串未解释为格式化字符串,而碰 巧使用了格式化字符串语法,则可能导致误报。 提示 如果 Weblate 中不提供特定格式的检查,则可以使用通用 占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 概要:: 范围:: 检查的类:: 检查的标识符:: 启用的标记:: 忽略的标记::0 码力 | 817 页 | 17.33 MB | 1 年前3Weblate 4.16.1 用户文档
在 4.1 版本加入. 概要:: 范围:: 检查的类:: 检查的标识符:: 忽略的标记:: 概要:: 范围:: 检查的类:: 检查的标识符:: 启用的标记:: 忽略的标记:: 概要:: 一行文本中包含同一单词两次: 已翻译字符串 weblate.checks.duplicate.DuplicateCheck duplicate ignore-duplicate 检查译文中是否有连续重复的单词出现。这通常表示译文中存在错误。 ignore-double-space 检查翻译中是否存在双空格,以避免其他与空格相关的检查出现误报。 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式 字符串通常会导致严重的问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自动启用该检查。Gettext 可以按每单位(请参阅 源字符串另外的信息)或在 部件配置 中完成此操作。 为每个部件定义它比较简单,但是如果该字符串未解释为格式化字符串,而碰 巧使用了格式化字符串语法,则可能导致误报。 提示 如果 Weblate 中不提供特定格式的检查,则可以使用通用 占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 概要:: 范围:: 检查的类:: 检查的标识符:: 启用的标记:: 忽略的标记::0 码力 | 819 页 | 11.27 MB | 1 年前3Weblate 4.16 用户文档
在 4.1 版本加入. 概要:: 范围:: 检查的类:: 检查的标识符:: 忽略的标记:: 概要:: 范围:: 检查的类:: 检查的标识符:: 启用的标记:: 忽略的标记:: 概要:: 一行文本中包含同一单词两次: 已翻译字符串 weblate.checks.duplicate.DuplicateCheck duplicate ignore-duplicate 检查译文中是否有连续重复的单词出现。这通常表示译文中存在错误。 ignore-double-space 检查翻译中是否存在双空格,以避免其他与空格相关的检查出现误报。 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式 字符串通常会导致严重的问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自动启用该检查。Gettext 可以按每单位(请参阅 源字符串另外的信息)或在 部件配置 中完成此操作。 为每个部件定义它比较简单,但是如果该字符串未解释为格式化字符串,而碰 巧使用了格式化字符串语法,则可能导致误报。 提示 如果 Weblate 中不提供特定格式的检查,则可以使用通用 占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 概要:: 范围:: 检查的类:: 检查的标识符:: 启用的标记:: 忽略的标记::0 码力 | 819 页 | 11.27 MB | 1 年前3Weblate 4.16.2 用户文档
在 4.1 版本加入. 概要:: 范围:: 检查的类:: 检查的标识符:: 忽略的标记:: 概要:: 范围:: 检查的类:: 检查的标识符:: 启用的标记:: 忽略的标记:: 概要:: 一行文本中包含同一单词两次: 已翻译字符串 weblate.checks.duplicate.DuplicateCheck duplicate ignore-duplicate 检查译文中是否有连续重复的单词出现。这通常表示译文中存在错误。 ignore-double-space 检查翻译中是否存在双空格,以避免其他与空格相关的检查出现误报。 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式 字符串通常会导致严重的问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自动启用该检查。Gettext 可以按每单位(请参阅 源字符串另外的信息)或在 部件配置 中完成此操作。 为每个部件定义它比较简单,但是如果该字符串未解释为格式化字符串,而碰 巧使用了格式化字符串语法,则可能导致误报。 提示 如果 Weblate 中不提供特定格式的检查,则可以使用通用 占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 概要:: 范围:: 检查的类:: 检查的标识符:: 启用的标记:: 忽略的标记::0 码力 | 821 页 | 11.27 MB | 1 年前3Weblate 4.15 用户文档
。 连续重复的单词 在 4.1 版本加入. 概要: 范围: 检查的类: 检查的标识符: 忽略的标记: 概要: 范围: 检查的类: 检查的标识符: 启用的标记: 忽略的标记: 概要: 一行文本中包含同一单词两次: 已翻译字符串 weblate.checks.duplicate.DuplicateCheck duplicate ignore-duplicate 检查译文中是否有连续重复的单词出现。这通常表示译文中存在错误。 ignore-double-space 检查翻译中是否存在双空格,以避免其他与空格相关的检查出现误报。 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式 字符串通常会导致严重的问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自动启用该检查。Gettext 可以按每单位(请参阅 源字符串另外的信息)或在 部件配置 中完成此操作。 为每个部件定义它比较简单,但是如果该字符串未解释为格式化字符串,而碰 巧使用了格式化字符串语法,则可能导致误报。 提示 如果 Weblate 中不提供特定格式的检查,则可以使用通用 占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 概要: 范围: 检查的类: 检查的标识符: 启用的标记: 忽略的标记:0 码力 | 820 页 | 11.24 MB | 1 年前3Weblate 4.15.1 用户文档
。 连续重复的单词 在 4.1 版本加入. 概要: 范围: 检查的类: 检查的标识符: 忽略的标记: 概要: 范围: 检查的类: 检查的标识符: 启用的标记: 忽略的标记: 概要: 一行文本中包含同一单词两次: 已翻译字符串 weblate.checks.duplicate.DuplicateCheck duplicate ignore-duplicate 检查译文中是否有连续重复的单词出现。这通常表示译文中存在错误。 ignore-double-space 检查翻译中是否存在双空格,以避免其他与空格相关的检查出现误报。 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式 字符串通常会导致严重的问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自动启用该检查。Gettext 可以按每单位(请参阅 源字符串另外的信息)或在 部件配置 中完成此操作。 为每个部件定义它比较简单,但是如果该字符串未解释为格式化字符串,而碰 巧使用了格式化字符串语法,则可能导致误报。 提示 如果 Weblate 中不提供特定格式的检查,则可以使用通用 占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 概要: 范围: 检查的类: 检查的标识符: 启用的标记: 忽略的标记:0 码力 | 815 页 | 11.24 MB | 1 年前3Weblate 4.15.2 用户文档
。 连续重复的单词 在 4.1 版本加入. 概要: 范围: 检查的类: 检查的标识符: 忽略的标记: 概要: 范围: 检查的类: 检查的标识符: 启用的标记: 忽略的标记: 概要: 一行文本中包含同一单词两次: 已翻译字符串 weblate.checks.duplicate.DuplicateCheck duplicate ignore-duplicate 检查译文中是否有连续重复的单词出现。这通常表示译文中存在错误。 ignore-double-space 检查翻译中是否存在双空格,以避免其他与空格相关的检查出现误报。 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式 字符串通常会导致严重的问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自动启用该检查。Gettext 可以按每单位(请参阅 源字符串另外的信息)或在 部件配置 中完成此操作。 为每个部件定义它比较简单,但是如果该字符串未解释为格式化字符串,而碰 巧使用了格式化字符串语法,则可能导致误报。 提示 如果 Weblate 中不提供特定格式的检查,则可以使用通用 占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 概要: 范围: 检查的类: 检查的标识符: 启用的标记: 忽略的标记:0 码力 | 816 页 | 11.24 MB | 1 年前3Weblate 4.14.2 用户文档
忽略的标记: 概要: 范围: 检查类: 检查的标识符: 启用的标记: 忽略的标记: 目前检测 BBCode 的方法非常简单,所以此检查可能会产生误报。 连续重复的单词 在 4.1 版本加入. 一行文本中包含同一单词两次: 已翻译字符串 weblate.checks.duplicate.DuplicateCheck duplicate ignore-duplicate 检查翻译中是否有连续重复的单词出现。这通常表示翻译中存在错误。 ignore-double-space 检查翻译中是否存在双空格,以避免其他与空格相关的检查出现误报。 当在原文中找到双空格时,检查为假,这意味着双空格是故意的。 格式化字符串 检查字符串中的格式化是否在原文和译文中都得到了复制。在译文中省略格式 字符串通常会导致严重的问题,所以字符串中的格式化通常应与原文匹配。 Weblate 支持检查多种语言的格式字符串。仅当适当地标记了字符串时(例如 C 格式为 c-format),才会自动启用该检查。Gettext 可以按每单位(请参阅 源字符串另外的信息)或在 部件配置 中完成此操作。 为每个部件定义它比较简单,但是如果该字符串未解释为格式化字符串,而碰 巧使用了格式化字符串语法,则可能导致误报。 提示 如果 Weblate 中不提供特定格式的检查,则可以使用通用 占位符。 除了检查,这也将高亮格式化字符串,方便将它们插入到已翻译字符串: 概要: 范围: 检查类: 检查的标识符: 启用的标记: 忽略的标记: 命名格式字符串示例:0 码力 | 818 页 | 11.20 MB | 1 年前3
共 748 条
- 1
- 2
- 3
- 4
- 5
- 6
- 75