1 藤井美娜 Python的NLP实战分享 如何实现合同风险预测模型
Python的NLP实战分享 如何实现合同风险预测模型? GVA TECH Co., Ltd 藤井美娜 自我介绍 2% |# | self-introduction • Machine Learning Engineer / Data Scientist • GVA TECH的人工智能法律服务AI-CON的多语言系统 开发负责人 inazo18 藤井美娜 目录 CONTENTS CONTENTS 1. Python NLP 入门 2. 多语言NLP攻略 3.“合同风险预测模型”实战经验分享 4. 总结 5% |### | today’s topic 1 Python NLP 入门 简单介绍自然语言处理的流程和使用corpus的EDA方法。 8% |##### | section1 NLP基础 11% |######### | section1 收集语料 前处理 分词 语义解析 NLP基础 13% |########### | section1 收集语料 前处理 分词 语义解析 • 使用爬虫收集的语言数据 • 公司拥有的语言数据 NLP基础 15% |############# | section1 收集语料 前处理 分词 语义解析 • 使用爬虫收集的语言数据 • 公司拥有的语言数据 • 根据你的目的删掉一些不需要的 特殊符号0 码力 | 36 页 | 3.95 MB | 1 年前33 Python的NLP实战分享 如何实现合同风险预测模型 藤井美娜
Python的NLP实战分享 如何实现合同风险预测模型? GVA TECH Co., Ltd 藤井美娜 自我介绍 2% |# | self-introduction • Machine Learning Engineer / Data Scientist • GVA TECH的人工智能法律服务AI-CON的多语言系统 开发负责人 inazo18 藤井美娜 目录 CONTENTS CONTENTS 1. Python NLP 入门 2. 多语言NLP攻略 3.“合同风险预测模型”实战经验分享 4. 总结 5% |### | today’s topic 1 Python NLP 入门 简单介绍自然语言处理的流程和使用corpus的EDA方法。 8% |##### | section1 NLP基础 11% |####### | section1 收集语料 前处理 分词 不需要的东西,例如①②③; 《 》等特殊符号。 • 确认需不需要分隔词素 • 词语 • 短语 • 句子 • 文 NLP基础 14% |########### | section1 收集语料 前处理 分词 向量化 (Vectorization) 机器学习模型 各种OUTPUT 语义解析 NLP基础 19% |################ | section1 收集语料 前处理 分词0 码力 | 33 页 | 1.67 MB | 1 年前32020美团技术年货 算法篇
团很早就开始探索不同的机器学习模型在搜索场景下的应用,从最开始的线性模型、 树模型,再到近两年的深度神经网络、BERT、DQN 等,并在实践中也取得了良好 的效果与产出。 本文将与大家探讨美团搜索与 NLP 部使用的统一在线预估框架 Augur 的设计思路、 效果、优势与不足,希望对大家有所帮助或者启发。 搜索优化问题,是个典型的 AI 应用问题,而 AI 应用问题首先是个系统问题。经历 近 10 算法 < 3 线,如何快速进行模型特征的迭代?如何确保良好的预估性能?在线预估框架 Augur 应运而生。经过一段时间的实践,Augur 也有效地满足了算法侧的需求,并成为美团 搜索与 NLP 部通用的解决方案。下面,我们将从解读概念开始,然后再分享一下在 实施过程中我们团队的一些经验和思考。 2. 抽象过程:什么是模型预估 其实,模型预估的逻辑相对简单、清晰。但是如果要整个平台做得好用且高效,这就 4.3 建设预估平台:快速复用与高效管理 4.3.1 能力的快速复用 Augur 在设计之初,就将所有业务逻辑通过 OP 和 Transformer 承载,所以跟业务 无关。考虑到美团搜索与 NLP 部模型预估场景需求的多样性,我们还为 Augur 赋予 多种业务调用的方式。 ● 种业务调用的方式。:即基于 Augur 构建一个完整的 Service,可以实现无状 态分布式的弹性预估能力。0 码力 | 317 页 | 16.57 MB | 1 年前3PyTorch Release Notes
representations which obtains state-of-the-art results on a wide array of Natural Language Processing (NLP) tasks. This model is based on the BERT: Pre-training of Deep Bidirectional Transformers for Language representations which obtains state-of-the-art results on a wide array of Natural Language Processing (NLP) tasks. This model is based on the BERT: Pre-training of Deep Bidirectional Transformers for Language representations which obtains state-of-the-art results on a wide array of Natural Language Processing (NLP) tasks. This model is based on the BERT: Pre-training of Deep Bidirectional Transformers for Language0 码力 | 365 页 | 2.94 MB | 1 年前3《Efficient Deep Learning Book》[EDL] Chapter 4 - Efficient Architectures
generic techniques which are agnostic to the model architecture. These techniques can be applied in NLP, vision, speech or other domains. However, owing to their incremental nature, they offer limited gains family of algorithms6 (apart from others like GloVe7) which can learn embeddings for word tokens for NLP tasks. The embedding table generation process is done without having any ground-truth labels, which target word, model inputs, and the label for a given sample text in the CBOW task. 7 GloVe - https://nlp.stanford.edu/projects/glove 6 Mikolov, Tomas, Kai Chen, Greg Corrado, and Jeffrey Dean. "Efficient0 码力 | 53 页 | 3.92 MB | 1 年前3Qcon北京2018-《文本智能处理的深度学习技术》-陈运文
达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的:让机器理解人类的语言,是人工智能领域的重要 分支,用于分析、理解和生成自然语言,方便人机交流 应用:智能问答,机器翻译,文本分类,文本摘要,标 签提取,情感分析,主题模型 NLP发展简史 1950S 1980s 1990s 2006~至今 及语料库,使用统计模 型,NLP发展产生革新 多数自然语言处理系统 基于规则,人工修订等 方式,包括问答、翻译、 搜索等 深度学习起步、发展及 成熟,同样影响NLP领 域,从传统的机器学习 逐渐过渡到深度学习 NLP技术层次 日常工作中各类常见的文本形式 新闻文章 企业合同/公文 客户评论意见 企业产品手册 法律/人事/证券等专业文本 问答资料 02 深度学习与NLP 深度学习发展与应用 http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 1,单元状态丢弃 2,新信息选择 3,单元状态更新 4,确定输出 使用深度学习解决NLP问题 03 深度学习用于各类型文本应用的实践方法 文本挖掘各种类型应用的处理框架 文本数据 结果 预处理 输出层 表示层 隐层 不同深度学习模型 后处理 NER 分词 情感分析0 码力 | 46 页 | 25.61 MB | 1 年前3Moonshot AI 介绍
欢迎关注公众号,了解更多动态 公司亮点 1.团队拥有世界级的⼈才密度: a. 创始⼈杨植麟是中国35岁以下NLP领域引⽤最⾼的研究者,Transformer-XL和XLNet两篇重要 论⽂的第⼀作者;两位联合创始⼈周昕宇和吴育昕都有10000+的GoogleScholar引⽤。 b. 团队成员囊括NLP,CV,RL(强化学习),Infra⽅⾯新⽣代⼈才,主导了很多有世界影响⼒的⼯ 作, 是个很综合的事情,今年市场上 有⼀些热度,会吸引各种背景的⼈,这个很重要,因为如果只有单⼀背景,很难做好,市场上各种⼈ 才流动是很重要的。 举个例⼦,现在所谓的AGI技术,背后其实有NLP(⾃然语⾔处理)的部分,有ComputerVision (计算机视觉),有RL(强化学习),有做对⻬的,还要有很好的基础设施,要有写Kernel的,这 是⼀个⾮常全栈的东西,光是技术就 访谈|邓咏仪杨轩陈紫冰 ⽂|邓咏仪 编辑|杨轩苏建勋 来源|智能涌现(ID:AIEmergence) 站在核爆中⼼圈,是⼀种什么样的体验? 在这次ChatGPT引发的AI⼤爆炸中,做了⼗年堪称冷⻔的NLP(⾃然语⾔处理)的杨植麟,就处在这样 ⼀个位置。这位保送清华、程序设计课程满分的“少年天才”,在卡耐基梅隆⼤学读博⼠时,就已经 作为第⼀作者发表的关于Transformer-XL与XLNet的两0 码力 | 74 页 | 1.64 MB | 1 年前3机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入
GPT-1:借助预训练,进行无监督训练和有监督微调 ◼ GPT-1模型基于Transformer解除了顺序关联和依赖性的前提,采用生成式模型方式,重点考虑了从原始文本中有效学 习的能力,这对于减轻自然语言处理(NLP)中对监督学习的依赖至关重要 ✓ GPT(Generative Pre-training Transformer)于2018年6月由OpenAI首次提出。GPT模型考虑到在自然语言理解中有大量不同的任 并且在其之外无法很好地泛化。 • 微调模型在特定基准上的性能,即使名义上是人 类水平,也可能夸大基础任务的实际性能。 存在的问题03: 因为人类学习大多数语言任务不需要 大型受监督的数据集,当前NLP技术 在概念上具有一定的局限性。 存在的问题01: 从实用的角度来看,每一项新任务都需 要一个标记示例的大数据集,这限制了 语言模型的适用性; 对于其中的许多任务(从纠正语法到生 成抽象概念的示例,再到评论一个短篇 GPT-3利用了过滤前45TB的压缩文本,在诸多NLP数据集中实现了强大性能 ✓ GPT-3是一个具有1750亿个参数的自回归语言模型,比之前的任何非稀疏语言模型多10倍。对于所有任务(在few-shot设置下测试其 性能),GPT-3都是在没有任何梯度更新或微调的情况下应用的,仅通过与模型的文本交互来指定任务和few-shot演示。 ✓ GPT-3在许多NLP数据集上都有很强的性能(包括翻译、问题0 码力 | 44 页 | 2.36 MB | 1 年前32022年美团技术年货 合辑
AutoGraph 比赛链接:https://www.automl.ai/competitions/3 招聘信息 美团到店广告平台算法团队立足广告场景,探索深度学习、强化学习、人工智能、大数据、知 识图谱、NLP 和计算机视觉前沿的技术发展,探索本地生活服务电商的价值。主要工作方向 包括: ● 触发策略:用户意图识别、广告商家数据理解,Query 改写,深度匹配,相关性建模。 ● 质量预估:广 量预估、预算分配。 ● 创意优化:智能创意设计。广告图片、文字、团单、优惠信息等展示创意的优化。 算法 < 65 岗位要求: ● 有三年以上相关工作经验,对 CTR/CVR 预估、NLP、图像理解、机制设计至少一方面有应 用经验。 ● 熟悉常用的机器学习、深度学习、强化学习模型。 ● 具有优秀的逻辑思维能力,对解决挑战性问题充满热情,对数据敏感,善于分析 / 解决问题。 等开源框架大幅提升了图神经网络的训练速度,并且 算法 < 67 降低了资源消耗 [17][18],拥有活跃的社区支持。很多公司根据自身业务特点,也纷纷 建设自有的图神经网络框架。美团搜索与 NLP 团队在长期的落地实践中,总结实践 经验,在训练的规模和性能、功能的丰富性、易用性等方面进行了大量优化。本文首 先介绍我们在过往落地应用中遇到的实际问题和挑战,然后再介绍具体的解决方案。 1.10 码力 | 1356 页 | 45.90 MB | 1 年前3《Efficient Deep Learning Book》[EDL] Chapter 1 - Introduction
Growth of parameters in Computer Vision and NLP models over time. (Data Source) We have seen a similar effect in the world of Natural Language Processing (NLP) (see Figure 1-2), where the Transformer architecture benchmark. Subsequently models like BERT4 and GPT5 models have demonstrated additional improvements on NLP-related tasks. BERT spawned several related model architectures optimizing its various aspects. GPT-3 over the Transformer Encoder architecture that is the leading architecture being used for complex NLP tasks such as translation. The NAS generated architecture, which is named Evolved Transformer8, achieves0 码力 | 21 页 | 3.17 MB | 1 年前3
共 52 条
- 1
- 2
- 3
- 4
- 5
- 6