NLP - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

1 藤井美娜 Python的NLP实战分享如何实现合同风险预测模型

Python的NLP实战分享如何实现合同风险预测模型？ GVA TECH Co., Ltd 藤井美娜自我介绍 2% |# | self-introduction • Machine Learning Engineer / Data Scientist • GVA TECH的人工智能法律服务AI-CON的多语言系统开发负责人 inazo18 藤井美娜目录 CONTENTS CONTENTS 1. Python NLP 入门 2. 多语言NLP攻略 3.“合同风险预测模型”实战经验分享 4. 总结 5% |### | today’s topic 1 Python NLP 入门简单介绍自然语言处理的流程和使用corpus的EDA方法。 8% |##### | section1 NLP基础 11% |######### | section1 收集语料前处理分词语义解析 NLP基础 13% |########### | section1 收集语料前处理分词语义解析 • 使用爬虫收集的语言数据 • 公司拥有的语言数据 NLP基础 15% |############# | section1 收集语料前处理分词语义解析 • 使用爬虫收集的语言数据 • 公司拥有的语言数据 • 根据你的目的删掉一些不需要的特殊符号

0 码力 | 36 页 | 3.95 MB | 1 年前
3
3 Python的NLP实战分享如何实现合同风险预测模型藤井美娜

Python的NLP实战分享如何实现合同风险预测模型？ GVA TECH Co., Ltd 藤井美娜自我介绍 2% |# | self-introduction • Machine Learning Engineer / Data Scientist • GVA TECH的人工智能法律服务AI-CON的多语言系统开发负责人 inazo18 藤井美娜目录 CONTENTS CONTENTS 1. Python NLP 入门 2. 多语言NLP攻略 3.“合同风险预测模型”实战经验分享 4. 总结 5% |### | today’s topic 1 Python NLP 入门简单介绍自然语言处理的流程和使用corpus的EDA方法。 8% |##### | section1 NLP基础 11% |####### | section1 收集语料前处理分词不需要的东西，例如①②③；《》等特殊符号。 • 确认需不需要分隔词素 • 词语 • 短语 • 句子 • 文 NLP基础 14% |########### | section1 收集语料前处理分词向量化（Vectorization）机器学习模型各种OUTPUT 语义解析 NLP基础 19% |################ | section1 收集语料前处理分词

0 码力 | 33 页 | 1.67 MB | 1 年前
3
2020美团技术年货算法篇

团很早就开始探索不同的机器学习模型在搜索场景下的应用，从最开始的线性模型、树模型，再到近两年的深度神经网络、BERT、DQN 等，并在实践中也取得了良好的效果与产出。本文将与大家探讨美团搜索与 NLP 部使用的统一在线预估框架 Augur 的设计思路、效果、优势与不足，希望对大家有所帮助或者启发。搜索优化问题，是个典型的 AI 应用问题，而 AI 应用问题首先是个系统问题。经历近 10 算法 < 3 线，如何快速进行模型特征的迭代？如何确保良好的预估性能？在线预估框架 Augur 应运而生。经过一段时间的实践，Augur 也有效地满足了算法侧的需求，并成为美团搜索与 NLP 部通用的解决方案。下面，我们将从解读概念开始，然后再分享一下在实施过程中我们团队的一些经验和思考。 2. 抽象过程：什么是模型预估其实，模型预估的逻辑相对简单、清晰。但是如果要整个平台做得好用且高效，这就 4.3 建设预估平台：快速复用与高效管理 4.3.1 能力的快速复用 Augur 在设计之初，就将所有业务逻辑通过 OP 和 Transformer 承载，所以跟业务无关。考虑到美团搜索与 NLP 部模型预估场景需求的多样性，我们还为 Augur 赋予多种业务调用的方式。 ● 种业务调用的方式。：即基于 Augur 构建一个完整的 Service，可以实现无状态分布式的弹性预估能力。

0 码力 | 317 页 | 16.57 MB | 1 年前
3
PyTorch Release Notes

representations which obtains state-of-the-art results on a wide array of Natural Language Processing (NLP) tasks. This model is based on the BERT: Pre-training of Deep Bidirectional Transformers for Language representations which obtains state-of-the-art results on a wide array of Natural Language Processing (NLP) tasks. This model is based on the BERT: Pre-training of Deep Bidirectional Transformers for Language representations which obtains state-of-the-art results on a wide array of Natural Language Processing (NLP) tasks. This model is based on the BERT: Pre-training of Deep Bidirectional Transformers for Language

0 码力 | 365 页 | 2.94 MB | 1 年前
3
《Efficient Deep Learning Book》[EDL] Chapter 4 - Efficient Architectures

generic techniques which are agnostic to the model architecture. These techniques can be applied in NLP, vision, speech or other domains. However, owing to their incremental nature, they offer limited gains family of algorithms6 (apart from others like GloVe7) which can learn embeddings for word tokens for NLP tasks. The embedding table generation process is done without having any ground-truth labels, which target word, model inputs, and the label for a given sample text in the CBOW task. 7 GloVe - https://nlp.stanford.edu/projects/glove 6 Mikolov, Tomas, Kai Chen, Greg Corrado, and Jeffrey Dean. "Efficient

0 码力 | 53 页 | 3.92 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

达观专注于人工智能中的文本处理细分领域文本处理任务什么是NLP 概念：Natural Language Processing 自然语言处理目的：让机器理解人类的语言，是人工智能领域的重要分支，用于分析、理解和生成自然语言，方便人机交流应用：智能问答，机器翻译，文本分类，文本摘要，标签提取，情感分析，主题模型 NLP发展简史 1950S 1980s 1990s 2006~至今及语料库，使用统计模型，NLP发展产生革新多数自然语言处理系统基于规则，人工修订等方式，包括问答、翻译、搜索等深度学习起步、发展及成熟，同样影响NLP领域，从传统的机器学习逐渐过渡到深度学习 NLP技术层次日常工作中各类常见的文本形式新闻文章企业合同/公文客户评论意见企业产品手册法律/人事/证券等专业文本问答资料 02 深度学习与NLP 深度学习发展与应用 http://colah.github.io/posts/2015-08-Understanding-LSTMs/ 1，单元状态丢弃 2，新信息选择 3，单元状态更新 4，确定输出使用深度学习解决NLP问题 03 深度学习用于各类型文本应用的实践方法文本挖掘各种类型应用的处理框架文本数据结果预处理输出层表示层隐层不同深度学习模型后处理 NER 分词情感分析

0 码力 | 46 页 | 25.61 MB | 1 年前
3
Moonshot AI 介绍

欢迎关注公众号，了解更多动态公司亮点 1.团队拥有世界级的⼈才密度： a. 创始⼈杨植麟是中国35岁以下NLP领域引⽤最⾼的研究者，Transformer-XL和XLNet两篇重要论⽂的第⼀作者；两位联合创始⼈周昕宇和吴育昕都有10000+的GoogleScholar引⽤。 b. 团队成员囊括NLP,CV,RL（强化学习）,Infra⽅⾯新⽣代⼈才，主导了很多有世界影响⼒的⼯作，是个很综合的事情，今年市场上有⼀些热度，会吸引各种背景的⼈，这个很重要，因为如果只有单⼀背景，很难做好，市场上各种⼈才流动是很重要的。举个例⼦，现在所谓的AGI技术，背后其实有NLP（⾃然语⾔处理）的部分，有ComputerVision （计算机视觉），有RL（强化学习），有做对⻬的，还要有很好的基础设施，要有写Kernel的，这是⼀个⾮常全栈的东西，光是技术就访谈｜邓咏仪杨轩陈紫冰⽂｜邓咏仪编辑｜杨轩苏建勋来源｜智能涌现（ID：AIEmergence）站在核爆中⼼圈，是⼀种什么样的体验？在这次ChatGPT引发的AI⼤爆炸中，做了⼗年堪称冷⻔的NLP（⾃然语⾔处理）的杨植麟，就处在这样⼀个位置。这位保送清华、程序设计课程满分的“少年天才”，在卡耐基梅隆⼤学读博⼠时，就已经作为第⼀作者发表的关于Transformer-XL与XLNet的两

0 码力 | 74 页 | 1.64 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

GPT-1：借助预训练，进行无监督训练和有监督微调 ◼ GPT-1模型基于Transformer解除了顺序关联和依赖性的前提，采用生成式模型方式，重点考虑了从原始文本中有效学习的能力，这对于减轻自然语言处理（NLP）中对监督学习的依赖至关重要 ✓ GPT（Generative Pre-training Transformer）于2018年6月由OpenAI首次提出。GPT模型考虑到在自然语言理解中有大量不同的任并且在其之外无法很好地泛化。 • 微调模型在特定基准上的性能，即使名义上是人类水平，也可能夸大基础任务的实际性能。存在的问题03：因为人类学习大多数语言任务不需要大型受监督的数据集，当前NLP技术在概念上具有一定的局限性。存在的问题01：从实用的角度来看，每一项新任务都需要一个标记示例的大数据集，这限制了语言模型的适用性；对于其中的许多任务（从纠正语法到生成抽象概念的示例，再到评论一个短篇 GPT-3利用了过滤前45TB的压缩文本，在诸多NLP数据集中实现了强大性能 ✓ GPT-3是一个具有1750亿个参数的自回归语言模型，比之前的任何非稀疏语言模型多10倍。对于所有任务（在few-shot设置下测试其性能），GPT-3都是在没有任何梯度更新或微调的情况下应用的，仅通过与模型的文本交互来指定任务和few-shot演示。 ✓ GPT-3在许多NLP数据集上都有很强的性能（包括翻译、问题

0 码力 | 44 页 | 2.36 MB | 1 年前
3
2022年美团技术年货合辑

AutoGraph 比赛链接：https://www.automl.ai/competitions/3 招聘信息美团到店广告平台算法团队立足广告场景，探索深度学习、强化学习、人工智能、大数据、知识图谱、NLP 和计算机视觉前沿的技术发展，探索本地生活服务电商的价值。主要工作方向包括： ● 触发策略：用户意图识别、广告商家数据理解，Query 改写，深度匹配，相关性建模。 ● 质量预估：广量预估、预算分配。 ● 创意优化：智能创意设计。广告图片、文字、团单、优惠信息等展示创意的优化。算法 < 65 岗位要求： ● 有三年以上相关工作经验，对 CTR/CVR 预估、NLP、图像理解、机制设计至少一方面有应用经验。 ● 熟悉常用的机器学习、深度学习、强化学习模型。 ● 具有优秀的逻辑思维能力，对解决挑战性问题充满热情，对数据敏感，善于分析 / 解决问题。等开源框架大幅提升了图神经网络的训练速度，并且算法 < 67 降低了资源消耗 [17][18]，拥有活跃的社区支持。很多公司根据自身业务特点，也纷纷建设自有的图神经网络框架。美团搜索与 NLP 团队在长期的落地实践中，总结实践经验，在训练的规模和性能、功能的丰富性、易用性等方面进行了大量优化。本文首先介绍我们在过往落地应用中遇到的实际问题和挑战，然后再介绍具体的解决方案。 1.1

0 码力 | 1356 页 | 45.90 MB | 1 年前
3
《Efficient Deep Learning Book》[EDL] Chapter 1 - Introduction

Growth of parameters in Computer Vision and NLP models over time. (Data Source) We have seen a similar effect in the world of Natural Language Processing (NLP) (see Figure 1-2), where the Transformer architecture benchmark. Subsequently models like BERT4 and GPT5 models have demonstrated additional improvements on NLP-related tasks. BERT spawned several related model architectures optimizing its various aspects. GPT-3 over the Transformer Encoder architecture that is the leading architecture being used for complex NLP tasks such as translation. The NAS generated architecture, which is named Evolved Transformer8, achieves

0 码力 | 21 页 | 3.17 MB | 1 年前
3

共 52 条前往

页

分类

语言

格式