1 藤井美娜 Python的NLP实战分享 如何实现合同风险预测模型
Python的NLP实战分享 如何实现合同风险预测模型? GVA TECH Co., Ltd 藤井美娜 自我介绍 2% |# | self-introduction • Machine Learning Engineer / Data Scientist • GVA TECH的人工智能法律服务AI-CON的多语言系统 开发负责人 inazo18 藤井美娜 目录 CONTENTS CONTENTS 1. Python NLP 入门 2. 多语言NLP攻略 3.“合同风险预测模型”实战经验分享 4. 总结 5% |### | today’s topic 1 Python NLP 入门 简单介绍自然语言处理的流程和使用corpus的EDA方法。 8% |##### | section1 NLP基础 11% |######### | section1 收集语料 前处理 施事者和受事者都会有助词标记, 可以根据助词推测句法结构。 | section2 3“合同风险预测模型” 实战经验分享 64% |################################################################## | section3 什么叫“合同风险预测”? 68% |###################################0 码力 | 36 页 | 3.95 MB | 1 年前33 Python的NLP实战分享 如何实现合同风险预测模型 藤井美娜
Python的NLP实战分享 如何实现合同风险预测模型? GVA TECH Co., Ltd 藤井美娜 自我介绍 2% |# | self-introduction • Machine Learning Engineer / Data Scientist • GVA TECH的人工智能法律服务AI-CON的多语言系统 开发负责人 inazo18 藤井美娜 目录 CONTENTS CONTENTS 1. Python NLP 入门 2. 多语言NLP攻略 3.“合同风险预测模型”实战经验分享 4. 总结 5% |### | today’s topic 1 Python NLP 入门 简单介绍自然语言处理的流程和使用corpus的EDA方法。 8% |##### | section1 NLP基础 11% |####### | section1 收集语料 前处理 分词 施事者和受事者都会有助词标记, 可以根据助词推测句法结构。 | section2 3“合同风险预测模型” 实战经验分享 64% |################################################################## | section3 什么叫“合同风险预测”? 68% |###################################0 码力 | 33 页 | 1.67 MB | 1 年前301. 邓良驹 编写更安全的Python代码
user.balance >= product.price: user.balance -= product.price ? 目录 CONTENTS 常见不安全代码 代码检查的工具 总结:如何规避风险 常见不安全代码 小心 eval 应对: 在生产环境中,任何情况下都不要使用eval。 import sys def run(s): try: v = eval(s) except Exception 使用较新版本的Python3。Python2中可改用raw_input。 小心类型溢出 应对: 使用较新版本的Python3,而不使用发行版OS自带的旧版Python。 捕获并处理溢出错误,可以减少风险。在重要的位置做好防御式 编程,检查好入参的类型与合法的上下限。 >>> range(100**100) Traceback (most recent call last): File "" 依赖包 不要以为 Star 多的包就不存在漏洞; 更不要以为 PyPI 源中的包就不存在恶意代码; 不要以为你import的就是你实际要import的*; 每个 PyPI 包都可能存在前述所有风险点, 有的甚至是故意、恶意为之。 应对: 谨慎选择第三方 PyPI 包,尽量少导入 PyPI 包; 利用 https://pyup.io/ 等服务保持检查和更新依赖; 利用 Chef InSpect 0 码力 | 18 页 | 988.40 KB | 1 年前32 张孝峰 Python与云 AWS的Python原生应用浅析
Cluster 应用负载均衡器 OAuth Task Weather Task Portal Task 12要素应用宣言 尽可能利用现代化的云平台 • 无需猜测容量 • 快速创新,低风险试错 • 摆脱无差异化的工作 • 数分钟全球化部署 Infrastructure as Code AWS CloudFormation 这个样例模板,通过500多行JSON代码完整的描述了一个LAMP网站0 码力 | 42 页 | 8.12 MB | 1 年前3Hello 算法 1.0.0b4 Python版
用数组或链表实现,那么通常比哈希表更快。这是因为哈希函数计算需要开销,时间复杂度的 常数项更大。 最后,哈希表的时间复杂度可能发生劣化。例如在链式地址中,我们采取在链表或红黑树中执 行查找操作,仍然有退化至 ?(?) 时间的风险。 6. 散列表 hello‑algo.com 105 � 多次哈希有不能直接删除元素的缺陷吗?对于标记已删除的空间,这个空间还能再次使用吗? 多次哈希是开放寻址的一种,开放寻址法都有不能直接删除元素的缺陷,需要通过标记删除。 适合对查询性能要求很高的场景,平均时间复杂度为 ?(1) 。 ‧ 不适合需要有序数据或范围查找的场景,因为哈希表无法维护数据的有序性。 ‧ 对哈希函数和哈希冲突处理策略的依赖性较高,具有较大的性能劣化风险。 ‧ 不适合数据量过大的情况,因为哈希表需要额外空间来最大程度地减少冲突,从而提供良好的查询性 能。 树查找 ‧ 适用于海量数据,因为树节点在内存中是离散存储的。 ‧ 适合需要维护有序数据或范围查找的场景。0 码力 | 329 页 | 27.34 MB | 1 年前3Python 标准库参考指南 3.7.13
象的值并将退出状态码设为一。 对sys.exit() 的调用会被转换为一个异常以便能执行清理处理程序 (try 语句的 finally 子 句),并且使得调试器可以执行一段脚本而不必冒失去控制的风险。如果绝对确实地需要立即退出 (例如在调用os.fork() 之后的子进程中)则可使用os._exit(). code 传给构造器的退出状态码或错误信息(默认为 None。) exception module 和 name 参数都是str 对象。注意,不要被这个函数的名字迷惑,find_class() 同样可以用来导入函数。 子类可以重载此方法,来控制加载对象的类型和加载对象的方式,从而尽可能降低安全风险。 参阅限制全局变量 获取更详细的信息。 12.1.4 可以被打包/解包的对象 下列类型可以被打包: • None、True 和 False • 整数、浮点数、复数 • str、byte、bytearray 新的时候。 15.3.3 其他功能 secrets.compare_digest(a, b) 如果字符串 a 与 b 相等则返回 True,否则返回 False,该处理方式可降低 定时攻击 的风险。请 参阅hmac.compare_digest() 了解更多细节。 15.3.4 应用技巧与最佳实践 本节展示了一些使用secrets 来管理基本安全级别的应用技巧和最佳实践。 生成长度为八个字符的字母数字密码:0 码力 | 1846 页 | 9.09 MB | 9 月前3Python 标准库参考指南 3.7.13
象的值并将退出状态码 设为一。 对sys.exit() 的调用会被转换为一个异常以便能执行清理处理程序 (try 语句的 finally 子句), 并且使得调试器可以执行一段脚本而不必冒失去控制的风险。如果绝对确实地需要立即退出(例如在 调用os.fork() 之后的子进程中)则可使用os._exit(). code 传给构造器的退出状态码或错误信息(默认为 None。) exception 和 name 参数都是str 对 象。注意,不要被这个函数的名字迷惑,find_class() 同样可以用来导入函数。 子类可以重载此方法,来控制加载对象的类型和加载对象的方式,从而尽可能降低安全风险。参 阅限制全局变量 获取更详细的信息。 12.1. pickle ——Python 对象序列化 393 The Python Library Reference, 发布 3.7.13 12.1 新的时候。 15.3.3 其他功能 secrets.compare_digest(a, b) 如果字符串 a 与 b 相等则返回 True,否则返回 False,该处理方式可降低 定时攻击 的风险。请参 阅hmac.compare_digest() 了解更多细节。 510 Chapter 15. 加密服务 The Python Library Reference, 发布 3.7.13 150 码力 | 1961 页 | 9.14 MB | 9 月前3Hello 算法 1.1.0 Python版
现,那么通常比哈希表更快。这是因为哈希函数计算需要开销,时间复杂度的常数项更大。 最后,哈希表的时间复杂度可能发生劣化。例如在链式地址中,我们采取在链表或红黑树中执行查找操作, 仍然有退化至 ?(?) 时间的风险。 Q:多次哈希有不能直接删除元素的缺陷吗?标记为已删除的空间还能再次使用吗? 多次哈希是开放寻址的一种,开放寻址法都有不能直接删除元素的缺陷,需要通过标记删除。标记为已删除 的空间可以再次使 适合对查询性能要求很高的场景,平均时间复杂度为 ?(1) 。 ‧ 不适合需要有序数据或范围查找的场景,因为哈希表无法维护数据的有序性。 ‧ 对哈希函数和哈希冲突处理策略的依赖性较高,具有较大的性能劣化风险。 ‧ 不适合数据量过大的情况,因为哈希表需要额外空间来最大程度地减少冲突,从而提供良好的查询性 能。 树查找 ‧ 适用于海量数据,因为树节点在内存中是分散存储的。 ‧ 适合需要维护有序数据或范围查找的场景。0 码力 | 364 页 | 18.42 MB | 1 年前3Hello 算法 1.0.0b5 Python版
用数组或链表实现,那么通常比哈希表更快。这是因为哈希函数计算需要开销,时间复杂度的 常数项更大。 最后,哈希表的时间复杂度可能发生劣化。例如在链式地址中,我们采取在链表或红黑树中执 行查找操作,仍然有退化至 ?(?) 时间的风险。 � 多次哈希有不能直接删除元素的缺陷吗?对于标记已删除的空间,这个空间还能再次使用吗? 多次哈希是开放寻址的一种,开放寻址法都有不能直接删除元素的缺陷,需要通过标记删除。 被标记为已删除的 适合对查询性能要求很高的场景,平均时间复杂度为 ?(1) 。 ‧ 不适合需要有序数据或范围查找的场景,因为哈希表无法维护数据的有序性。 ‧ 对哈希函数和哈希冲突处理策略的依赖性较高,具有较大的性能劣化风险。 ‧ 不适合数据量过大的情况,因为哈希表需要额外空间来最大程度地减少冲突,从而提供良好的查询性 能。 树查找 ‧ 适用于海量数据,因为树节点在内存中是离散存储的。 ‧ 适合需要维护有序数据或范围查找的场景。0 码力 | 361 页 | 30.64 MB | 1 年前3Hello 算法 1.0.0 Python版
现,那么通常比哈希表更快。这是因为哈希函数计算需要开销,时间复杂度的常数项更大。 最后,哈希表的时间复杂度可能发生劣化。例如在链式地址中,我们采取在链表或红黑树中执行查找操作, 仍然有退化至 ?(?) 时间的风险。 Q:多次哈希有不能直接删除元素的缺陷吗?标记为已删除的空间还能再次使用吗? 多次哈希是开放寻址的一种,开放寻址法都有不能直接删除元素的缺陷,需要通过标记删除。标记为已删除 的空间可以再次使 适合对查询性能要求很高的场景,平均时间复杂度为 ?(1) 。 ‧ 不适合需要有序数据或范围查找的场景,因为哈希表无法维护数据的有序性。 ‧ 对哈希函数和哈希冲突处理策略的依赖性较高,具有较大的性能劣化风险。 ‧ 不适合数据量过大的情况,因为哈希表需要额外空间来最大程度地减少冲突,从而提供良好的查询性 能。 树查找 ‧ 适用于海量数据,因为树节点在内存中是分散存储的。 ‧ 适合需要维护有序数据或范围查找的场景。0 码力 | 362 页 | 17.54 MB | 1 年前3
共 30 条
- 1
- 2
- 3