文本分类 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

9 盛泳潘 When Knowledge Graph meet Python

Knowledge Graph – 智慧搜索本页PPT借鉴于复旦大学肖仰华老师《大数据时代的知识工程与知识管理》  精准搜索意图理解 • 精准分类 • 语义理解 • 个性化  Why knowledge graphs? • 表格、文本、图片、视频 • 文案、素材、代码、专家  多粒度搜索 • 篇章级、段落级、语句级  跨媒体搜索 • 不同媒体数据联合完成搜索任务一切皆可搜索，搜索必达半结构化的数据（工业界常用） • 非结构化的数据（学术界常用）  知识抽取 • 限定域关系抽取（判别的语义关系是预先定义的）输入一个句子以及标识句子中所出现的实体指称的条件下，系统将其分类到所属的语义类别上（已有研究常把这一任务看成是一个文本分类问题）。 • 开放域关系抽取（不需要预先定义关系，而是使用实体上下文中的一些词语来描述实体之间的关系） e.g., 在语句“姚明出身在上海”中，通过开放域关系抽取方法抽取出的结果为（姚明，出生于，上海） large-scale KG construction 信息抽取方法相对简单，数据噪声小，经过人工过滤后能够得到高质量的三元组事实。涉及的NLP分析与处理技术，难度较大。互联网的更多信息都是以非结构化的文本形式存在的。  基于模板的关系抽取 e.g., 用以下模板表示收购关系（acquisition） X is acquired by Y X is purchased by Y X is bought

0 码力 | 57 页 | 1.98 MB | 1 年前
3
1_丁来强_开源AIOps数据中台搭建与Python的作用

各种数据样式： • Log、Tracking、Event；Metrics、IoT data；⽹网络数据； • ⽂文本、⼯工单、知识库；API；代码等 • ⼤大数据的3V（容量量、变化、种类）数据类型⽐比较数据类型与⽐比较⽇日志 Tracking 指标⽂文本数据格式⾮非结构化半结构化，数据关联结构化（聚集）⾮非结构化数据量量⼤大较⼤大⼀一般到极⼤大（IoT) 加⼯工难度较难⼀一般简单较难价值⾼高（尤其安全）⾼高随着时间推移变低⽐比较⾼高数据之间的重叠数据中台的处理理 • 海海量量多样数据的存储/索引： • 时序指标数据、⽂文本数据、⽇日志、⽹网络数据、Tracking等 • 各种分析的⽀支持： • 流式分析：流式或微批实时处理理 • 统计关联分析：多维度的实时关联统计与分析⽀支持，⽀支持交互式add-hoc⽅方式增强点描述统计性分析基于IT实体与数据，在单维、多维变量量上的关联、聚类、分类和推断。⾃自动模式发现与预测基于历史数据⾃自动探索出数学与结构化模式，并⽤用于各种可能维度的预测。异常检测基于模式识别正常⾏行行为与异常⾏行行为。根因判断修剪⽹网络并提供有效问题的关系链接。规范性建议对问题进⾏行行分类，并基于过去⽅方案提供有效建议。拓拓扑提供拓拓扑能⼒力力强化上下⽂文与前述的准确度

0 码力 | 48 页 | 17.54 MB | 1 年前
3
Flask入门教程

Watchlist 部署到互联网上，让任何人都可以访问。讨论与反馈如果你有任何疑问和想法，欢迎通过下面的方式提出：在 HelloFlask 论坛发布帖子，并选择“Flask 入门教程”分类。在专栏对应的连载文章下面撰写评论。在源码仓库创建 Issue。相关资源本书主页：http://helloflask.com/tutorial 本书论坛：https://discuss pipenv install python-dotenv 当 python-dotenv 安装后，Flask 会从项目根目录的 .flaskenv 和 .env 文件读取环境变量并设置。我们分别使用文本编辑器创建这两个文件，或是使用更方便的 touch 命令创建： $ touch .env .flaskenv 第 2 章：Hello, Flask! 17 .flaskenv 用来存储面。因为我们的程序是动态的，页面中的某些信息需要根据不同的情况来进行调整，比如对登录和未登录用户显示不同的信息，所以页面需要在用户访问时根据程序逻辑动态生成。我们把包含变量和运算逻辑的 HTML 或其他格式的文本叫做模板，执行这些变量替换和逻辑计算工作的过程被称为渲染，这个工作由我们这一章要学习使用的模板渲染引擎——Jinja2 来完成。按照默认的设置，Flask 会从程序实例所在模块同级目录的

0 码力 | 127 页 | 7.62 MB | 1 年前
3
Hello 算法 1.0.0b4 Python版

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3. 数据结构 36 3.1. 数据结构分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.2. 基本数据类型 . . . . 2. 内容结构本书主要内容包括： ‧ 复杂度分析：数据结构和算法的评价维度，算法效率的评估方法。时间复杂度、空间复杂度的推算方法、常见类型、示例等。 ‧ 数据结构：基本数据类型，数据结构的分类方法。数组、链表、栈、队列、散列表、树、堆、图等数据结构的定义、优缺点、常用操作、常见类型、典型应用、实现方法等。 ‧ 算法：搜索、排序、分治、回溯、动态规划、贪心等算法的定义、优缺点、效率、应用场景、解题步骤、照“艾宾浩斯遗忘曲线”来复习题目，通常在进行 3‑5 轮的重复后，就能将其牢记在心。 3. 搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。作为一本入门教程，本书内容主要涵盖“第一阶段”，旨在帮助你更高效地展开第二和第三阶段的学习。 Figure 0‑7. 算法学习路线

0 码力 | 329 页 | 27.34 MB | 1 年前
3
Hello 算法 1.1.0 Python版

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 第 3 章数据结构 49 3.1 数据结构分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2 基本数据类型 . . . . 2 内容结构本书的主要内容如图 0‑1 所示。 ‧ 复杂度分析：数据结构和算法的评价维度与方法。时间复杂度和空间复杂度的推算方法、常见类型、示例等。 ‧ 数据结构：基本数据类型和数据结构的分类方法。数组、链表、栈、队列、哈希表、树、堆、图等数据结构的定义、优缺点、常用操作、常见类型、典型应用、实现方法等。 ‧ 算法：搜索、排序、分治、回溯、动态规划、贪心等算法的定义、优缺点、效率、应用场景、解题步骤刷题计划请见此 GitHub 仓库。 3. 阶段三：搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑8 所示，本书内容主要涵盖“阶段一”，旨在帮助你更高效地展开阶段二和阶段三的学习。第 0 章前言 hello‑algo

0 码力 | 364 页 | 18.42 MB | 1 年前
3
Hello 算法 1.0.0b5 Python版

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 第 3 章数据结构 47 3.1 数据结构分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 3.2 基本数据类型 . . . . 2 内容结构本书主要内容如图 0‑1 所示。 ‧ 复杂度分析：数据结构和算法的评价维度与方法。时间复杂度、空间复杂度的推算方法、常见类型、示例等。 ‧ 数据结构：基本数据类型，数据结构的分类方法。数组、链表、栈、队列、哈希表、树、堆、图等数据结构的定义、优缺点、常用操作、常见类型、典型应用、实现方法等。 ‧ 算法：搜索、排序、分治、回溯、动态规划、贪心等算法的定义、优缺点、效率、应用场景、解题步骤、照“艾宾浩斯遗忘曲线”来复习题目，通常在进行 3‑5 轮的重复后，就能将其牢记在心。 3. 搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑7 所示，本书内容主要涵盖“第一阶段”，旨在帮助你更高效地展开第二和第三阶段的学习。第 0 章前言 hello‑algo

0 码力 | 361 页 | 30.64 MB | 1 年前
3
Hello 算法 1.0.0 Python版

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 第 3 章数据结构 49 3.1 数据结构分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2 基本数据类型 . . . . 2 内容结构本书的主要内容如图 0‑1 所示。 ‧ 复杂度分析：数据结构和算法的评价维度与方法。时间复杂度和空间复杂度的推算方法、常见类型、示例等。 ‧ 数据结构：基本数据类型和数据结构的分类方法。数组、链表、栈、队列、哈希表、树、堆、图等数据结构的定义、优缺点、常用操作、常见类型、典型应用、实现方法等。 ‧ 算法：搜索、排序、分治、回溯、动态规划、贪心等算法的定义、优缺点、效率、应用场景、解题步骤 3～5 轮的重复后，就能将其牢记在心。 3. 阶段三：搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑8 所示，本书内容主要涵盖“阶段一”，旨在帮助你更高效地展开阶段二和阶段三的学习。第 0 章前言 hello‑algo

0 码力 | 362 页 | 17.54 MB | 1 年前
3
Django 官方教程翻译项目

Django 寻找名为 urlpatterns 变量并且按序遍历正则表达式。Django 找到匹配的正则表达式 ‘^polls/‘ 然后 Django 将会去除被匹配的部分（polls/）,然后发送剩下的文本 —— “34/” —— 给 “polls.urls” 这个 URLconf 做进一步处理。然后找到匹配的正则表达式 r’^(?P[0- 9]+)/$’，随后用以下方式调用 detail() 函数： t object>, question_id='34') question_id=’34’ 这一部分是由 (?P[0-9+]) 产生的。使用括号来包围一部分模式，就可以“捕获”这部分所匹配到的文本，随后作为参数被传递给视图函数；?P 用于定义匹配部分的名字；[0-9]+ 是用于匹配一连串数字（也就是所有整数）的正则表达式。因为 URL 模式本质上是正则表达式，所以不会有规定限制你如何使用它们。还有，没必要为每个头排序（column-header-ordering）可以完美结合，一起工作。显然，左上角有个“Django 管理系统（Django administration）”看起来非常滑稽，它其实只是个占位文本而已。你可以轻易地修改它 - 通过使用 Django 模板系统。Django 管理页面是 Django 自身提供的，它的界面使用的是 Django 的模板系统。在你的项目文件夹（manage

0 码力 | 103 页 | 1.86 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 Python 版

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 第 3 章数据结构 49 3.1 数据结构分类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 3.2 基本数据类型 . . . . 2 内容结构本书的主要内容如图 0‑1 所示。 ‧ 复杂度分析：数据结构和算法的评价维度与方法。时间复杂度和空间复杂度的推算方法、常见类型、示例等。 ‧ 数据结构：基本数据类型和数据结构的分类方法。数组、链表、栈、队列、哈希表、树、堆、图等数据结构的定义、优缺点、常用操作、常见类型、典型应用、实现方法等。 ‧ 算法：搜索、排序、分治、回溯、动态规划、贪心等算法的定义、优缺点、效率、应用场景、解题步骤刷题计划请见此 GitHub 仓库。 3. 阶段三：搭建知识体系。在学习方面，我们可以阅读算法专栏文章、解题框架和算法教材，以不断丰富知识体系。在刷题方面，可以尝试采用进阶刷题策略，如按专题分类、一题多解、一解多题等，相关的刷题心得可以在各个社区找到。如图 0‑8 所示，本书内容主要涵盖“阶段一”，旨在帮助你更高效地展开阶段二和阶段三的学习。第 0 章前言 www.hello‑algo

0 码力 | 364 页 | 18.43 MB | 9 月前
3
8 4 Deep Learning with Python 费良宏

提供个性化的电子商务体验文档聚类 – 按照文档上下文自动分类欺诈检测 – 发现异常的规律行为，识别和标记欺诈交易推荐引擎客户流失预测 ... 机器学习－学习方式监督学习- 人工干预和验证的要求,算法：Logistic Regression，Back Propagation Neural Network 等。例如：照片分类和标签无监督学习- 无人工干预的要求, 算法: Apr Apriori算法以及k-Means。例如：对于文档的基于上下文的自动分类半监督学习 - 介于监督学习和无监督学习之间，算法: Graph Inference 或者Laplacian SVM 强化学习- 通过观察来学习做成如何的动作, 算法：Q-Learning以及时间差学习机器学习－方法及流程输入特征选择 – 基于什么进行预测目标 – 预测什么预测功能 – 回归、聚类、降维... 一组简单可以训练的数学单元集合，共同学习复杂的功能深度学习－训练深度学习－部署深度学习－数据表现表现层次图片– 像素、主题、部分、轮廓、边缘等等视频– 图像帧、每帧的像素、每一帧的deltas 值等等文本– 字符、词、从句、句子等等语音– 音频、频段、波长、调制等等 ... 深度学习的优势特性自动推导和预期结果的优化调整可变的自动学习的健壮性重用性－相同的神经网络的方法可用于许多应用和数据

0 码力 | 49 页 | 9.06 MB | 1 年前
3

共 157 条前往

页

分类

语言

格式