pdf文档 Scrapy 0.22 Documentation

926.97 KB 199 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
这份文档详细介绍了Scrapy框架的功能、使用方法及版本更新信息。Scrapy是一个用于抓取网站并提取结构化数据的应用框架,支持通过API或网页抓取实现数据获取。文档涵盖了Scrapy的核心功能,如命令行工具的使用、Item类的定义、Spider的创建以及Middleware的扩展能力。此外,文档还列出了版本0.22.0的新特性和改进,包括HTTP缓存中间件的更改、Ajax页面抓取支持、新命令行工具的功能扩展等内容。
AI总结
《Scrapy 0.22 Documentation》主要介绍了Scrapy框架的功能、用法以及版本0.22.0的新特性和改进。以下是该文档的核心内容总结: --- ### **1. Scrapy 简介** Scrapy是一个用于抓取网站并提取结构化数据的应用框架,适用于数据挖掘、信息处理等多种场景。它支持通过API或网页抓取提取数据,并提供了灵活的扩展机制和丰富的内置功能。 主要特性包括: - 扩展性:通过中间件、中间人和管道扩展功能。 - 内置功能:支持HTTP缓存、用户代理伪装、爬取限制等。 - 开发工具:提供交互式 shell、Telnet 控制台和内置 Web 服务。 - 灵活性:支持多种数据格式和编码自动检测。 --- ### **2. 版本 0.22.0 的新特性和改进** 版本 0.22.0 引入了多项backward-incompatible的改进,包括: - **HTTPCacheMiddleware**:默认后端改为文件系统存储。 - 支持通过CONNECT方法代理HTTPS链接。 - 新增中间件以抓取Google定义的可 Ajax 抓取页面。 - 重命名 `BaseSpider` 为 `Spider`。 - 优化测试覆盖率,支持即将到来的 Python 3。 - 提供更好的设置和中间件启动信息日志。 此外,还包含多项 Bug 修复和文档改进。 --- ### **3. 安装与快速上手** - **前提条件**:Python 2.7 和 lxml 库。 - **命令行工具**: - `scrapy deploy`:部署项目到 Scrapyd 服务器。 - `scrapy bench`:运行快速基准测试。 - `scrapy parse`:解析网页内容。 - `scrapy runspider`:运行单个爬虫文件。 - **自定义命令**:通过 `COMMANDS_MODULE` 设置添加自定义命令。 --- ### **4. 核心概念** - **Items**:用于存储爬取的结构化数据,提供字典样式 API,支持自定义字段。 ```python from scrapy.item import Item, Field class Product(Item): name = Field() price = Field() stock = Field() ``` - **爬虫(Spiders)**: - 通过 `CrawlSpider` 定义规则抓取页面。 - 支持 CSS 和 XPath 表达式提取数据。 - 自动处理链接和表单。 --- ### **5. 高级功能** - **中间件**:可自定义处理请求和响应。 - **扩展(Extensions)**:提供附加功能,如调整爬取速率。 - **管道(Pipelines**:处理已提取的数据,如存储到数据库或文件中。 --- ### **6. 爬取示例** - 爬取 Mininova 网站的种子信息,定义 `TorrentItem` 类: ```python class TorrentItem(Item): url = Field() name = Field() description = Field() size = Field() ``` --- ### **7. 获取帮助** - **资源**:FAQ、邮件列表、IRC 频道和问题追踪系统。 - **命令行工具**:`scrapy settings` 查看配置,`scrapy version` 查看版本信息。 --- 该版本的 Scrapy 进一步优化了功能和性能,适合用于生产环境的自动化抓取任务。用户可以通过文档和社区资源快速上手并扩展其功能。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 192 页请下载阅读 -
文档评分
请文明评论,理性发言.