Scrapy 0.22 Documentation
926.97 KB
199 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
这份文档详细介绍了Scrapy框架的功能、使用方法及版本更新信息。Scrapy是一个用于抓取网站并提取结构化数据的应用框架,支持通过API或网页抓取实现数据获取。文档涵盖了Scrapy的核心功能,如命令行工具的使用、Item类的定义、Spider的创建以及Middleware的扩展能力。此外,文档还列出了版本0.22.0的新特性和改进,包括HTTP缓存中间件的更改、Ajax页面抓取支持、新命令行工具的功能扩展等内容。 | ||
AI总结 | ||
《Scrapy 0.22 Documentation》主要介绍了Scrapy框架的功能、用法以及版本0.22.0的新特性和改进。以下是该文档的核心内容总结:
---
### **1. Scrapy 简介**
Scrapy是一个用于抓取网站并提取结构化数据的应用框架,适用于数据挖掘、信息处理等多种场景。它支持通过API或网页抓取提取数据,并提供了灵活的扩展机制和丰富的内置功能。
主要特性包括:
- 扩展性:通过中间件、中间人和管道扩展功能。
- 内置功能:支持HTTP缓存、用户代理伪装、爬取限制等。
- 开发工具:提供交互式 shell、Telnet 控制台和内置 Web 服务。
- 灵活性:支持多种数据格式和编码自动检测。
---
### **2. 版本 0.22.0 的新特性和改进**
版本 0.22.0 引入了多项backward-incompatible的改进,包括:
- **HTTPCacheMiddleware**:默认后端改为文件系统存储。
- 支持通过CONNECT方法代理HTTPS链接。
- 新增中间件以抓取Google定义的可 Ajax 抓取页面。
- 重命名 `BaseSpider` 为 `Spider`。
- 优化测试覆盖率,支持即将到来的 Python 3。
- 提供更好的设置和中间件启动信息日志。
此外,还包含多项 Bug 修复和文档改进。
---
### **3. 安装与快速上手**
- **前提条件**:Python 2.7 和 lxml 库。
- **命令行工具**:
- `scrapy deploy`:部署项目到 Scrapyd 服务器。
- `scrapy bench`:运行快速基准测试。
- `scrapy parse`:解析网页内容。
- `scrapy runspider`:运行单个爬虫文件。
- **自定义命令**:通过 `COMMANDS_MODULE` 设置添加自定义命令。
---
### **4. 核心概念**
- **Items**:用于存储爬取的结构化数据,提供字典样式 API,支持自定义字段。
```python
from scrapy.item import Item, Field
class Product(Item):
name = Field()
price = Field()
stock = Field()
```
- **爬虫(Spiders)**:
- 通过 `CrawlSpider` 定义规则抓取页面。
- 支持 CSS 和 XPath 表达式提取数据。
- 自动处理链接和表单。
---
### **5. 高级功能**
- **中间件**:可自定义处理请求和响应。
- **扩展(Extensions)**:提供附加功能,如调整爬取速率。
- **管道(Pipelines**:处理已提取的数据,如存储到数据库或文件中。
---
### **6. 爬取示例**
- 爬取 Mininova 网站的种子信息,定义 `TorrentItem` 类:
```python
class TorrentItem(Item):
url = Field()
name = Field()
description = Field()
size = Field()
```
---
### **7. 获取帮助**
- **资源**:FAQ、邮件列表、IRC 频道和问题追踪系统。
- **命令行工具**:`scrapy settings` 查看配置,`scrapy version` 查看版本信息。
---
该版本的 Scrapy 进一步优化了功能和性能,适合用于生产环境的自动化抓取任务。用户可以通过文档和社区资源快速上手并扩展其功能。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
192 页请下载阅读 -
文档评分