Scrapy 2.9 Documentation
1.70 MB
409 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
文档详细阐述了Scrapy 2.9的新功能、改进和修复内容,包括新增的每个域下载设置、TextResponse.jmespath()方法、向后兼容性更新,以及安装指南。文档还介绍了Scrapy的核心功能,如中间件、信号、扩展和 asteroid,以及其在Web抓取和数据提取中的应用。 | ||
AI总结 | ||
# Scrapy 2.9 Documentation 总结
## 概述
Scrapy 是一个用于抓取网站和提取结构化数据的应用框架,适用于数据挖掘、信息处理和历史存档等场景。它支持通过 API 提取数据或作为通用网页爬虫使用。
## 主要更新和新功能
### Scrapy 2.9.0
- **新增功能**:
- 每域下载设置:支持通过 `DOWNLOAD_SLOTS` 设置在不同域之间配置 `DOWNLOAD_DELAY`、`CONCURRENT_REQUESTS_PER_DOMAIN` 和 `RANDOMIZE_DOWNLOAD_DELAY`。
- 兼容新加密库和新解析库 Parsel,支持 Parsel 的 JMESPath 选择器。
- 新增 `TextResponse.jmespath()` 方法,用于通过 JMESPath 表达式提取数据。
- 新增 `scrapy.utils.request.request_to_curl()` 方法,可将请求对象转为 curl 命令。
- 支持 `FILES_STORE` 和 `IMAGES_STORE` 使用 `pathlib.Path` 类型。
- 新增 `feed_slot_closed` 和 `feed_exporter_closed` 信号。
- **改进**:
- 自动化测试在 Windows 环境中通过持续集成系统运行。
- 移除了与 Python 2 兼容性的代码,包括 unicode 文本语法和行继续符。
- 更新了 OpenSSL 密码列表格式文档链接。
### Scrapy 2.2.0
- **亮点**:
- Python 3.5.2+ 版本要求。
- 支持 `dataclass` 和 `attrs` 对象作为项类型。
- 新增 `TextResponse.json` 方法。
- 新增 `bytes_received` 信号,允许取消响应下载。
- **向后不兼容的更改**:
- 移除了对 Python 3.5.0 和 3.5.1 的支持。
### Scrapy 2.2.1
- 修复了 `startproject` 命令更改目标文件夹权限的问题。
## 安装指南
- **支持的 Python 版本**:Scrapy 需要 Python 3.7 或更高版本(支持 CPython 和 PyPy 实现)。
- **安装方式**:
- 使用 conda:`conda install -c conda-forge scrapy`
- 使用 pip:`pip install scrapy`,建议在虚拟环境中安装。
## Scrapy 核心功能
- **爬虫(Spider)**:定义如何提取数据和导航网站。
- **调度器(Scheduler)**:管理请求队列和调度请求。
- **下载器(Downloader)**:负责获取网页内容。
- **中间件(Middleware)**:扩展 Scrapy 的功能,例如处理 cookies、修改请求头等。
- **管道(Pipelines)**:用于处理提取的数据,例如存储到数据库或文件中。
## 命令行工具
- `scrapy settings`:获取 Scrapy 设置的值。
- `scrapy runspider`:运行自包含的爬虫脚本,无需创建项目。
- `scrapy version`:显示 Scrapy 版本信息。
- `scrapy bench`:运行快速基准测试。
- `scrapy view`:通过浏览器查看 URL 的内容。
- `scrapy shell`:启动交互式调试环境。
## 其他功能
- Telnet 控制台:用于调试和导入 Scrapy 进程。
- 多线程支持:通过 Twisted 提供高并发能力。
- 内置扩展:包括媒体管道、缓存 DNS 等功能。
## 总结
Scrapy 2.9.0 是一个功能强大且可扩展的网页抓取框架,支持高并发、多线程和灵活的数据处理。其最新版本引入了多个新功能和改进,特别是在支持新技术和优化性能方面。此外,Scrapy 提供了丰富的文档和工具,方便用户快速上手并进行深度定制。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
402 页请下载阅读 -
文档评分