Scrapy 1.2 Documentation
1.10 MB
266 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .pdf | 3 |
摘要 | ||
文档详细介绍了Scrapy框架的功能和配置,包括HTTP请求和响应的处理、链接提取器的使用、设置的配置以及异常处理。文档还涵盖了Scrapy的版本更新日志、常见问题解决方案以及Scrapy的设计理念。同时,文档提到了Scrapy对Python版本的支持情况、HTTP代理的使用、模拟用户登录的方法等。 | ||
AI总结 | ||
以下是对《Scrapy 1.2 Documentation》的中文总结,语言简洁明了,重点突出核心观点和关键信息:
---
### 一、基本概念
1. **HTTP请求与响应**
- Scrapy使用特定类来表示HTTP请求(`Request`)和响应(`Response`)。
- `Response`对象包含HTML内容、编码、状态码等信息。
2. **链接提取器(Link Extractors)**
- 提供便捷的类用于从页面中提取链接。
- 常用于后续的爬取 작업。
3. **设置(Settings)**
- 通过设置参数(如`CONCURRENT_REQUESTS`、`DOWNLOAD_DELAY`)配置Scrapy。
- 提供了多种设置选项来优化爬虫性能和行为。
4. **异常(Exceptions)**
- 列举了Scrapy内置的所有异常及其用途。
- 如`DropItem`异常用于停止处理某个Item。
---
### 二、请求与响应
- 请求(`Request`)包含目标URL、发送请求的方法、 headers、cookies等信息。
- 响应(`Response`)包含服务器返回的内容、状态码、编码等信息。
---
### 三、链接提取器
- 提供了从页面中提取链接的便捷方法。
- 常用于后续的爬取工作。
---
### 四、设置
- 通过设置参数来配置Scrapy的行为。
- 常用设置包括:
- `CONCURRENT_REQUESTS`: 并发请求数。
- `DOWNLOAD_DELAY`: 下载延迟。
- `COOKIES_ENABLED`: 是否启用cookies。
- `USER_AGENT`: 用户代理。
---
### 五、异常
- 列举了Scrapy内置的所有异常及其用途:
- `DropItem`: 由Item管道阶段抛出,用于停止处理某个Item。
- 其他异常如`RetryException`用于处理重试逻辑。
---
### 六、常见问题解决
- **Scrapy是否支持HTTP代理?**
- 支持,通过`HttpProxyMiddleware`实现。
- **如何抓取分页数据?**
- 使用`meta`传递数据,详见“Passing additional data to callback functions”。
- **Scrapy在Windows上是否支持Python 3?**
- 目前不支持。
- **如何模拟用户登录?**
- 使用`FormRequest.from_response()`模拟表单提交。
---
### 七、版本更新
- **Scrapy 1.2.3**(2017-03-03):修复了Twisted版本支持问题。
- **Scrapy 1.2.2**(2016-12-06):修复了多个Bug,包括:
-[Interrupted pipeline traceback问题。
- robots.txt处理问题。
- IPython shell变量问题。
- **文档更新**:新增了对`download_latency`的说明,并修复了多处拼写错误。
---
### 八、技术支撑
- **支持的Python版本**:
- Python 2.7 和 Python 3.3+(Windows暂不支持Python 3)。
- **灵感来源**:
- Scrapy从Django等项目获取灵感,以避免重复劳动。
---
以上是《Scrapy 1.2 Documentation》的核心内容总结,涵盖了基础概念、设置、异常、常见问题解决方案及版本更新等关键信息。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
259 页请下载阅读 -
文档评分