pdf文档 pandas: powerful Python data analysis toolkit - 0.13.1

4.81 MB 1219 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了pandas 0.13.1版本的功能、改进和修复。pandas是一个强大的Python数据分析工具包,支持快速、灵活的数据处理,包括数据清理、分析和可视化。新功能包括date_format和datetime_format属性、改进的rolling统计方法以及API变更,如rename方法重构和新旧方法的转换。此外,文档详细记录了bug修复,如IndexableSkiplist中的错误修复和网络解析问题的解决。pandas广泛应用于金融生产环境,并提供了与R的接口转换。
AI总结
以下是对文档内容的简要总结: --- **《pandas: powerful Python data analysis toolkit - 0.13.1》总结** ### 1. 概述 - **pandas** 是一个功能强大的 Python 数据分析工具包,旨在弥补其他语言/科学研究环境的不足。 - 它适用于数据的清洗、分析、建模和结果整理,是数据科学家理想的多功能工具。 - **pandas** 以其高效著称,许多低级算法部分经过 Cython 优化,但通用性可能略逊于专用工具。 - 它是 **statsmodels** 的依赖,广泛应用于金融领域的生产环境中。 ### 2. 主要功能 - 支持数据重排、移动窗口统计、移动窗口线性回归、日期偏移和延迟等操作。 - 提供丰富的数据结构(Series 和 DataFrame)和高效的数据处理方法。 ### 3. 版本更新(0.13.1) #### 新功能 - 添加了 ExcelWriter 的 date_format 和 datetime_format 属性。 - Series.apply 现支持返回 Series 或 DataFrame。 - 新增了 pandas 选项的 API 函数(如 get_option、set_option、reset_option、describe_option)。 #### 改进 - 单元测试覆盖率达到 100%(核心数据结构)。 - 提升了 rolling_median、rolling_max、rolling_min 的速度。 - DataFrame 和 DataMatrix 的列顺序现一致。 - Series.plot 和 DataFrame.plot 方法更灵活。 #### API 更改 - 指数加权矩函数 API 更统一,支持 min_periods 参数。 - 填充方法(如 fillMethod、fillna)参数更名并添加 FutureWarning。 - DataFrame.getXS 更名为 xs。 - DataFrame.clip_upper 和 clip_lower 替代 cap 和 floor。 #### 错误修复 - 修复了 IndexableSkiplist 的 Cython 代码缺陷。 - 修复了与 NumPy.int64 相关的索引问题。 - 修复了与 NumPy 1.4.0 的 NaN 处理相关问题。 - 修复了日期范围缓存和并集的相关问题。 ### 4. 教程与资源 - 提供了多个实用教程,涵盖数据导入/导出、统计分析、数据分组、异常值处理等内容。 - 教程来源包括 Wesley McKinney 的博客、SciPy 会议视频、FinancialPython 教程等。 - 教程内容详细介绍了 pandas 的主要功能和用法。 ### 5. 访问与贡献 - 源代码:[GitHub](http://github.com/pydata/pandas) - 安装:PyPI(`pypi.python.org/pypi/pandas`) - 文档:[pandas.pydata.org](http://pandas.pydata.org) --- ### 核心观点 - **pandas** 是 Python 数据分析的核心工具,具有高效、灵活和易用的特点。 - 该版本主要优化了功能、改进了性能并修复了多个 bugs,为数据分析任务提供了更强大的支持。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 1212 页请下载阅读 -
文档评分
请文明评论,理性发言.