pandas
文章平均质量分 96
绝不原创的飞龙
这个作者很懒,什么都没留下…
展开
-
Pandas 2.2 中文文档(一百零一)
原文:pandas.pydata.org/docs/版本 0.18.0(2016 年 3 月 13 日)原文:pandas.pydata.org/docs/whatsnew/v0.18.0.html这是从 0.17.1 版本开始的重大更新,包括少量的 API 更改、几个新功能、增强功能和性能改进,以及大量的 bug 修复。我们建议所有用户升级到此版本。警告pandas >= 0.18.0 不再支持与 Python 版本 2.6 和 3.3 的兼容性 (GH 7718,GH 11273原创 2024-06-29 11:28:37 · 698 阅读 · 0 评论 -
Pandas 2.2 中文文档(一百零五·二)
总共有 80 人为这个版本贡献了补丁。名字后面带有“+”符号的人第一次为此版本贡献了补丁。Aaron Schumacher +Adam GreenhallAndy HaydenAnthony O’Brien +Artemy Kolchinsky +Ben Schiller +Benedikt SauerBenjamin Thyreau +BorisVerk +Chris Reynolds +Chris Stoafer +DSMDa原创 2024-06-29 11:28:06 · 1032 阅读 · 0 评论 -
Pandas 2.2 中文文档(一百零五·一)
原文:pandas.pydata.org/docs/版本 0.15.2 (2014 年 12 月 12 日)原文:pandas.pydata.org/docs/whatsnew/v0.15.2.html这是从 0.15.1 的一个次要版本,包含大量的错误修复以及几个新功能、增强功能和性能改进。为了修复现有的 bug,需要进行少量的 API 更改。我们建议所有用户升级到此版本。增强功能API 更改性能改进错误修复API 更改现在支持在 MultiIndex 中原创 2024-06-29 11:27:36 · 869 阅读 · 0 评论 -
Pandas 2.2 中文文档(一百零四)
原文:pandas.pydata.org/docs/版本 0.16.0(2015 年 3 月 22 日)原文:pandas.pydata.org/docs/whatsnew/v0.16.0.html这是从 0.15.2 版本的一个重大发布,包括少量 API 变更,几个新特性,增强功能和性能改进以及大量错误修复。我们建议所有用户升级到此版本。亮点包括:DataFrame.assign 方法,请参阅这里Series.to_coo/from_coo 方法用于与 scipy.sparse原创 2024-06-29 11:25:23 · 830 阅读 · 0 评论 -
Pandas 2.2 中文文档(一百零三)
原文:pandas.pydata.org/docs/版本 0.16.2(2015 年 6 月 12 日)原文:pandas.pydata.org/docs/whatsnew/v0.16.2.html这是从 0.16.1 中的次要 bug 修复版本,并包括大量的 bug 修复,以及一些新功能(pipe()方法)、增强和性能改进。我们建议所有用户升级到此版本。重点包括:新的pipe方法,请参阅此处使用numba与pandas的文档,请参阅此处。新功能在 v0.16.2 中的变原创 2024-06-29 11:24:52 · 768 阅读 · 0 评论 -
Pandas 2.2 中文文档(一百零七)
原文:pandas.pydata.org/docs/版本 0.13.1(2014 年 2 月 3 日)原文:pandas.pydata.org/docs/whatsnew/v0.13.1.html这是从 0.13.0 版本发布的一个小版本,包括少量 API 更改、几个新功能、增强功能和性能改进,以及大量的错误修复。我们建议所有用户升级到这个版本。亮点包括:添加了infer_datetime_format关键字到read_csv/to_datetime,以允许对同质格式的日期时间进行加速原创 2024-06-29 11:24:22 · 800 阅读 · 0 评论 -
Pandas 2.2 中文文档(一百零六)
原文:pandas.pydata.org/docs/版本 0.14.1(2014 年 7 月 11 日)原文:pandas.pydata.org/docs/whatsnew/v0.14.1.html这是从 0.14.0 的次要版本,包括少量 API 更改,几个新功能,增强功能和性能改进,以及大量错误修复。我们建议所有用户升级到此版本。重点包括:新方法select_dtypes()基于 dtype 选择列和sem()计算平均值的标准误差。支持 dateutil 时区(见文档)。原创 2024-06-29 11:23:42 · 731 阅读 · 0 评论 -
Pandas 2.2 中文文档(一百零九)
原文:pandas.pydata.org/docs/版本 0.10.1(2013 年 1 月 22 日)原文:pandas.pydata.org/docs/whatsnew/v0.10.1.html这是从 0.10.0 的一个小版本,包括新功能、增强功能和错误修复。特别是,由 Jeff Reback 贡献的新的 HDFStore 功能。与接受inplace选项的函数发生的不良 API 中断已被撤销并添加了弃用警告。API 更改接受inplace选项的函数将像以前一样返回调用对象。已添原创 2024-06-29 11:23:23 · 1253 阅读 · 0 评论 -
Pandas 2.2 中文文档(一百零二)
原文:pandas.pydata.org/docs/版本 0.17.1(2015 年 11 月 21 日)原文:pandas.pydata.org/docs/whatsnew/v0.17.1.html注意我们很自豪地宣布pandas已成为(NumFOCUS 组织)的赞助项目。这将有助于确保pandas作为世界一流开源项目的成功开发。这是从 0.17.0 开始的一个小 bug 修复版本,包括大量的 bug 修复以及几个新功能、增强功能和性能改进。我们建议所有用户升级到这个版本。亮点包括:原创 2024-06-29 11:21:36 · 1271 阅读 · 0 评论 -
Pandas 2.2 中文文档(一百零八)
原文:pandas.pydata.org/docs/原创 2024-06-29 11:21:01 · 667 阅读 · 0 评论 -
Pandas 2.2 中文文档(一百)
原文:pandas.pydata.org/docs/版本 0.18.1(2016 年 5 月 3 日)原文:pandas.pydata.org/docs/whatsnew/v0.18.1.html这是从 0.18.0 的次要 bug 修复版本,包括大量的 bug 修复以及一些新功能、增强功能和性能改进。我们建议所有用户升级到此版本。主要亮点包括:.groupby(...) 已得到加强,以提供与 .rolling(..)、.expanding(..) 和 .resample(..) 每个原创 2024-06-29 11:20:29 · 700 阅读 · 0 评论 -
Pandas 2.2 中文文档(一)
pandas 处理什么类型的数据?直达教程…在处理表格数据(如存储在电子表格或数据库中的数据)时,pandas 是您的正确工具。pandas 将帮助您探索、清理和处理数据。在 pandas 中,数据表称为DataFrame。到介绍教程 到用户指南 如何读取和写入表格数据?直达教程…pandas 原生支持与许多文件格式或数据源的集成(csv、excel、sql、json、parquet 等)。从每个数据源导入数据的功能由具有前缀read_*的函数提供。类似地,to_*方法用于存储数据。原创 2024-06-29 11:19:54 · 1760 阅读 · 0 评论 -
Pandas 2.2 中文文档(五十一)
原文:pandas.pydata.org/docs/pandas.UInt64Dtype原文:pandas.pydata.org/docs/reference/api/pandas.UInt64Dtype.htmlclass pandas.UInt64Dtype用于 uint64 整数数据的 ExtensionDtype。使用pandas.NA作为其缺失值,而不是numpy.nan。示例对于 Int8Dtype:>>> ser = pd.Series([2, pd原创 2024-06-29 11:19:11 · 791 阅读 · 0 评论 -
Pandas 2.2 中文文档(五十五)
原文:pandas.pydata.org/docs/原文:pandas.pydata.org/docs/reference/api/pandas.Index.asof_locs.html返回索引中标签的位置(索引)。如pandas.Index.asof()方法中所述,如果标签(where中的特定条目)不在索引中,则选择最近的索引标签直到传递的标签,并返回其索引。如果索引中的所有标签都晚于where中的标签,则返回-1。在计算过程中,mask用于忽略索引中的NA值。索引由时间戳数组组成的索引。原创 2024-06-29 11:18:40 · 619 阅读 · 0 评论 -
Pandas 2.2 中文文档(五十四)
原文:pandas.pydata.org/docs/reference/api/pandas.Index.symmetric_difference.html。一个项目->数据类型的字典,如果可能的话,会尝试将其降级到适当的等效类型(例如,如果可能的话,将 float64 降级到 int64)。原文:pandas.pydata.org/docs/reference/api/pandas.Index.difference.html。频率增量以进行移动。偏移别名是有效的字符串,例如,‘D’,‘W’,'M’等。原创 2024-06-29 11:18:06 · 812 阅读 · 0 评论 -
Pandas 2.2 中文文档(五十三)
原文:pandas.pydata.org/docs/pandas.Index原文:pandas.pydata.org/docs/reference/api/pandas.Index.htmlclass pandas.Index(data=None, dtype=None, copy=False, name=None, tupleize_cols=True)用于索引和对齐的不可变序列。存储所有 pandas 对象轴标签的基本对象。从版本 2.0.0 开始更改:索引可以保存所有 numpy原创 2024-06-29 11:17:34 · 904 阅读 · 0 评论 -
Pandas 2.2 中文文档(五十七)
在这种情况下,模糊参数决定如何处理模糊时间。时间以对象(datetime.time)或适当格式的字符串传入(“%H:%M”, “%H%M”, “%I:%M%p”, “%I%M%p”, “%H:%M:%S”, “%H%M%S”, “%I:%M:%S%p”, “%I%M%S%p”)。时间以对象(datetime.time)或适当格式的字符串传递(“%H:%M”,“%H%M”,“%I:%M%p”,“%I%M%p”,“%H:%M:%S”,“%H%M%S”,“%I:%M:%S%p”,“%I%M%S%p”)。原创 2024-06-29 11:17:03 · 800 阅读 · 0 评论 -
Pandas 2.2 中文文档(五十六)
原文:pandas.pydata.org/docs/reference/api/pandas.MultiIndex.remove_unused_levels.html。原文:pandas.pydata.org/docs/reference/api/pandas.MultiIndex.to_flat_index.html。原文:pandas.pydata.org/docs/reference/api/pandas.MultiIndex.get_loc_level.html。原创 2024-06-29 11:14:58 · 570 阅读 · 0 评论 -
Pandas 2.2 中文文档(五十九)
表示可能有 n 个自定义工作日的 DateOffset 子类。CDay的别名。原创 2024-06-29 11:13:38 · 549 阅读 · 0 评论 -
Pandas 2.2 中文文档(五十二)
原文:pandas.pydata.org/docs/原文:pandas.pydata.org/docs/reference/api/pandas.api.types.is_interval_dtype.html检查数组或数据类型是否为区间数据类型。自版本 2.2.0 起已弃用:请改用 isinstance(dtype, pd.IntervalDtype)。数组或数据类型要检查的数组或数据类型。返回:布尔值数组或数据类型是否为区间数据类型。示例。原创 2024-06-28 11:45:00 · 783 阅读 · 0 评论 -
Pandas 2.2 中文文档(五十八)
必须是固定的频率,例如 ‘S’(秒),而不是 ‘ME’(月末)。必须是固定的频率,如 ‘S’(秒),而不是 ‘ME’(月底)。原文:pandas.pydata.org/docs/reference/api/pandas.TimedeltaIndex.inferred_freq.html。原文:pandas.pydata.org/docs/reference/api/pandas.TimedeltaIndex.components.html。必须是固定频率,如 ‘S’(秒),而不是 ‘ME’(月底)。原创 2024-06-28 11:44:30 · 643 阅读 · 0 评论 -
Pandas 2.2 中文文档(五十)
原文:pandas.pydata.org/docs/pandas.Period.minute原文:pandas.pydata.org/docs/reference/api/pandas.Period.minute.htmlPeriod.minute获取 Period 的小时组件的分钟。返回:整数分钟作为一个整数,范围在 0 到 59 之间。另请参阅Period.hour获取 Period 的小时组件。Period.second获取 Period 的秒组件。例子>&原创 2024-06-28 11:43:53 · 965 阅读 · 0 评论 -
Pandas 2.2 中文文档(五)
原文:pandas.pydata.org/docs/与 SAS 的比较译文:pandas.pydata.org/docs/getting_started/comparison/comparison_with_sas.html对于来自SAS的潜在用户,本页面旨在演示如何在 pandas 中执行不同的 SAS 操作。如果您是 pandas 的新手,您可能首先想通过阅读 10 分钟入门 pandas 来熟悉该库。惯例上,我们导入 pandas 和 NumPy 如下:In [1]: import原创 2024-06-28 11:43:22 · 808 阅读 · 0 评论 -
Pandas 2.2 中文文档(四十一)
比较两个形状相同的 DataFrame 对象,并返回一个 DataFrame,其中每个元素如果在每个 DataFrame 中的相应元素相等则为 True,否则为 False。的 DataFrame.sum 的行为已被弃用,在将来的版本中,这将在两个轴上减少并返回一个标量,为保留旧行为,请传递 axis=0(或不传递 axis)。DataFrames df 和 different_data_type 具有相同值的不同类型的元素,即使它们的列标签是相同的值和类型,也将返回 False。原创 2024-06-28 11:42:38 · 930 阅读 · 0 评论 -
Pandas 2.2 中文文档(四十五)
如果传递了 freq(在这种情况下,索引必须是日期或日期时间,否则会引发 NotImplementedError),则将使用 periods 和 freq 增加索引。例如[(‘a’, ‘c’), (‘b’, ‘d’)]将创建 2 个子图:一个包含列‘a’和‘c’,另一个包含列‘b’和‘d’。例如,如果你的列名为 a 和 b,那么传入{‘a’: ‘green’, ‘b’: ‘red’}将会用绿色为列 a 的条形图上色,用红色为列 b 的条形图上色。图表的一个轴显示正在比较的具体类别,另一个轴代表一个测量值。原创 2024-06-28 11:42:06 · 906 阅读 · 0 评论 -
Pandas 2.2 中文文档(四十四)
对于观测的合并键同时在两个 DataFrame 中出现的情况,“both” 的值。返回一个重新塑造的 DataFrame 或 Series,具有比当前 DataFrame 更多的一个或多个新的最内层级别的多级索引。当将具有多级列的 DataFrame 进行堆叠时,通常会出现缺失值,因为堆叠后的 DataFrame 通常比原始 DataFrame 多出更多的值。对于多列,请指定一个非空列表,其中每个元素都是 str 或 tuple,并且指定的列在 frame 的同一行上的列表数据必须具有匹配的长度。原创 2024-06-28 11:41:36 · 755 阅读 · 0 评论 -
Pandas 2.2 中文文档(四十三)
原文:pandas.pydata.org/docs/pandas.DataFrame.dropna原文:pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.htmlDataFrame.dropna(*, axis=0, how=_NoDefault.no_default, thresh=_NoDefault.no_default, subset=None, inplace=False, ignore_index=False)原创 2024-06-28 11:41:01 · 775 阅读 · 0 评论 -
Pandas 2.2 中文文档(四十七)
原文:pandas.pydata.org/docs/pandas.DataFrame.to_dict原文:pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_dict.htmlDataFrame.to_dict(orient='dict', *, into=<class 'dict'>, index=True)将 DataFrame 转换为字典。键值对的类型可以通过参数进行自定义(参见下文)。参数:orient原创 2024-06-28 11:40:30 · 724 阅读 · 0 评论 -
Pandas 2.2 中文文档(四十六)
否则,如果键应该是行,请传递‘index’。如果’推断’和’path_or_buf’是路径类的,则从以下扩展名中检测压缩:‘.gz’、‘.bz2’、‘.zip’、‘.xz’、‘.zst’、‘.tar’、‘.tar.gz’、‘.tar.xz’或’.tar.bz2’(否则不压缩)。如果‘infer’和‘path’是类似路径的对象,则从以下扩展名检测压缩:‘.gz’、‘.bz2’、‘.zip’、‘.xz’、‘.zst’、‘.tar’、‘.tar.gz’、‘.tar.xz’或‘.tar.bz2’(否则不压缩)。原创 2024-06-28 11:39:59 · 1027 阅读 · 0 评论 -
Pandas 2.2 中文文档(四十八)
原文:pandas.pydata.org/docs/原创 2024-06-28 11:39:28 · 783 阅读 · 0 评论 -
Pandas 2.2 中文文档(四十)
尽管这个方法的名称是这样的,但它计算的是分数变化(也称为单位变化或相对变化),而不是百分比变化。原文:pandas.pydata.org/docs/reference/api/pandas.DataFrame.eval.html。原文:pandas.pydata.org/docs/reference/api/pandas.DataFrame.mode.html。原文:pandas.pydata.org/docs/reference/api/pandas.DataFrame.prod.html。原创 2024-06-28 11:38:55 · 668 阅读 · 0 评论 -
Pandas 2.2 中文文档(四)
原文:pandas.pydata.org/docs/与 SQL 比较原文:pandas.pydata.org/docs/getting_started/comparison/comparison_with_sql.html由于许多潜在的 pandas 用户对 SQL 有一定的了解,本页旨在提供使用 pandas 执行各种 SQL 操作的一些示例。如果你是 pandas 的新手,你可能想先阅读 10 分钟入门 pandas 来熟悉这个库。惯例上,我们导入 pandas 和 NumPy 如下:原创 2024-06-28 11:38:24 · 587 阅读 · 0 评论 -
Pandas 2.2 中文文档(十一·二)
然而,当使用.iloc从Series和DataFrame设置时,pandas 不会对齐轴,因为.iloc是按位置操作的。这将修改df,因为在赋值之前列对齐。In [14]: df[['A', 'B']]Out[14]: A B2000-01-01 0.469112 -0.2828632000-01-02 1.212112 -0.1732152000-01-03 -0.861849 -2.1045692000-01-04 0.721555 -0.7067712000-原创 2024-06-28 11:37:22 · 1048 阅读 · 0 评论 -
Pandas 2.2 中文文档(十一·一)
原文:pandas.pydata.org/docs/PyArrow 功能原文:pandas.pydata.org/docs/user_guide/pyarrow.htmlpandas 可以利用PyArrow来扩展功能并改善各种 API 的性能。这包括:与 NumPy 相比,拥有更广泛的数据类型对所有数据类型支持缺失数据(NA)高性能 IO 读取器集成便于与基于 Apache Arrow 规范的其他数据框架库(例如 polars、cuDF)进行互操作性要使用此功能,原创 2024-06-28 11:36:47 · 606 阅读 · 0 评论 -
Pandas 2.2 中文文档(十五)
原文:pandas.pydata.org/docs/处理文本数据原文:pandas.pydata.org/docs/user_guide/text.html文本数据类型在 pandas 中有两种存储文本数据的方式:object -dtype NumPy 数组。StringDtype 扩展类型。我们建议使用StringDtype来存储文本数据。在 pandas 1.0 之前,object dtype 是唯一的选项。这在很多方面都是不幸的:你可能会在object dty原创 2024-06-28 11:35:45 · 635 阅读 · 0 评论 -
Pandas 2.2 中文文档(十四)
原文:pandas.pydata.org/docs/重塑和透视表原文:pandas.pydata.org/docs/user_guide/reshaping.htmlpandas 提供了用于操作Series和DataFrame的方法,以改变数据的表示形式,以便进行进一步的数据处理或数据汇总。pivot() 和 pivot_table():在一个或多个离散类别中对唯一值进行分组。stack() 和 unstack():分别将列或行级别的数据透视到相反的轴上。melt() 和 w原创 2024-06-28 11:35:14 · 887 阅读 · 0 评论 -
Pandas 2.2 中文文档(十三)
原文:pandas.pydata.org/docs/写时复制(CoW)原文:pandas.pydata.org/docs/user_guide/copy_on_write.html注意写时复制将成为 pandas 3.0 的默认设置。我们建议现在就启用它以从所有改进中受益。写时复制首次引入于版本 1.5.0。从版本 2.0 开始,大部分通过 CoW 可能实现和支持的优化已经实现。从 pandas 2.1 开始,所有可能的优化都得到支持。写时复制将在版本 3.0 中默认启用。CoW 将导原创 2024-06-28 11:34:43 · 610 阅读 · 0 评论 -
Pandas 2.2 中文文档(十七)
原文:pandas.pydata.org/docs/重复标签原文:pandas.pydata.org/docs/user_guide/duplicates.htmlIndex对象不需要是唯一的;你可以有重复的行或列标签。这一点可能一开始会有点困惑。如果你熟悉 SQL,你会知道行标签类似于表上的主键,你绝不希望在 SQL 表中有重复项。但 pandas 的一个作用是在数据传输到某个下游系统之前清理混乱的真实世界数据。而真实世界的数据中有重复项,即使在应该是唯一的字段中也是如此。本节描述了重复标原创 2024-06-28 11:34:13 · 968 阅读 · 0 评论 -
Pandas 2.2 中文文档(十六)
原文:pandas.pydata.org/docs/处理缺失数据原文:pandas.pydata.org/docs/user_guide/missing_data.html被视为“缺失”的值pandas 使用不同的标记值来表示缺失值(也称为 NA),具体取决于数据类型。numpy.nan适用于 NumPy 数据类型。使用 NumPy 数据类型的缺点是原始数据类型将被强制转换为np.float64或object。In [1]: pd.Series([1, 2], dtype=np.int6原创 2024-06-28 11:32:18 · 985 阅读 · 0 评论 -
Pandas 2.2 中文文档(十九)
原文:pandas.pydata.org/docs/表格可视化原文:pandas.pydata.org/docs/user_guide/style.html本节演示使用 Styler 类可视化表格数据。有关使用图表进行可视化的信息,请参阅图表可视化。本文档是以 Jupyter Notebook 编写的,可在此处查看或下载这里。Styler 对象和自定义显示样式和输出显示定制应在对数据框中的数据进行处理之后执行。如果对数据框进行进一步更改,Styler不会动态更新。DataFrame.sty原创 2024-06-28 11:31:47 · 981 阅读 · 0 评论