pandas——改写pandas源文件以实现：使用pd.DataFrame.itertuples但不自动修正列名

最新推荐文章于 2024-09-09 07:30:00 发布

ALittleHigh

最新推荐文章于 2024-09-09 07:30:00 发布

阅读量1k

点赞数

分类专栏： pandas 文章标签： pandas python

本文链接：https://blog.csdn.net/whitedrogen/article/details/132499383

版权

pandas 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

本文介绍了pandasDataFrame.itertuples函数的工作原理，它使用namedtuple返回按行遍历的迭代器。问题在于默认的rename参数会自动修正无效字段名，为保持原名需设置rename=False。友情提示：谨慎处理列名规则以避免错误。

摘要由CSDN通过智能技术生成

何为pandas.DataFrame.itertuples？

相较于 pandas.DataFrame.iterrows而言，pandas.DataFrame.itertuples更好地提供了按行遍历DataFrame 的功能，详见pandas——按行遍历dataframe的优选方法（itertuples，iterrows）

这这里，我们需要了解的是，itertuples返回的是一个namedtuple迭代器。同时可以传递两个参数：name和index。其中，index决定了是否包含索引，而name决定了namedtuple的名称。

何为namedtuple？

那么到这里，就需要提到关于namedtuple的基本信息。
可以查看python——什么是namedtuple？了解它，理解它，掌握它

一旦了解过namedtuple后，我们就可以知道namedtuple有一个参数：rename。这个参数决定了是否将无效的字段名自动替换为位置名称。

问题所在

先看一下pandas.DataFrame.itertuples的源代码，方便起见我只摘取需要关注的一部分：

def itertuples(
        self, index: bool = True, name: str | None = "Pandas", rename: bool = True
    ) -> Iterable[tuple[Any, ...]]:
    arrays = []
        fields = list(self.columns)
        if index:
            arrays.append(self.index)
            fields.insert(0, "Index")
            arrays.extend(self.iloc[:, k] for k in range(len(self.columns)))

        if name is not None:
            # https://github.com/python/mypy/issues/9046
            # error: namedtuple() expects a string literal as the first argument
            itertuple = collections.namedtuple(  # type: ignore[misc]
                name, fields, rename=True
            )
            return map(itertuple._make, zip(*arrays))

        # fallback to regular tuples
        return zip(*arrays)