dataframe 链式索引切片赋值 for循环内存溢出问题——返回副本和视图的区别

最新推荐文章于 2024-07-06 11:44:29 发布

梧承

最新推荐文章于 2024-07-06 11:44:29 发布

阅读量660

点赞数

文章标签： python 开发语言

本文链接：https://blog.csdn.net/weixin_44566452/article/details/123261241

版权

记录一个坑了我两个多小时的隐性问题

问题情况：for循环中出现内存溢出，随着for循环内存占用爆炸式增加

问题代码：

def render_framebymethod(frame, method):
    result = frame.copy()
    for col in result.columns:
        EntryRemoveDate = method(col)
        for row in range(EntryRemoveDate.shape[0]):
            ENTRY_DT = EntryRemoveDate.iloc[row]['ENTRY_DT']
            REMOVE_DT = EntryRemoveDate.iloc[row]['REMOVE_DT']
            result.loc[:, col][ENTRY_DT:REMOVE_DT] = 0
    return result

问题说明：

我一开始考虑是增加了新变量但是没有清楚的问题，我怀疑是因为用df.loc[] = 0这类形式的时候创建了一个新的中间值，然后python在执行的时候只有执行完当前代码以后才会进行内存释放，由于我是封装成函数执行，所以我以为是这个问题。

后来，同事提出有可能是由于我写了两个for循环导致的性能不足的问题，但后面我写成apply形式也无助于减少内存占用。

问题解决：

问题的解决源于我尝试将代码改写成：

result.loc[:, col][ENTRY_DT:REMOVE_DT] = 0


result[ENTRY_DT:REMOVE_DT].loc[:,loc] = 0

原来代码是先取列再取时间范围赋值，后更改为先取范围再.loc取列赋值。

此时，pandas报warning，A value is trying to be set on a copy of a slice from a DataFrame。

意思是在试图将单一的一个值统一赋予dataframe上的一串（这确实是我的本意）

后经查warning附带的pandas文档链接，发现pandas官方对这个warning的解释：

https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

所以，当我写出df.loc[:, col][date1: date2] = 0 这样的代码的时候，我相当于执行了：

df.__getitem__((slice(None), (date1, date2)).__setitem__((date1, date2), 0)

因此，正如官方所说，很难预测返回试图还是副本，但是在我这里就返回了副本！即创造了一个新的对象且分配内存给它。这就是为什么我在for循环中内存占用爆炸式上升的原因。

梧承

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
dataframe 链式索引切片赋值 for循环内存溢出问题——返回副本和视图的区别

记录一个坑了我两个多小时的隐性问题！！！问题情况：for循环中出现内存溢出，随着for循环内存占用爆炸式增加问题代码：def render_framebymethod(frame, method): result = frame.copy() for col in result.columns: EntryRemoveDate = method(col) for row in range(EntryRemoveDate.shape[0]):..
复制链接

扫一扫