dataframe 链式索引 切片 赋值 for循环 内存溢出问题——返回副本和视图的区别

记录一个坑了我两个多小时的隐性问题

问题情况:for循环中出现内存溢出,随着for循环内存占用爆炸式增加

问题代码:

def render_framebymethod(frame, method):
    result = frame.copy()
    for col in result.columns:
        EntryRemoveDate = method(col)
        for row in range(EntryRemoveDate.shape[0]):
            ENTRY_DT = EntryRemoveDate.iloc[row]['ENTRY_DT']
            REMOVE_DT = EntryRemoveDate.iloc[row]['REMOVE_DT']
            result.loc[:, col][ENTRY_DT:REMOVE_DT] = 0
    return result

问题说明:

我一开始考虑是增加了新变量但是没有清楚的问题,我怀疑是因为用df.loc[] = 0这类形式的时候创建了一个新的中间值,然后python在执行的时候只有执行完当前代码以后才会进行内存释放,由于我是封装成函数执行,所以我以为是这个问题。

后来,同事提出有可能是由于我写了两个for循环导致的性能不足的问题,但后面我写成apply形式也无助于减少内存占用。

问题解决:

问题的解决源于我尝试将代码改写成:

result.loc[:, col][ENTRY_DT:REMOVE_DT] = 0


result[ENTRY_DT:REMOVE_DT].loc[:,loc] = 0

原来代码是先取列再取时间范围赋值,后更改为先取范围再.loc取列赋值。

此时,pandas报warning,A value is trying to be set on a copy of a slice from a DataFrame。

意思是在试图将单一的一个值统一赋予dataframe上的一串(这确实是我的本意)

后经查warning附带的pandas文档链接,发现pandas官方对这个warning的解释:

https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy

所以,当我写出df.loc[:, col][date1: date2] = 0 这样的代码的时候,我相当于执行了:

df.__getitem__((slice(None), (date1, date2)).__setitem__((date1, date2), 0)

因此,正如官方所说,很难预测返回试图还是副本,但是在我这里就返回了副本!即创造了一个新的对象且分配内存给它。 这就是为什么我在for循环中内存占用爆炸式上升的原因。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值