在使用pandas-profiling库 1对数据进行描述的时候,由于数据集的特征多达300多个,所以出现了内存不足的情况,其具体报错大致如下:
Windows MemoryError: Unable to allocate 1.32 GiB
查询后发现需要给磁盘增大分配的内存,于是按照博文2所写,给我的D盘分配了2G的内存,大致步骤如下
- 文件资源管理器
- 右键点击窗口左侧的此电脑
- 选择弹出的菜单当中的属性
- 跳转到设置界面
- 选择窗口右侧的高级系统设置
- 选择窗口上方的高级
- 选择性能方面的设置
- 在性能选项的窗口当中选择高级
- 在虚拟内存的选项当中选择更改
- 点击D盘
- 点击自定义大小
- 设置分配内存
如此设置之后,pandas-profiling仍旧无法生成数据报告,故选择放弃该方法
需要注意的是,我的win10应该是版本不同,在设置内存分配的步骤上,与博文2有些微的区别。
另外,我的D盘在原本是没有分页文件的,即在最终的设置窗口当中,是无分页文件的选项。在发现该方法无效之后,我又将内存分配调回了无分页文件
后续我也有在运行内存更大的Linux系统上尝试过,也有发生内存不足的状况。我参考了另一篇博文3去尝试增大分配内存,但仍旧无法生成报告。
猜测是因为300+的特征过于庞大,超出了pandas-profiling库的处理能力