【reduce_mem_usage函数，减少数据的内存】

最新推荐文章于 2022-08-23 13:30:03 发布

水花

最新推荐文章于 2022-08-23 13:30:03 发布

阅读量1.3k

点赞数 1

分类专栏： python进行时文章标签： python

本文链接：https://blog.csdn.net/weixin_43849871/article/details/115214822

版权

python进行时专栏收录该内容

10 篇文章 2 订阅

订阅专栏

写在前面的话

对于程序猿来说，我们会追求性能，效率。不例外地，记录下，用pandas读取csv，减少读取内存的一个常见方法。

import pandas as pd


def reduce_mem_usage(df, verbose=True):
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2    
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)    
    end_mem = df.memory_usage().sum() / 1024**2
    if verbose: print('Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction)'.format(end_mem, 100 * (start_mem - end_mem) / start_mem))
    return df

df = pd.read_csv('SupplyChain.csv')
df = reduce_mem_usage(df)

1.优化内存的几个方向

使用nrows和skip_rows来读取。提前申明dtype和usecols，可以节省内存空间。
train_data=pd.read_csv(train_dir,skiprows=range(1,SKIP_ROWS),nrows=TRAIN_ROWS,dtype=dtypes,usecols=use_cols)
如果要兼顾内存和速度。可以使用reader来分块阅读。在创建reader的时候，并没有真正读取数据，等到for循环的时候才读取。
train_reader=pd.read_csv(train_dir,iterator=True,chunksize=chunk_size,dtype=dtypes,usecols=use_cols)
在for循环中，才真正读取数据。

for chunk in train_reader : 
	train_data=pd.concat([train_data,chunk],ignore_index=True)

要善用垃圾回收，及时删除不需要的变量
del test_data
gc.collect()
对数据进行类型转换，及时减少内存。
train_data[col_name]=train_data[col_name].astype(‘uint8’)
转换数据格式
使用其它格式能加速数据载入并且降低内存占用。好的选择像 GRIB、NetCDF、HDF 这样的二进制格式。
有很多命令行工具能帮你转换数据格式，而且不需要把整个数据集载入内存里。换一种格式，可能帮助你以更紧凑的形式存储数据，节省内存空间；比如 2-byte 整数，或者 4-byte 浮点。
流式处理数据，或渐进式的数据加载
所有数据如果不需要同时出现在内存里，可以用代码或库，随时把需要的数据做流式处理或渐进式加载，导入内存里训练模型。这可能需要算法使用优化技术迭代学习，比如使用随机梯度下降。那些需要内存里有所有数据、以进行矩阵运算的算法，比如某些对线性回归和逻辑回归的实现，就不适用了。
比如，Keras 深度学习 API 就提供了渐进式加载图像文件的功能，名为 flow_from_directory
另一个例子式 Pandas 库，可批量载入大型 CSV 文件。
使用关系数据库（Relational database）
关系数据库为存储、访问大型数据集提供了标准化的方法。
在内部，数据存在硬盘中，能渐进式地 in batch 批量加载，并使用标准检索语言 SQL 检索。
像 MySQL、Postgres 这样的开源数据库工具，支持绝大多数的（全部？）编程语言。许多机器学习工具，都能直接与关系数据库连通。你也可以用 SQLite 这样更轻量的方法。这种方法对大型表格式数据集非常有效率。

其他优化内存资料

水花

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
打赏
0
评论
【reduce_mem_usage函数，减少数据的内存】

写在前面的话对于程序猿来说，我们会追求性能，效率。不例外地，记录下，用pandas读取csv，减少读取内存的一个常见方法。import pandas as pddef reduce_mem_usage(df, verbose=True): numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64'] start_mem = df.memory_usage().sum() / 1024**2
复制链接

扫一扫