关于Detecting Malwares with LGBM的数据预处理的详细解说

最新推荐文章于 2022-06-24 11:23:02 发布

残心花

最新推荐文章于 2022-06-24 11:23:02 发布

阅读量761

点赞数

本文链接：https://blog.csdn.net/weixin_43979090/article/details/97615855

版权

本文详细介绍了如何对kaggle上一篇关于使用LGBM检测恶意软件的文章进行数据预处理，包括优化内存的函数构造、数据加载、数据类型分类、特征基数分析以及针对不同基数特征的编码处理。通过对数据的深入理解和操作，为后续的模型训练做好准备。

摘要由CSDN通过智能技术生成

老实说，看懂这一篇我还真走了不少弯路，即使所有思路理通了，也担心有些差错，希望读者能找出我理解的一些不当并评论告知我，提前说一声谢谢！！
接下来我就对kaggle上的这篇文章的数据预处理的每一步进行较为详细的解说：

1.在加载数据前，先构造一个优化运行内存的函数

def reduce_mem_usage(df, verbose=True):
    numerics = ['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
    start_mem = df.memory_usage().sum() / 1024**2    
    for col in df.columns:
        col_type = df[col].dtypes
        if col_type in numerics:
            c_min = df[col].min()
            c_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if c_min > np.iinfo(np.int8).min and c_max < np.iinfo(np.int8).max:
                    df[col] = df[col].astype(np.int8)
                elif c_min > np.iinfo(np.int16).min and c_max < np.iinfo(np.int16).max:
                    df[col] = df[col].astype(np.int16)
                elif c_min > np.iinfo(np.int32).min and c_max < np.iinfo(np.int32).max:
                    df[col] = df[col].astype(np.int32)
                elif c_min > np.iinfo(np.int64).min and c_max < np.iinfo(np.int64).max:
                    df[col] = df[col].astype(np.int64)  
            else:
                if c_min > np.finfo(np.float16).min and c_max < np.finfo(np.float16).max:
                    df[col] = df[col].astype(np.float16)
                elif c_min > np.finfo(np.float32).min and c_max < np.finfo(np.float32).max:
                    df[col] = df[col].astype(np.float32)
                else:
                    df[col] = df[col].astype(np.float64)    
    end_mem = df.memory_usage().sum() / 1024**2
    if verbose: print('Mem. usage decreased to {:5.2f} Mb ({:.1f}% reduction)'