案例1（RFM）

最新推荐文章于 2022-11-17 22:08:27 发布

杬豆枷

最新推荐文章于 2022-11-17 22:08:27 发布

阅读量148

点赞数

分类专栏：案例

本文链接：https://blog.csdn.net/weixin_48365923/article/details/115006864

版权

案例专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1，数据概况：
变量（4个）：
·USERID：用户ID
·ORDERDATE：订单日期，格式为YYYY-MM-DD，例如2016-01-01。
·ORDERID：订单ID，每个订单的ID唯一，由纯数字组成。
·AMOUNTINFO：订单金额，浮点型数据

2实现
import time # 导入时间库
import numpy as np # 导入numpy库
import pandas as pd # 导入pandas库
import mysql.connector # 导入mysql连接库
dtypes = {‘ORDERDATE’: object, ‘ORDERID’: object, ‘AMOUNTINFO’: np.float32} # 设置每列数据类型
raw_data = pd.read_csv(‘sales.csv’, dtype=dtypes, index_col=‘USERID’) # 读取数据文件
#dtypes定义的字典用于使用pd.read_csv读取数据时对数据框数据类型的自定义，而非系统默认类型

raw_data.describe()
raw_data.head(4)

缺失值
na_cols = raw_data.isnull().any(axis=0) # 查看每一列是否具有缺失值
print (na_cols) # 查看具有缺失值的列
na_lines = raw_data.isnull().any(axis=1) # 查看每一行是否具有缺失值
print (‘Total number of NA lines is: {0}’.format(na_lines.sum())) # 查看具有缺失值的行总记录数
print (raw_data[na_lines]) # 只查看具有缺失值的行信息
#异常值处理
sales_data = raw_data.dropna() # 丢弃带有缺失值的行记录
sales_data = sales_data[sales_data[‘AMOUNTINFO’] > 1] # 丢弃订单金额<=1的记录
日期格式转换
sales_data[‘ORDERDATE’] = pd.to_datetime(sales_data[‘ORDERDATE’], format=’%Y-%m-%d’) # 将字符串转换为日期格式
print (sales_data.dtypes) # 打印输出数据框所有列的数据类型
数据转换
recency_value = sales_data[‘ORDERDATE’].groupby(sales_data.index).max() # 计算原始最近一次订单时间
frequency_value = sales_data[‘ORDERDATE’].groupby(sales_data.index).count() # 计算原始订单频率
monetary_value = sales_data[‘AMOUNTINFO’].groupby(sales_data.index).sum() # 计算原始订单总金额

杬豆枷

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
案例1（RFM）

1，数据概况：变量（4个）：·USERID：用户ID·ORDERDATE：订单日期，格式为YYYY-MM-DD，例如2016-01-01。·ORDERID：订单ID，每个订单的ID唯一，由纯数字组成。·AMOUNTINFO：订单金额，浮点型数据2实现import time # 导入时间库import numpy as np # 导入numpy库import pandas as pd # 导入pandas库import mysql.connector # 导入mysql连接库dtypes
复制链接

扫一扫

专栏目录