在数据处理时碰到到一个问题,表里的用户名和物品名是很长的字符串或者是英文名,在进行矩阵处理时很不方便,需要给每个用户名设置一个int 类型的id号。
面向百度编程时,发现好像这方面的文章不多,下面分享一下我的做法,有需要可以参考一下。
使用环境:Anaconda的NoteBook,Python3
下面是完整流程,其中设置id部分在第三步,赶时间的朋友可以直接跳过去
1.读取数据
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings('ignore')
df = pd.read_csv('reviews.csv')
df.head()
2.删除不需要的列
df=df.drop(['posted_at','body','helpful_count','developer_reply','developer_reply_posted_at'],axis = 1)
df.info()
df.head()
3.给user(即author列)设置唯一id
3.1筛选author列非重复值并计数,按计数值降序排列
user_count=df.groupby(['author']).size()