推荐系统的数据处理:(gowalla数据集)
原数据大约3万用户,4万交互物品
更改为大约取前2000用户,取前1万交互物品
主要目的是在练习算法时可以加快速度,到最后测试时在用大的数据集跑
原自带的数据集较大,在进行算法练习时,跑模型时间较长,为了平时研究节约时间,将其改小一点
进入正题:
先导入我们的数据集:(这里以训练集为例)
import numpy as np
import pandas as pd
import random
train_file = './train.txt' #导入我们要处理的数据的路径
data=pd.read_csv(train_file,sep="/n",header=None) #对于数据进行可视化
可见原数据被分为仅有一列,接下来我们进行分列处理
df = data[0].str.split(' ',expand=True) #以空格为间隔符,分为多列,进行维度扩张