用pandas对gowalla数据集的切分

只想做个咸鱼

已于 2022-04-19 10:38:56 修改

阅读量3.9k

点赞数 3

分类专栏：简单的数据处理文章标签： python

于 2022-04-05 17:23:49 首次发布

本文链接：https://blog.csdn.net/zhao254014/article/details/123972743

版权

推荐系统的数据处理：（gowalla数据集）
原数据大约3万用户，4万交互物品
更改为大约取前2000用户,取前1万交互物品
主要目的是在练习算法时可以加快速度，到最后测试时在用大的数据集跑

原自带的数据集较大，在进行算法练习时，跑模型时间较长，为了平时研究节约时间，将其改小一点

进入正题：

先导入我们的数据集：（这里以训练集为例）

import numpy as np
import pandas as pd
import random
 
train_file = './train.txt'  #导入我们要处理的数据的路径
 
data=pd.read_csv(train_file,sep="/n",header=None)   #对于数据进行可视化

可见原数据被分为仅有一列，接下来我们进行分列处理

df = data[0].str.split(' ',expand=True)     #以空格为间隔符，分为多列，进行维度扩张

最低0.47元/天解锁文章

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。

余额充值