改良的用于情感分类的餐馆评论数据集
原数据说明
yf_dianping 说明
下载地址: 百度网盘
数据概览: 24 万家餐馆,54 万用户,440 万条评论/评分数据
推荐实验: 推荐系统、情感/观点/评论 倾向性分析
数据来源: 大众点评
原数据集: Dianping Review Dataset,Yongfeng Zhang 教授为 WWW 2013, SIGIR 2013, SIGIR 2014 会议论文而搜集的数据
加工处理:
只保留原数据集中的评论、评分等信息,去除其他无用信息
整理成与 MovieLens 兼容的格式
进行脱敏操作,以保护用户隐私
该数据集中主要用到的是ratings.csv
import numpy as np
import pandas as pd
pd_ratings = pd.read_csv(path+'ratings.csv')
print('用户 数目:%d' % pd_ratings.userId.unique().shape[0])
print('评分/评论 数目(总计):%d\n' % pd_ratings.shape[0])
print('总体 评分 数目([1,5]):%d' % pd_ratings[(pd_ratings.rating>=1) & (pd_ratings.rating<=5)].shape[0])
print('环境 评分 数目([1,5]):%d' % pd_ratings[(pd_ratings.rating_env>=1) & (pd_ratings.rating_env