从题目来看,这节课应该是探究某一事物随着时间推移而发生的变化情况。所以核心内容应该是探究时间序列数据变化趋势。详细如下:
一、 取数据
数据来源:http://jmcauley.ucsd.edu/data/amazon/links.html
亚马逊电子商务网站,提供了一些数据资源,上图页面上的数据为1996年5月至2014年7月,20余年的商品评论。Ratings only 数据的表头为“user,item,rating,timestamp”
我们下载“Musical Instruments”中的评论文件。(这个数据下载非常慢,几乎需要一天的时间),可以使用老师已下载的文件:https://www.njcie.com/python/2时间分析/
二、 处理数据
1、读取数据
【脚本】
rnames = ['uid', 'pid', 'rating', 'timestamp']
ratings = pd.read_csv('D:\\ratings_Musical_Instruments.csv', header=None, names=rnames)
2、处理时间戳
【脚本】
ratings['date'] = ratings['timestamp'].apply(datetime.fromtimestamp)
ratings['year'] = ratings['date'].dt.year
ratings['month'] = ratings['date'].dt.month
ratings= ratings['date'].to_period(freq='M')
print(ratings)
【结果】
date uid pid rating timestamp year month
2014-03 A1YS9MDZP93857 0006428320 3.0 1394496000 2014 3
2013-06 A3TS466QBAWB9D 0014072149 5.