数值概要
数值概要模式是计算数据集聚合统计的一般性模式
适用场景:
要处理的数据数值或者计数
数据可以按某些特定的字段分组数值概要的应用:
单词计数
记录计数
最大/最小值计数
平均值/中位数/标准差
话不多说,现在直接开始我们的第一个示例,最大值、最小值计数示例
最大值、最小值计数示例
1.数据集:
本示例使用Movielens数据集中的u1.base文件,MovieLens数据集是一个用户对电影的评分数据集,在后续的示例中我们将一直使用这个数据集,我会将这个数据集上传到CSDN方便大家下载,文件的格式如下所示:
第1列到第4列分别代表用户ID,项目ID,用户对项目的评分,时间戳
1 1 5 874965758
1 2 3 876893171
1 3 4 878542960
1 4 3 876893119
1 5 3 889751712
1 7 4 875071561
1 8 1 875072484
... .... ....
943 1067 2 875501756
943 1074 4 888640250
943 1188 3 888640250
943 1228 3 888640275
943 1330 3 888692465