1,Volume实验
要求:在助教协助下,利用云平台进行Word Count MapReduce实验(或者Sort/Inverted Index等)。目的:对大数据的分布式处理有更加直观认识。
提示:助教撰写实验指导。
1,助教准备一个大文本文件1GB。
2,启动Hadoop,把文件上传HDFS,运行Word Count MapReduce程序,打印结果并且分析,获得Top 10 Words。
3,撰写实验报告:
//前言(介绍Hadoop,MapReduce)
//Word Count(或者Sort/Inverted Index等)剖析
//实验过程与实验结果(包括命令和结果)
2,Velocity实验
要求:在助教协助下,利用云平台进行RollingTopWords Storm实验。目的:对流式数据处理有更加直观认识。
提示:助教撰写实验指导。
1,启动Storm
2,运行RollingTopWords Topology
3,撰写实验报告:
//前言(介绍流式数据处理技术及Storm)
//RollingTopWords 剖析
//实验过程与实验结果(包括命令和结果)
3,Variety实验
要求:使用Python语言,保存如下信息,并且可视化出来。目的:对现实世界的表示、和数据的多样性、数据的联系有直观认识。
提示:用关系模型(关系表)、或者图模型(属性图),表示如下信息。考虑如何在关系模型和图模型之间进行转换。文本信息,在模型中保存为字符串。图片保存到图像文件中,在模型中保留文件名。
1,用关系模型表示上述信息。
2,用图模型表示上述信息。
3,并且可视化(Optional)。
4,撰写实验报告:
//如何用关系模型表示上述信息。
//如何用图模型表示上述信息。
//如何把关系模型,转换为图模型。
//如何进行可视化。
//实验结果。