大数据集群的搭建和使用
文章平均质量分 83
优秀的Athena在休息
不知名的情报专家,人工智能跨领域研究者,AIGC爱好者,神器资源分享者……
展开
-
「大数据集群的搭建和使用」背景知识:linux常用命令
linux常用命令原创 2023-07-16 23:24:31 · 143 阅读 · 1 评论 -
「大数据集群的搭建和使用」背景知识:HDFS介绍
HDFS简介及其基本概念原创 2023-07-16 23:05:13 · 528 阅读 · 1 评论 -
「大数据集群的搭建和使用」背景知识:大数据概论
一、大数据概念大数据由巨型数据集组成,这些数据集规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。大数据分析挑战包括数据捕获、数据存储、数据分析、搜索、共享、传输、可视化、查询、更新、信息隐私和数据源。适用于大数据的技术,包括:大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。大数据单位:最小的基本单位是bit。原创 2023-07-09 22:07:15 · 690 阅读 · 1 评论 -
「大数据集群的搭建和使用」背景知识:大数据Hadoop生态圈介绍
HDFS 是 Hadoop 的主要存储系统,为大数据提供可扩展的、高容错的、可靠的和具有成本效益的数据存储。Hadoop是一个庞大的家族,包含存储,计算等一系列产品组件,需要了解其中的一系列组件,包括HDFS,MapReduce,Yarn,Hive,HBase,ZooKeeper,Flume,Kafka,Sqoop,HUE,Phoenix,Impala,Pig,Oozie,Spark等,知道其干什么,维基百科定义。它的任务包括加载数据,应用所需的过滤器并以所需的格式转储数据。它是容错和可靠的机制。原创 2023-07-09 22:15:45 · 1905 阅读 · 1 评论 -
「大数据集群的搭建和使用」本期课程学习概览
掌握利用Spark SQL获取每个用户浏览网页的顺序。掌握利用Spark根据区域内商品的查看次数进行排序。掌握利用Spark SQL合并同一用户浏览的网页。掌握利用Spark SQL统计每个页面访问次数。掌握利用Spark根据品类的行为类型进行排序。掌握利用Spark SQL统计每个单跳的次数。掌握利用Spark SQL计算页面单跳转化率。掌握利用Spark统计每个区域中的不同商品。掌握通过Spark On YARN运行程序。掌握利用Spark合并相同品类的行为类型。掌握利用Spark统计品类的行为类型。原创 2023-07-09 21:54:05 · 294 阅读 · 2 评论