Hadoop+Spark+Hive
文章平均质量分 80
Hadoop+Spark+Hive学习
数据攻城小狮子
关注我,不迷路。有事直接私信。
展开
-
Hive电子商务消费行为分析项目
Hive电子商务消费行为分析项目某零售企业的门店最近一年收集的数据原创 2022-12-18 02:12:45 · 1228 阅读 · 0 评论 -
Hive调优(待完善)
Hive调优原创 2022-10-02 15:39:14 · 209 阅读 · 0 评论 -
Hive函数(系统内置函数,自定义函数)
系统内置函数常用内置函数自定义函数原创 2022-05-27 11:31:27 · 468 阅读 · 0 评论 -
Spark Streaming实时计算框架学习01
初探Spark Streaming掌握DStream编程模型DStream转换操作DStream窗口操作DStream输出操作使用foreachPartition,将处理结果写到MySQL数据库中原创 2022-05-26 23:17:56 · 450 阅读 · 0 评论 -
Hadoop3.x完全分布式运行模式配置
Hadoop3.x完全分布式运行模式配置原创 2022-05-15 10:43:36 · 364 阅读 · 0 评论 -
zookeeper学习03(定义,工作机制,功能,数据结构,应用场景,选举机制)
介绍了zookeeper的定义,工作机制,功能,数据结构,应用场景,选举机制原创 2022-04-30 18:57:44 · 2280 阅读 · 0 评论 -
Hive学习04-查询 分组 join 排序
基本查询 where语句 比较运算符 Like和RLike 逻辑运算符 分组 Group By语句 Having语句 join原创 2022-04-25 19:12:39 · 1722 阅读 · 1 评论 -
Hive常用函数(日期函数,取整函数,字符串操作函数,集合操作函数)
Hive的常用函数原创 2022-04-25 16:34:16 · 480 阅读 · 0 评论 -
Hadoop1和Hadoop2和Hadoop3之间的差异
本文将从多个方面详细探讨Hadoop1和Hadoop2和Hadoop3之间的差异,借鉴了某些外国技术博客原创 2022-04-19 20:49:43 · 2546 阅读 · 0 评论 -
zookeeper学习02-Java API操作
初始化ZooKeeper客户端 获取子节点列表,不监听 获取子节点列表,并监听 创建子节点 判断Znode是否存在 获取子节点存储的数据,不监听 获取子节点存储的数据,并监听 设置节点的值 删除空节点 删除非空节点,递归实现原创 2022-04-18 19:17:06 · 2206 阅读 · 0 评论 -
zookeeper学习01
Zookeeper从设计模式角度来理解,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生了变化,Zookeeper就负责通知已经在Zookeeper上注册的那些观察者做出相应的反应.Zookeeper = 文件系统 + 通知机制原创 2022-04-18 10:35:07 · 198 阅读 · 0 评论 -
Hive编程指南学习03
新建数据表employees向表中装载数据引用集合类型中的元素引用数组(选择数组subordinates的第2个元素)引用MAP元素引用struct元素新建数据表stocks装载数据DML数据操作数据导入loadinsert数据导出Insert导出1)将查询的结果导出到本地2)将查询的结果格式化导出到本地3)将查询的结果导出到HDFS上(没有local)Hadoop命令导出到本地Hive Shell 命令导出Export导出到HDFS上Import数据到指定Hive表原创 2022-04-17 13:22:23 · 1423 阅读 · 0 评论 -
Hive编程指南学习02
介绍了Hive常用的基本数据类型int,bigint,double,string;hive的集合类型(ARRAY,MAP,STRUCT)及数据的插入和导入,还有数据类型之间的转换。原创 2022-04-13 21:10:14 · 222 阅读 · 0 评论 -
Hive编程指南学习01
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。原创 2022-03-30 12:40:03 · 2733 阅读 · 0 评论 -
Spark SQL:结构化数据文件处理02
掌握DataFrame基础操作DataFrame查询操作DataFrame输出操作原创 2022-03-25 22:20:51 · 2158 阅读 · 4 评论 -
Spark SQL:结构化数据文件处理01
Spark SQL结构化数据文件处理原创 2022-03-24 21:45:15 · 2017 阅读 · 0 评论 -
Spark编程进阶学习
环境准备:配置的时候确实很麻烦…win10java 1.8.0_152Hadoop 2.7.3Scala 2.10.6Spark 1.6.0IntelliJ IDEA 2016.3.4文章目录运行Spark程序在开发环境下运行Spark在集群环境中运行Spark在IDEA中打包工程(输出JAR)编译生成Artifact运行Spark程序在开发环境下运行Sparkimport org.apache.spark.{SparkConf,SparkContext}object WorldC原创 2022-03-23 22:32:13 · 1587 阅读 · 0 评论 -
Spark基础编程学习03
文章目录将汇总后的学生成绩存储为文本文件JSON文件的读取与存储JSON文件读取JSON文件存储CSV文件的读取与存储CSV文件的读取CSV文件的存储SequenceFile的读取与存储SequenceFile的存储SequenceFile文件的读取文本文件的读取与存储文本文件的读取文本文件的存储任务实现将汇总后的学生成绩存储为文本文件Spark支持的一些常见文件格式文本文件,JSON,CSV,SequenceFile,对象文件JSON文件的读取与存储JSON文件读取sudo gedit te原创 2022-03-21 15:01:44 · 1174 阅读 · 0 评论 -
Spark基础编程学习02
文章目录输出单科成绩为100分的学生ID使用union()合并多个RDD使用filter()进行过滤使用distinct()进行去重简单的集合操作intersection()subtract()cartesian()任务实现创建数据RDD通过filter操作过滤出成绩为100分的学生数据,并通过map提取学生ID通过union操作合并所有ID,并利用distinct去重输出每位学生所有科目的总成绩创建键值对RDD转换操作keys与values转换操作reduceByKey()转换操作groupByKey()原创 2022-03-20 15:50:37 · 2396 阅读 · 0 评论 -
Spark基础编程学习01
Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集原创 2022-03-19 11:56:20 · 1266 阅读 · 0 评论 -
Hadoop项目案例:电影网站用户性别预测
Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统( Distributed File System),其中一个组件是HDFS(Hadoop Distributed File System)。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集原创 2022-03-17 12:25:43 · 4407 阅读 · 5 评论 -
MapReduce编程入门及HDFS-JAVA接口(一)
文章目录使用Eclipse创建MapReduce工程配置环境新建MapReduce工程使用Eclipse创建MapReduce工程配置环境推荐这篇博客Eclipse连接Hadoop集群(详细版)配置好后,我的是这个样子保持虚拟机开启,虚拟机最好已经创建HDFS目录(非虚拟机本地目录)。新建MapReduce工程File->New->Project选择Map/Reduce Project直接Finish新建一个Hello类测试环境是否正常...原创 2021-11-28 15:28:55 · 2106 阅读 · 3 评论 -
Hadoop伪分布式搭建
文章目录准备工作需要的文件Xshell连接虚拟机开始向虚拟机指定目录传输Java和Hadoop的文件新建software文件夹给文件夹足够的权限,不然可能传输失败。点击这个绿色按钮直接把你左边界面电脑里的这两个文件拖拽到右边虚拟机的界面就行ls查看文件是否传输成功解压两个压缩包修改`/etc/profile`文件配置Hadoop文件配置`core-site.xml`文件配置`hadoop-env.sh`文件配置`yarn-env.sh`文件配置`mapred-site.xml`文件配置`hdfs-site.原创 2021-09-10 21:22:23 · 1371 阅读 · 4 评论 -
Hadoop基础操作(二)
文章目录运行首个MapReduce任务了解Hadoop官方的示例程序包提交MapReduce任务给集群运行运行首个MapReduce任务了解Hadoop官方的示例程序包在集群服务的本地目录%HADOOP_HOME/share/hadoop/mapreduce/中可以发现示例程序包hadoop-mapreduce-examples-2.7.3.jar。这个程序包封装了一些常用的测试模块。模块名称内容multifilewc统计多个文件中单词的数量pi应用quasi-Mon原创 2021-10-22 20:17:31 · 1218 阅读 · 0 评论 -
Hadoop基础操作(一)
文章目录查看Hadoop集群的基本信息查询集群的计算资源信息上传文件到HDFS目录下载文件删除文件小任务实现本文及后续文章大多在Hadoop伪分布式环境下操作查看Hadoop集群的基本信息当HDFS文件系统完成启动时,在服务器集群上启动了相关的监控服务。HDFS的监控服务,默认是通过名称节点(NameNode)的端口50070来访问。在本机浏览器的地址栏中(注意不是搜索框)输入http://master:50070/(前提是在你电脑上配置好了host文件)host文件位置C:\Windows\Sy原创 2021-10-21 23:52:12 · 3318 阅读 · 0 评论