自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Spark-SQL连接JDBC的方式及代码写法

"):在"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"格式下需要传入加载。"):指定保存的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。"):指定加载的数据类型,包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。"):在"csv"、"orc"、"parquet"和"textFile"格式下需要传入保存数据的路径。如果保存不同格式的数据,可以对不同的数据格式进行设定。

2022-12-11 17:07:55 393 1

原创 RDD、DataFrame、DataSet的概念、区别联系、相互转换操作

RDD 是Spark的核心抽象,即 弹性分布式数据集(residenta distributed dataset)。代表一个不可变,可分区,里面元素可并行计算的集合。其具有数据流模型的特点:自动容错,位置感知性调度和可伸缩性。在Spark中,对数据的所有操作不外乎创建RDD、转化已有RDD以及调用 RDD操作进行求值。

2022-12-11 16:45:54 581

原创 Spark-SQL连接Hive 的五种方法

因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致,因此我们部署好 Spark Thrift Server 后,可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。Spark Thrift Server 的目的也只是取代 HiveServer2,因此它依旧可以和 Hive Metastore进行交互,获取到 hive 的元数据。如果使用 Spark 内嵌的 Hive, 则什么都不用做, 直接使用即可。

2022-12-08 19:15:10 619

原创 Flume汇入数据到Hive

Flume 有两大类 HBasesinks: HBaseSink (org.apache.flume.sink.hbase.HBaseSink) 和 AsyncHBaseSink (org.apache.flume.sink.hbase.AsyncHBaseSink)。将整个事件event的body部分当做完整的一列写入hbase,因此在插入HBase的时候,一个event的body只能被插入一个column。

2022-11-14 08:39:40 490

原创 Hive整合hbase及导入数据测试

Hive和Hbase是两种基于Hadoop的不同技术,Hive是一种类SQL的引擎,并且运行MapReduce任务,Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。这两种工具是可以同时使用的。就像用Google来搜索,用FaceBook进行社交一样,Hive可以用来进行统计查询,HBase可以用来进行实时查询,数据也可以从Hive写到HBase,或者从HBase写回Hive。

2022-11-03 20:12:57 262

原创 Hive对数据库及对表的操作

1.简单方式。2.创建库的时候带注释。3.创建带属性的库。1.最常用查看库方式。2.显示数据库的详细属性信息。3.查看正在使用哪个库。

2022-10-21 16:24:14 971 1

原创 Hive的函数

当 Hive 提供的内置函数无法满足业务处理需要时,此时就可以考虑使用用户自定义函数。UDF(user-defined function)作用于单个数据行,产生一个数据行作为输出。UDAF(用户定义聚集函数 User- Defined Aggregation Funcation):接收多个输入数据行,并产生一个输出数据行。类似于max、min。UDTF(表格生成函数 User-Defined Table Functions):接收一行输入,输出多行。类似于explode。

2022-10-20 19:47:50 786

原创 Hive安装与配置及常见问题解决

Apache Hive是一个构建于Hadoop顶层的数据仓库,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。需要注意的是,Hive它并不是数据库。Hive依赖于HDFS和MapReduce,其对HDFS的操作类似于SQL,我们称之为HQL,它提供了丰富的SQL查询方式来分析存储在HDFS中的数据。HQL可以编译转为MapReduce作业,完成查询、汇总、分析数据等工作。

2022-10-14 15:35:22 549

原创 MapReduce课程设计

互为推荐关系非好友的两个人之间存在相同好友则互为推荐关系朋友圈两个非好友的人,存在共同好友人数越多,越值得推荐存在一个共同好友,值为1;存在多个值累加程序要求,给每个人推荐可能认识的人互为推荐关系值越高,越值得推荐每个用户,推荐值越高的可能认识的人排在前面数据使用空格分割每行是一个用户以及其对应的好友每行的第一列名字是用户的名字,后面的是其对应的好友。

2022-10-03 10:22:39 625

原创 如何搭建可正常使用的centOS7系统虚拟机节点

centOS(Community ENTerprise Operating System)是Linux发行版之一,它来自于Red Hat Enterprise 依照开放源代码规定释出的源代码所编辑而成。所以有些要求高度稳定性的服务器用CentOS,CentOS不包含封闭源代码软件。centOS7是CentOS项目发布的开源类服务器操作系统,于2014年7月7日正式发布。CentOS7是一个企业级的Linux发行版本,它源于RedHat免费公开的源代码进行再发行。

2022-09-16 09:33:18 870 1

原创 HDFS完全分布式集群搭建与配置及常见问题总结

首先要确保本地电脑已经安装好了VMware Workstation Pro选择典型安装,一路默认即可位置一定要放在D盘或者别的盘,不要放在C盘,放在C盘你的电脑会卡顿。虚拟机的名称可以随便写,最好的字母写。最后点击完成即可。

2022-09-16 08:38:47 459

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除