隐世窥红塵-CSDN博客

原创 Spark-SQL连接JDBC的方式及代码写法

")：在"csv"、"jdbc"、"json"、"orc"、"parquet"和"textFile"格式下需要传入加载。")：指定保存的数据类型，包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。")：指定加载的数据类型，包括"csv"、"jdbc"、"json"、"orc"、"parquet"和。")：在"csv"、"orc"、"parquet"和"textFile"格式下需要传入保存数据的路径。如果保存不同格式的数据，可以对不同的数据格式进行设定。

2022-12-11 17:07:55 440

原创 RDD、DataFrame、DataSet的概念、区别联系、相互转换操作

RDD 是Spark的核心抽象，即弹性分布式数据集（residenta distributed dataset）。代表一个不可变，可分区，里面元素可并行计算的集合。其具有数据流模型的特点：自动容错，位置感知性调度和可伸缩性。在Spark中，对数据的所有操作不外乎创建RDD、转化已有RDD以及调用 RDD操作进行求值。

2022-12-11 16:45:54 653

原创 Spark-SQL连接Hive 的五种方法

因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致，因此我们部署好 Spark Thrift Server 后，可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。Spark Thrift Server 的目的也只是取代 HiveServer2，因此它依旧可以和 Hive Metastore进行交互，获取到 hive 的元数据。如果使用 Spark 内嵌的 Hive, 则什么都不用做, 直接使用即可。

2022-12-08 19:15:10 698

原创 Flume汇入数据到Hive

Flume 有两大类 HBasesinks： HBaseSink (org.apache.flume.sink.hbase.HBaseSink) 和 AsyncHBaseSink (org.apache.flume.sink.hbase.AsyncHBaseSink)。将整个事件event的body部分当做完整的一列写入hbase，因此在插入HBase的时候，一个event的body只能被插入一个column。

2022-11-14 08:39:40 541

原创 Hive整合hbase及导入数据测试

Hive和Hbase是两种基于Hadoop的不同技术，Hive是一种类SQL的引擎，并且运行MapReduce任务，Hbase是一种在Hadoop之上的NoSQL 的Key/vale数据库。这两种工具是可以同时使用的。就像用Google来搜索，用FaceBook进行社交一样，Hive可以用来进行统计查询，HBase可以用来进行实时查询，数据也可以从Hive写到HBase，或者从HBase写回Hive。

2022-11-03 20:12:57 310

原创 Hive对数据库及对表的操作

1.简单方式。2.创建库的时候带注释。3.创建带属性的库。1.最常用查看库方式。2.显示数据库的详细属性信息。3.查看正在使用哪个库。

2022-10-21 16:24:14 1036 1

原创 Hive的函数

当 Hive 提供的内置函数无法满足业务处理需要时，此时就可以考虑使用用户自定义函数。UDF（user-defined function）作用于单个数据行，产生一个数据行作为输出。UDAF（用户定义聚集函数 User- Defined Aggregation Funcation）：接收多个输入数据行，并产生一个输出数据行。类似于max、min。UDTF（表格生成函数 User-Defined Table Functions）：接收一行输入，输出多行。类似于explode。

2022-10-20 19:47:50 831

原创 Hive安装与配置及常见问题解决

Apache Hive是一个构建于Hadoop顶层的数据仓库，可以将结构化的数据文件映射为一张数据库表，并提供简单的SQL查询功能，可以将SQL语句转换为MapReduce任务进行运行。需要注意的是，Hive它并不是数据库。Hive依赖于HDFS和MapReduce，其对HDFS的操作类似于SQL，我们称之为HQL，它提供了丰富的SQL查询方式来分析存储在HDFS中的数据。HQL可以编译转为MapReduce作业，完成查询、汇总、分析数据等工作。

2022-10-14 15:35:22 591

原创 MapReduce课程设计

互为推荐关系非好友的两个人之间存在相同好友则互为推荐关系朋友圈两个非好友的人，存在共同好友人数越多，越值得推荐存在一个共同好友，值为1；存在多个值累加程序要求，给每个人推荐可能认识的人互为推荐关系值越高，越值得推荐每个用户，推荐值越高的可能认识的人排在前面数据使用空格分割每行是一个用户以及其对应的好友每行的第一列名字是用户的名字，后面的是其对应的好友。

2022-10-03 10:22:39 732

原创如何搭建可正常使用的centOS7系统虚拟机节点

centOS（Community ENTerprise Operating System）是Linux发行版之一，它来自于Red Hat Enterprise 依照开放源代码规定释出的源代码所编辑而成。所以有些要求高度稳定性的服务器用CentOS,CentOS不包含封闭源代码软件。centOS7是CentOS项目发布的开源类服务器操作系统，于2014年7月7日正式发布。CentOS7是一个企业级的Linux发行版本，它源于RedHat免费公开的源代码进行再发行。

2022-09-16 09:33:18 910 1