自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 RDD、DataFrame、DataSet的概念、区别联系、相互转换操作

这使得 Spark SQL 得以洞察更多的结构信息,从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。

2022-12-09 19:19:15 1638

原创 Spark-SQL连接Hive 的五种方法

因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致,因此我们部署好 Spark Thrift Server 后,可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。3.运行bin/目录下的spark-sql.cmd 或者打开cmd,在 D:\spark\spark-3.0.0-bin-hadoop3.2\bin当中直接运行spark-sql。5.到spark的bin目录下打开spark-shell.cmd。

2022-12-09 19:00:22 5899

原创 Spark-SQL连接JDBC的方式及代码写法

Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。1.3.3 兼容 Hive。在已有的仓库上直接运行 SQL 或者 HQL。1.2.1 易整合。无缝的整合了 SQL 查询和 Spark 编程。1.2.4 标准数据连接。通过 JDBC 或者 ODBC 来连接。1.2.2 统一的数据访问。使用相同的方式连接不同的数据源。1.首先启动thriftserver服务。2.打开IDEA导入hive-jdbc包。Spark-SQL概述。

2022-12-09 18:11:18 933

原创 Flume汇入数据到Hive和Hbase

中找寻下列JAR包,放入到flume/lib中。如果flume中有重名的则先删除flume中的再进行复制。首先打开我们的虚拟机连接xshell,打开 hdfs,yarn,zookeeper集群。(3)然后写一个flume的配置文件flume-into-hbase.conf。和hive/hcatalog/share/hcatalog/3.在flume的conf路径中编写配置文件。(2)在/root中创建test.log文件。2.在/root中创建hive.log文件。5.启动metastore服务。

2022-11-12 11:33:52 659

原创 hive整合Hbase

整合完成之后,如果在hive当中创建的为内部表,那么在hive中删除该表时,hbase上对应的表也会删除;如果在hive当中创建的为外部表,那么在hive中删除该表时,不会影响hbase。3. 在hive中创建映射表,创建完成后在hbase中查看是否同时在hbase中也创建成功(2.将hbase lib目录下的所有文件复制到hive lib目录中。先删除hive/lib目录下hbase开头的jar包。通过Hbase put添加数据,Hive查看添加数据。创建之前要先启动hbase。

2022-11-04 20:19:25 123

原创 Hive函数

第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)。同样在xshell /opt/testData/hive目录下新建一个数据。同样在xshell /opt/testData/hive目录下新建一个数据。在xshell /opt/testData/hive目录下新建一个数据。在xshell /opt/testData/hive目录下新建一个数据。在xshell /opt/testData/hive目录下新建一个数据。如果只进行了分组,没有排序,会将分组内的所有数据进行求和。

2022-10-21 13:58:50 1176

原创 Hive安装与配置及常见问题解决

1.HIVE的安装与配置打开虚拟机,连接xshell首先我们到之前配置好的core-site.xml里去修改一下配置文件cd /opt/software/hadoop/hadoop-2.9.2/etc/hadoop/vi core-site.xml在hadoop的配置文件core-site.xml中添加 hadoop.proxyuser.root.hosts *

2022-10-14 14:22:08 1369

原创 MapReduce课程设计 好友推荐功能教程

到Xshell cd /opt目录下创建testData,如果有就不需要创建,然后在testData目录下新建一个friends。在这里如果以前没有编写过xchall.sh这个脚本,那么我们在/user/local/bin目录下创建xchall.sh。然后在friends里上传我们最上面的创建的文本文档和打包的jar包。// 可能是间接好友。b.朋友圈两个非好友的人,存在共同好友人数越多,越值得推荐。c.每行的第一列名字是用户的名字,后面的是其对应的好友。c.每个用户,推荐值越高的可能认识的人排在前面。

2022-09-30 21:39:40 922 2

原创 HDFS完全分布式集群搭建与配置及常见问题总结

1.集群搭建准备三台虚拟机,主机名分别为data01,data02,data03修改每台虚拟机的/etc/hosts文件测试是否可以免密登录在data01上测试data02和data03是否能免密登录测试命令:同样在data02上测试data01和data03是否能免密登录同样在data03上测试data01和data02是否能免密登录2.安装hadoop安装的目录为/opt/software/hadoop一般情况下新安装的机器上只有opt/目录所以我们要自己新创建目录。

2022-09-17 10:54:12 808

原创 如何搭建可正常使用的centOS07系统虚拟机节点详细教程

mariadb由MySQL的创始人Michael Widenius主导开发,他早前曾以10亿美元的价格,将自己创建的公司MySQL AB卖给了SUN,此后,随着SUN被甲骨文收购,MySQL的所有权也落入Oracle的手中。相当于给系统或用户应用程序设置的一些参数,比如path,是告诉系统,当要求系统运行一个程序而没有告诉它程序所在的完整路径时,系统除了在当前目录下面寻找此程序外,还应到path中指定的路径去找。可以在Windows界面下用来访问远端不同系统下的服务器,从而比较好的达到远程控制终端的目的。

2022-09-16 19:15:25 1441 1

如何搭建可正常使用的centOS07系统虚拟机节点VIP教程

如何搭建虚拟机,搭建完的虚拟机怎么跟Xshell进行连接,然后xshell界面中对linux虚拟机的文件进行管理,包括创建文件、删除文件、重命名文件、编辑文件内容、修改文件权限等等操作,里面的各种操作命令代码。

2022-09-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除