- 博客(10)
- 收藏
- 关注
原创 RDD、DataFrame、DataSet的概念、区别联系、相互转换操作
这使得 Spark SQL 得以洞察更多的结构信息,从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性的优化,最终达到大幅提升运行时效率的目标。RDD(Resilient Distributed Datasets) ,弹性分布式数据集, 是分布式内存的一个抽象概念,RDD提供了一种高度受限的共享内存模型,即RDD是只读的记录分区的集合,只能通过在其他RDD执行确定的转换操作(如map、join和group by)而创建,然而这些限制使得实现容错的开销很低。
2022-12-09 19:19:15 1638
原创 Spark-SQL连接Hive 的五种方法
因为 Spark Thrift Server 的接口和协议都和 HiveServer2 完全一致,因此我们部署好 Spark Thrift Server 后,可以直接使用 hive 的 beeline 访问 Spark Thrift Server 执行相关语句。3.运行bin/目录下的spark-sql.cmd 或者打开cmd,在 D:\spark\spark-3.0.0-bin-hadoop3.2\bin当中直接运行spark-sql。5.到spark的bin目录下打开spark-shell.cmd。
2022-12-09 19:00:22 5899
原创 Spark-SQL连接JDBC的方式及代码写法
Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。1.3.3 兼容 Hive。在已有的仓库上直接运行 SQL 或者 HQL。1.2.1 易整合。无缝的整合了 SQL 查询和 Spark 编程。1.2.4 标准数据连接。通过 JDBC 或者 ODBC 来连接。1.2.2 统一的数据访问。使用相同的方式连接不同的数据源。1.首先启动thriftserver服务。2.打开IDEA导入hive-jdbc包。Spark-SQL概述。
2022-12-09 18:11:18 933
原创 Flume汇入数据到Hive和Hbase
中找寻下列JAR包,放入到flume/lib中。如果flume中有重名的则先删除flume中的再进行复制。首先打开我们的虚拟机连接xshell,打开 hdfs,yarn,zookeeper集群。(3)然后写一个flume的配置文件flume-into-hbase.conf。和hive/hcatalog/share/hcatalog/3.在flume的conf路径中编写配置文件。(2)在/root中创建test.log文件。2.在/root中创建hive.log文件。5.启动metastore服务。
2022-11-12 11:33:52 659
原创 hive整合Hbase
整合完成之后,如果在hive当中创建的为内部表,那么在hive中删除该表时,hbase上对应的表也会删除;如果在hive当中创建的为外部表,那么在hive中删除该表时,不会影响hbase。3. 在hive中创建映射表,创建完成后在hbase中查看是否同时在hbase中也创建成功(2.将hbase lib目录下的所有文件复制到hive lib目录中。先删除hive/lib目录下hbase开头的jar包。通过Hbase put添加数据,Hive查看添加数据。创建之前要先启动hbase。
2022-11-04 20:19:25 123
原创 Hive函数
第三个参数为默认值(当往上第n行为NULL时候,取默认值,如不指定,则为NULL)。同样在xshell /opt/testData/hive目录下新建一个数据。同样在xshell /opt/testData/hive目录下新建一个数据。在xshell /opt/testData/hive目录下新建一个数据。在xshell /opt/testData/hive目录下新建一个数据。在xshell /opt/testData/hive目录下新建一个数据。如果只进行了分组,没有排序,会将分组内的所有数据进行求和。
2022-10-21 13:58:50 1176
原创 Hive安装与配置及常见问题解决
1.HIVE的安装与配置打开虚拟机,连接xshell首先我们到之前配置好的core-site.xml里去修改一下配置文件cd /opt/software/hadoop/hadoop-2.9.2/etc/hadoop/vi core-site.xml在hadoop的配置文件core-site.xml中添加 hadoop.proxyuser.root.hosts *
2022-10-14 14:22:08 1369
原创 MapReduce课程设计 好友推荐功能教程
到Xshell cd /opt目录下创建testData,如果有就不需要创建,然后在testData目录下新建一个friends。在这里如果以前没有编写过xchall.sh这个脚本,那么我们在/user/local/bin目录下创建xchall.sh。然后在friends里上传我们最上面的创建的文本文档和打包的jar包。// 可能是间接好友。b.朋友圈两个非好友的人,存在共同好友人数越多,越值得推荐。c.每行的第一列名字是用户的名字,后面的是其对应的好友。c.每个用户,推荐值越高的可能认识的人排在前面。
2022-09-30 21:39:40 922 2
原创 HDFS完全分布式集群搭建与配置及常见问题总结
1.集群搭建准备三台虚拟机,主机名分别为data01,data02,data03修改每台虚拟机的/etc/hosts文件测试是否可以免密登录在data01上测试data02和data03是否能免密登录测试命令:同样在data02上测试data01和data03是否能免密登录同样在data03上测试data01和data02是否能免密登录2.安装hadoop安装的目录为/opt/software/hadoop一般情况下新安装的机器上只有opt/目录所以我们要自己新创建目录。
2022-09-17 10:54:12 808
原创 如何搭建可正常使用的centOS07系统虚拟机节点详细教程
mariadb由MySQL的创始人Michael Widenius主导开发,他早前曾以10亿美元的价格,将自己创建的公司MySQL AB卖给了SUN,此后,随着SUN被甲骨文收购,MySQL的所有权也落入Oracle的手中。相当于给系统或用户应用程序设置的一些参数,比如path,是告诉系统,当要求系统运行一个程序而没有告诉它程序所在的完整路径时,系统除了在当前目录下面寻找此程序外,还应到path中指定的路径去找。可以在Windows界面下用来访问远端不同系统下的服务器,从而比较好的达到远程控制终端的目的。
2022-09-16 19:15:25 1441 1
如何搭建可正常使用的centOS07系统虚拟机节点VIP教程
2022-09-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人