- 博客(14)
- 收藏
- 关注
原创 Hive排错位置
我们 可以通过 Yarn UI和Spark RDD UI 做关联,通过网页查看错误。当执行hive语句时,常常遇到错误,但是不知道怎么看错误信息的情况。hive服务 / metastor服务出问题,查看此类日志。Spark RDD 的错误在Spark中,不在hive日志中。【配置Yarn的主机名】: 【端口号】(一般是8088)执行日志一般在hive语句运行过程中出错时查看。【hive安装路径下的目录】hive/logs。此类错误在hive的执行日志中可以查询到。/tmp/【用户名】/hive.log。
2024-07-12 09:22:20 231
原创 数据库注释中文乱码问题
我们连接hive数据库,在表中创建字段时,常常会在注释栏添加注释,但会遇到中文乱码问题。注释属于元数据的一部分,同样存储在mysql的metastore库中,如果metastore库的字符集不支持中文,就会导致中文显示乱码。不建议修改Hive元数据库的编码,此处我们在metastore中找存储注释的表,找到表中存储注释的字段,只改对应表对应字段的编码。本次案例使用DataGrip示范,其他软件可以类推。
2024-07-09 16:19:28 369
原创 版本号关系解释
最后的ccc小版本,往往是更改文字说明,或小的bug调整,改变影响并不大。aaa是大版本号,一般核心功能有极大变化,会改变大版本号。我们都可以看到应用程序都有版本号,那么版本号如何区别?版本号一般以“.”隔开,往往是3部分。bbb的改变往往是小功能的改变。
2024-07-09 09:24:19 138
原创 数据采集项目(一次搞全版)
Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控MySQL数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
2024-07-09 00:29:50 1071
原创 RDD-将代码部署到虚拟机执行
注意: 配置时,conf.setMaster(“local[*]”);直接使用命令行参数传值。spark根目录/examples/jars。./examples/jars/jar包名。4、检验要运行的类是否在jar包中。1、创建maven工程,编写代码。–class 要运行的全类名。从本地目录打开——>右键。2、打包maven工程。6、运行hadooop。使用压缩软件查看目录。
2024-06-20 17:34:18 108
原创 Java垃圾回收器
JDK1.7开始,产生G1:面向多核,并行的垃圾回收算法。但一直到JDK1.8都默认使用CMS。JDK1.6、JDK1.8 默认使用 CMS :基于单cpu单核,性能较低。JDK1.9开始,默认使用G1。
2024-06-18 18:32:47 98
原创 串行、并发、并行
多个线程抢占一个cpu核,同时抢占,一个线程抢占后,其他线程阻塞。多个线程抢占一个cpu核,一个接一个抢占。一个线程抢占、执行完后,下一个再抢占。多个线程抢占多个cpu核,同时运行。
2024-06-18 18:27:34 105
原创 spark常用端口号总结
Spark查看当前Spark-shell运行任务情况:4040。Hadoop历史服务器端口号:19888。Spark历史服务器端口号:18080。端口号用来定位软件服务;ip号用来定位主机位置。
2024-06-18 09:25:35 446
原创 sleep和wait的区别
斜体的sleep()方法 – 静态方法 – 和对象无关。正体的wait()方法 – 成员方法。核心区别:静态方法和成员方法。
2024-06-18 09:09:34 200
原创 Spark概念及运行模式
目的:点击yarn(8088)上spark任务的history按钮,进入的是spark历史服务器(18080),而不再是yarn历史服务器(19888)。Spark弊端:过于依赖内存,且因为数据倾斜,当内存资源较少时,容易出错。集群模式下,spark会先向HDFS上传spark库,然后yarn会下载资源,然后跑程序,最后删除资源。spark自己搭建集群管理资源,因为spark是一个计算框架,对于资源调度方面,yarn更强势。spark是一个计算框架,所以计算所需资源,Spark需要依托于其他软件提供。
2024-06-17 20:02:50 885
原创 Hadoop集群搭建
1.配置网络重启network服务测试网络是否可用(ping 后加随意可联网的ip地址或域名即可)-- 网络可用,则可用在线安装插件(ctrl+C 退出网络测试回应界面)使用Xshell软件连接虚拟机。
2024-05-19 23:40:09 1026 1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人