小酱MaaFY-CSDN博客

原创 hive执行数据装载报错 Execution Error, return code 3 from org.apache.hadoop.hive.ql.exec.spark.SparkTask. Spa

2025-04-24 15:54:49 145

原创 HBase节点连接失败，HRegionServer Aborted

需要等待几秒钟后，使用命令。

2024-08-06 16:48:30 383

原创 Hive排错位置

我们可以通过 Yarn UI和Spark RDD UI 做关联，通过网页查看错误。当执行hive语句时，常常遇到错误，但是不知道怎么看错误信息的情况。hive服务 / metastor服务出问题，查看此类日志。Spark RDD 的错误在Spark中，不在hive日志中。【配置Yarn的主机名】: 【端口号】（一般是8088）执行日志一般在hive语句运行过程中出错时查看。【hive安装路径下的目录】hive/logs。此类错误在hive的执行日志中可以查询到。/tmp/【用户名】/hive.log。

2024-07-12 09:22:20 529

原创数据库注释中文乱码问题

我们连接hive数据库，在表中创建字段时，常常会在注释栏添加注释，但会遇到中文乱码问题。注释属于元数据的一部分，同样存储在mysql的metastore库中，如果metastore库的字符集不支持中文，就会导致中文显示乱码。不建议修改Hive元数据库的编码，此处我们在metastore中找存储注释的表，找到表中存储注释的字段，只改对应表对应字段的编码。本次案例使用DataGrip示范，其他软件可以类推。

2024-07-09 16:19:28 630

原创版本号关系解释

最后的ccc小版本，往往是更改文字说明，或小的bug调整，改变影响并不大。aaa是大版本号，一般核心功能有极大变化，会改变大版本号。我们都可以看到应用程序都有版本号，那么版本号如何区别？版本号一般以“.”隔开，往往是3部分。bbb的改变往往是小功能的改变。

2024-07-09 09:24:19 359

原创数据采集项目（一次搞全版）

Maxwell 是由美国Zendesk公司开源，用Java编写的MySQL变更数据抓取软件。它会实时监控MySQL数据库的数据变更操作（包括insert、update、delete），并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。DataX 是阿里巴巴开源的一个异构数据源离线同步工具，致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

2024-07-09 00:29:50 1657

原创 RDD-将代码部署到虚拟机执行

注意：配置时，conf.setMaster(“local[*]”);直接使用命令行参数传值。spark根目录/examples/jars。./examples/jars/jar包名。4、检验要运行的类是否在jar包中。1、创建maven工程，编写代码。–class 要运行的全类名。从本地目录打开——>右键。2、打包maven工程。6、运行hadooop。使用压缩软件查看目录。

2024-06-20 17:34:18 171

原创 IDEA中maven工程控制台输出中文乱码问题

-Dfile.encoding=GB2312

2024-06-19 17:12:18 211

原创 Java垃圾回收器

JDK1.7开始，产生G1：面向多核，并行的垃圾回收算法。但一直到JDK1.8都默认使用CMS。JDK1.6、JDK1.8 默认使用 CMS ：基于单cpu单核，性能较低。JDK1.9开始，默认使用G1。

2024-06-18 18:32:47 138

原创串行、并发、并行

多个线程抢占一个cpu核，同时抢占，一个线程抢占后，其他线程阻塞。多个线程抢占一个cpu核，一个接一个抢占。一个线程抢占、执行完后，下一个再抢占。多个线程抢占多个cpu核，同时运行。

2024-06-18 18:27:34 140

原创 spark常用端口号总结

Spark查看当前Spark-shell运行任务情况：4040。Hadoop历史服务器端口号：19888。Spark历史服务器端口号：18080。端口号用来定位软件服务；ip号用来定位主机位置。

2024-06-18 09:25:35 635

原创 sleep和wait的区别

斜体的sleep()方法 – 静态方法 – 和对象无关。正体的wait()方法 – 成员方法。核心区别：静态方法和成员方法。

2024-06-18 09:09:34 237

原创 Spark概念及运行模式

目的：点击yarn（8088）上spark任务的history按钮，进入的是spark历史服务器（18080），而不再是yarn历史服务器（19888）。Spark弊端：过于依赖内存，且因为数据倾斜，当内存资源较少时，容易出错。集群模式下，spark会先向HDFS上传spark库，然后yarn会下载资源，然后跑程序，最后删除资源。spark自己搭建集群管理资源，因为spark是一个计算框架，对于资源调度方面，yarn更强势。spark是一个计算框架，所以计算所需资源，Spark需要依托于其他软件提供。

2024-06-17 20:02:50 1045

原创 Hadoop集群报错，查看日志文件排错

一般为 $HADOOP_HOME/logs。

2024-05-21 16:41:43 282 1

原创 Hadoop集群搭建

1.配置网络重启network服务测试网络是否可用（ping 后加随意可联网的ip地址或域名即可）-- 网络可用，则可用在线安装插件（ctrl+C 退出网络测试回应界面）使用Xshell软件连接虚拟机。

2024-05-19 23:40:09 1170 2

weixin_47740650的博客