自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

原创 HBase节点连接失败,HRegionServer Aborted

需要等待几秒钟后,使用命令。

2024-08-06 16:48:30 231

原创 Hive排错位置

我们 可以通过 Yarn UI和Spark RDD UI 做关联,通过网页查看错误。当执行hive语句时,常常遇到错误,但是不知道怎么看错误信息的情况。hive服务 / metastor服务出问题,查看此类日志。Spark RDD 的错误在Spark中,不在hive日志中。【配置Yarn的主机名】: 【端口号】(一般是8088)执行日志一般在hive语句运行过程中出错时查看。【hive安装路径下的目录】hive/logs。此类错误在hive的执行日志中可以查询到。/tmp/【用户名】/hive.log。

2024-07-12 09:22:20 231

原创 数据库注释中文乱码问题

我们连接hive数据库,在表中创建字段时,常常会在注释栏添加注释,但会遇到中文乱码问题。注释属于元数据的一部分,同样存储在mysql的metastore库中,如果metastore库的字符集不支持中文,就会导致中文显示乱码。不建议修改Hive元数据库的编码,此处我们在metastore中找存储注释的表,找到表中存储注释的字段,只改对应表对应字段的编码。本次案例使用DataGrip示范,其他软件可以类推。

2024-07-09 16:19:28 369

原创 版本号关系解释

最后的ccc小版本,往往是更改文字说明,或小的bug调整,改变影响并不大。aaa是大版本号,一般核心功能有极大变化,会改变大版本号。我们都可以看到应用程序都有版本号,那么版本号如何区别?版本号一般以“.”隔开,往往是3部分。bbb的改变往往是小功能的改变。

2024-07-09 09:24:19 138

原创 数据采集项目(一次搞全版)

Maxwell 是由美国Zendesk公司开源,用Java编写的MySQL变更数据抓取软件。它会实时监控MySQL数据库的数据变更操作(包括insert、update、delete),并将变更数据以 JSON 格式发送给 Kafka、Kinesi等流数据处理平台。DataX 是阿里巴巴开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。

2024-07-09 00:29:50 1071

原创 RDD-将代码部署到虚拟机执行

注意: 配置时,conf.setMaster(“local[*]”);直接使用命令行参数传值。spark根目录/examples/jars。./examples/jars/jar包名。4、检验要运行的类是否在jar包中。1、创建maven工程,编写代码。–class 要运行的全类名。从本地目录打开——>右键。2、打包maven工程。6、运行hadooop。使用压缩软件查看目录。

2024-06-20 17:34:18 108

原创 IDEA中maven工程控制台输出中文乱码问题

-Dfile.encoding=GB2312

2024-06-19 17:12:18 97

原创 Java垃圾回收器

JDK1.7开始,产生G1:面向多核,并行的垃圾回收算法。但一直到JDK1.8都默认使用CMS。JDK1.6、JDK1.8 默认使用 CMS :基于单cpu单核,性能较低。JDK1.9开始,默认使用G1。

2024-06-18 18:32:47 98

原创 串行、并发、并行

多个线程抢占一个cpu核,同时抢占,一个线程抢占后,其他线程阻塞。多个线程抢占一个cpu核,一个接一个抢占。一个线程抢占、执行完后,下一个再抢占。多个线程抢占多个cpu核,同时运行。

2024-06-18 18:27:34 105

原创 spark常用端口号总结

Spark查看当前Spark-shell运行任务情况:4040。Hadoop历史服务器端口号:19888。Spark历史服务器端口号:18080。端口号用来定位软件服务;ip号用来定位主机位置。

2024-06-18 09:25:35 446

原创 sleep和wait的区别

斜体的sleep()方法 – 静态方法 – 和对象无关。正体的wait()方法 – 成员方法。核心区别:静态方法和成员方法。

2024-06-18 09:09:34 200

原创 Spark概念及运行模式

目的:点击yarn(8088)上spark任务的history按钮,进入的是spark历史服务器(18080),而不再是yarn历史服务器(19888)。Spark弊端:过于依赖内存,且因为数据倾斜,当内存资源较少时,容易出错。集群模式下,spark会先向HDFS上传spark库,然后yarn会下载资源,然后跑程序,最后删除资源。spark自己搭建集群管理资源,因为spark是一个计算框架,对于资源调度方面,yarn更强势。spark是一个计算框架,所以计算所需资源,Spark需要依托于其他软件提供。

2024-06-17 20:02:50 885

原创 Hadoop集群报错,查看日志文件排错

一般为 $HADOOP_HOME/logs。

2024-05-21 16:41:43 143 1

原创 Hadoop集群搭建

1.配置网络重启network服务测试网络是否可用(ping 后加随意可联网的ip地址或域名即可)-- 网络可用,则可用在线安装插件(ctrl+C 退出网络测试回应界面)使用Xshell软件连接虚拟机。

2024-05-19 23:40:09 1026 1

电商数据模拟数据生成sql脚本

电商数据模拟数据生成sql脚本

2024-06-16

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除