赤土炙焱-CSDN博客

原创 Java多线程（详解+代码）

进程是指在操作系统中运行的一个程序实例。每个进程都有自己独立的内存空间、程序计数器、寄存器和堆栈等。线程是进程内的执行单元。一个进程可以包含多个线程，它们共享进程的内存空间和系统资源。进程是程序的执行实例，拥有独立的资源和内存空间；而线程是进程内的执行单元，共享进程的资源和内存空间。进程之间是相互独立的，而线程之间共享同一进程的上下文和资源。

2024-07-18 13:47:17 373

原创 org.apache.spark.SparkUpgradeException: You may get a different result due to the upgrading of Spark

【代码】org.apache.spark.SparkUpgradeException: You may get a different result due to the upgrading of Spark。

2024-07-17 21:14:18 119

原创 python 读取 hdfs 数据

hdfs_ip写入自己的hdfs namenode主机的ip，端口号自己修改，用户名自己修改。使用python hdfs库进行访问hdfs。

2024-07-17 21:12:08 232

原创 hadoop103: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).

在启动hadoop服务的时候，遇到了这个问题：这个一看就是，密钥问题于是ssh 主机名就行测试需要输入密码，就说明这里有问题。

2024-04-10 23:04:36 349 4

原创 This private key will be ignored.Load key “assig2.pem“: bad permissionsPermission denied (publicke

修改密钥权限。

2024-04-10 23:03:46 213

原创本地linux怎样先亚马逊云服务器上传文件

使用亚马逊云服务器的密钥，并通过srp命令，

2024-04-06 00:20:44 302

原创 linux E: You don‘t have enough free space in /var/cache/apt/archives/. 空间不足

在ubuntu的亚马逊云计算机平台上，apt install的时候，报错，空间不足。

2024-04-06 00:19:03 268

原创 pycharm pyspark连接虚拟机的hive表读取数据

【代码】pycharm pyspark连接虚拟机的hive表读取数据。

2024-04-04 11:01:17 707

原创 Hbase org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet

【代码】Hbase org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet。

2024-04-04 10:59:15 214

原创 pyspark TypeError: code() argument 13 must be str, not int

pyspark3.0.0执行pyspark demo代码报错。

2024-03-29 17:46:23 756

原创 hive 初始化失败Caused by: com.mysql.cj.exceptions.CJCommunicationsException: Communications link failure

我用的是ubuntu系统，有些在my.cnf里面修改。

2024-03-29 17:44:53 403

原创 sqoop连接mysql Caused by: javax.net.ssl.SSLException: Received fatal alert: internal_error

登录mysql后我的mysql版本是5.7.x但是我的sqoop的mysql-connect驱动是5.1.x的版本，所以使用下面命令时报错了：报错：Caused by: javax.net.ssl.SSLException: Received fatal alert: internal_error在连接的时候，加上?useSSL=false

2024-03-24 16:52:59 434

原创 ToDesk 高速通道使用已结束

原来连接的对象，他的电脑在海外，因此下载向日葵了。

2024-03-24 16:52:40 9231 1

原创 Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream

spark版本：2.3.0。

2023-12-29 14:03:41 605

原创 ubuntu20 安装eclipse

2.通过 Snapcrafters 安装了 Eclipse 2019-03。1.下载安装eclipse snap软件包。使用eclipse确保已经安装了jdk。在桌面目录，点击eclipse图标即可。3.启动eclipse。

2023-12-24 14:35:25 1036

原创 linux centos 安装python

指定Python 安装的目标路径为/user/local/python3。将 Python 安装到系统中。python版本可以自己指定。如果软链接存在，删除即可。

2023-12-24 14:25:55 692

原创用户没有权限操作hadoop User: wu is not allowed to impersonate wu (state=08S01,code=0)

报错上面所示，当前用户没有权限。

2023-12-18 00:18:41 503

原创 hive 配置metastore hiveserver2服务开启

启动后需要等待一段时间，jdbc才能连接上hive服务。

2023-12-18 00:10:55 1187

原创 hive日常报错 | 处理步骤

我们从hive客户端不能很明确知道错误，这时候就需要就行拍错的额一些步骤了。

2023-12-09 17:12:28 674

原创 Sqoop安装部署 Linux

【代码】Sqoop安装部署 Linux。

2023-12-09 15:58:49 465

原创 spark 连接 hive 报错 Identifier principalName is unresolved (not a static field)

spark连接hive的mysql元数据库metastore，不能直接访问，需要通过metastore server间接访问因此需要开启元数据服务。

2023-12-08 11:59:21 626

原创 pyspark window 环境问题：Caused by: java.net.SocketTimeoutException: Accept timed out

SPARK_HOME。

2023-12-03 21:17:12 635 2

原创 flink 读取kafka 数据写入mysql

【代码】flink 读取kafka 数据写入mysql。

2023-11-30 23:55:13 732

原创 pandas read_csvParserError: Error tokenizing data. C error: EOF inside string starting at row 239886

添加：quoting=csv.QUOTE_NONE。时，CSV模块将不会在字段周围添加引号字符。参数的一个选项，它表示不引用任何字段。

2023-11-30 12:45:13 577

原创 Container被kill beyond the ‘VIRTUAL‘ memory limit. Current usage: 308.2 MB of 1 GB physical memory us

【代码】Container被kill beyond the ‘VIRTUAL‘ memory limit. Current usage: 308.2 MB of 1 GB physical memory us。

2023-11-29 23:08:32 456 1

原创 pyspark.stream DStream 转换为DataFrame 就行sql处理

【代码】pyspark.stream DStream 转换为DataFrame 就行sql处理。

2023-11-18 01:15:00 124 1

原创 pyspark报错：org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTimeout does not

pip install pyspark==版本号。

2023-11-17 11:23:53 216

原创解决向mysql插入数据，中文乱码问题

mysql默认的字符编码：latin1linux环境下的mysql，

2023-11-13 07:30:00 104

原创 matplotlib 图片中文乱码 missing from current font.

随便选择刚刚查看系统安装字体，里面带有CN的复制，粘贴修改为font.family。

2023-11-12 12:40:03 213 1

原创 pyspark 读取hdfs数据 failed on connection exception: java.net.ConnectException: 拒绝连接；

这个我也不是很懂，hosts映射也有，ssh localhost也可以。重新启动集群，pyspark。

2023-11-11 17:56:09 220 1

原创 java.lang.UnsupportedOperationException: Schema for type Any is not supported spark报错解决

我的代码分支没有返回值，加了下面图片红色的代码，分支给返回值，就可以了。spark自定义函数是有返回值的，返回值必须有，而且类型也要一样。

2023-10-13 20:16:44 292

初学c语言，以上是我的简单的认知，对我来说，写几个简单的方法是够用了。需要对从pop方法传入的参数num就行修改操作，初始化栈，对传入的栈指针，就行创建空间的修改操作。然后在主方法，就可以对传入的num就行读取。引用从push方法传进来的参数 num，当对指针不需要就行修改操作，只需引用。引用指针s里面的内容，判断是否为空。当对指针内部需要就行修改操作。以编程栈的功能来就行说明。有什么不对，还希望指教。因此不需要用&num。

2023-10-09 08:30:00 42 1

原创 export/server/jdk/bin/java: No such file or directory CMD: bad array subscript Java gateway process

window系统下和linux下的java环境冲突了，在python代码指定java的环境变量即可。

2023-10-08 15:11:16 512 1

原创 hive开窗函数大汇总-案例|代码+结果

DENSE_RANK(): 计算每一行在排序结果中的排名，如果存在相同的值，则不会跳过相应的排名。ROW_NUMBER(): 为每一行分配一个唯一的整数值，根据指定的排序顺序进行排序。RANK(): 计算每一行在排序结果中的排名，如果存在相同的值，则会跳过相应的排名。函数将返回每个学生的上一个学生的得分。函数将返回每个学生的下一个学生的得分。LAST_VALUE(col): 返回分组内的最后一个行的值。函数将返回每个班级中得分最高的学生的得分。函数将返回每个班级中得分最低的学生的得分。

2023-10-06 13:54:49 183 1

原创快速学会Git 使用命令

将暂存区的文件提交到本地库，并添加提交信息。：查看工作区文件的状态，包括已修改、已暂存等。：查看工作区与暂存区或本地库之间的文件差异。：创建一个新的分支，并切换到该分支。：查看所有分支，并标记当前所在分支。：将指定分支的更改合并到当前分支。：将工作区的文件添加到暂存区。：从工作区和暂存区中删除文件。：将本地库的更改推送到远程库。：将远程库的更改拉取到本地库。：撤销对工作区文件的修改。：从远程库克隆一个本地库。：撤销对文件的暂存操作。：将本地库与远程库关联。：切换到指定的分支。：查看远程库的信息。

2023-10-06 00:59:02 43 1

原创 hbase伪分布自带zookeeper 报错org.apache.hadoop.hbase.PleaseHoldException: Master is initializing

查找网上的教程，删除hbase在conf下的hbase-site.xml，里面的rootdir删除。所以我们需要找到hbase自带的zookeeper的文件放在哪里？zookeeper的数据存放地方在/tmp/hbase-root/zookeeper。但是，我的hbase是伪分布安装，且依靠自带的zookeeper。把version都删除，然后重启hbase就可以了。然后zookeeper相关的hbase也删除。

2023-09-20 13:02:56 434 1

原创错误: 找不到或无法加载主类 java | cmd命令行 java 类报错

在确定安装了jdk和设置了环境变量的前提下，可能就是环境变量设置搞错了。classpath前面是需要 .;随便编写一个后缀.java的类。在idea这个类是可以运行的。重新开启cmd窗口，编译运行。

2023-09-17 08:53:08 91 1

原创 kafka知识点--面试--理解

分布式的基于发布/订阅模式的消息队列。

2023-09-13 09:08:22 41 1

原创解决spark-Error:(24, 10) Unable to find encoder for type ProduceRecord. An implicit Encoder[ProduceRec

将case class样例类移到object对象外部。

2023-07-04 10:01:11 315

原创 Hbase 伪分布式安装部署

【代码】Hbase 伪分布式安装部署。

2023-07-02 14:51:10 441 1

空空如也

空空如也