- 博客(44)
- 收藏
- 关注
原创 Java多线程(详解+代码)
进程是指在操作系统中运行的一个程序实例。每个进程都有自己独立的内存空间、程序计数器、寄存器和堆栈等。线程是进程内的执行单元。一个进程可以包含多个线程,它们共享进程的内存空间和系统资源。进程是程序的执行实例,拥有独立的资源和内存空间;而线程是进程内的执行单元,共享进程的资源和内存空间。进程之间是相互独立的,而线程之间共享同一进程的上下文和资源。
2024-07-18 13:47:17 373
原创 org.apache.spark.SparkUpgradeException: You may get a different result due to the upgrading of Spark
【代码】org.apache.spark.SparkUpgradeException: You may get a different result due to the upgrading of Spark。
2024-07-17 21:14:18 119
原创 python 读取 hdfs 数据
hdfs_ip写入自己的hdfs namenode主机的ip,端口号自己修改,用户名自己修改。使用python hdfs库 进行访问hdfs。
2024-07-17 21:12:08 232
原创 hadoop103: Permission denied (publickey,gssapi-keyex,gssapi-with-mic,password).
在启动hadoop服务的时候,遇到了这个问题:这个一看就是,密钥问题于是ssh 主机名就行测试需要输入密码,就说明这里有问题。
2024-04-10 23:04:36 349 4
原创 This private key will be ignored.Load key “assig2.pem“: bad permissionsPermission denied (publicke
修改密钥权限。
2024-04-10 23:03:46 213
原创 linux E: You don‘t have enough free space in /var/cache/apt/archives/. 空间不足
在ubuntu的亚马逊云计算机平台上,apt install的时候,报错,空间不足。
2024-04-06 00:19:03 268
原创 Hbase org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet
【代码】Hbase org.apache.hadoop.hbase.ipc.ServerNotRunningYetException: Server is not running yet。
2024-04-04 10:59:15 214
原创 pyspark TypeError: code() argument 13 must be str, not int
pyspark3.0.0执行pyspark demo代码 报错。
2024-03-29 17:46:23 756
原创 hive 初始化失败Caused by: com.mysql.cj.exceptions.CJCommunicationsException: Communications link failure
我用的是ubuntu系统,有些在my.cnf里面修改。
2024-03-29 17:44:53 403
原创 sqoop连接mysql Caused by: javax.net.ssl.SSLException: Received fatal alert: internal_error
登录mysql后我的mysql版本是5.7.x但是我的sqoop的mysql-connect驱动是5.1.x的版本,所以使用下面命令时报错了:报错:Caused by: javax.net.ssl.SSLException: Received fatal alert: internal_error在连接的时候,加上?useSSL=false
2024-03-24 16:52:59 434
原创 Exception in thread “main“ java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream
spark版本:2.3.0。
2023-12-29 14:03:41 605
原创 ubuntu20 安装eclipse
2.通过 Snapcrafters 安装了 Eclipse 2019-03。1.下载安装eclipse snap软件包。使用eclipse确保已经安装了jdk。在桌面目录,点击eclipse图标即可。3.启动eclipse。
2023-12-24 14:35:25 1036
原创 linux centos 安装python
指定Python 安装的目标路径为/user/local/python3。将 Python 安装到系统中。python版本可以自己指定。如果软链接存在,删除即可。
2023-12-24 14:25:55 692
原创 用户没有权限操作hadoop User: wu is not allowed to impersonate wu (state=08S01,code=0)
报错上面所示,当前用户没有权限。
2023-12-18 00:18:41 503
原创 spark 连接 hive 报错 Identifier principalName is unresolved (not a static field)
spark连接hive的mysql元数据库metastore,不能直接访问,需要通过metastore server间接访问因此需要开启元数据服务。
2023-12-08 11:59:21 626
原创 pyspark window 环境问题:Caused by: java.net.SocketTimeoutException: Accept timed out
SPARK_HOME。
2023-12-03 21:17:12 635 2
原创 pandas read_csvParserError: Error tokenizing data. C error: EOF inside string starting at row 239886
添加:quoting=csv.QUOTE_NONE。时,CSV模块将不会在字段周围添加引号字符。参数的一个选项,它表示不引用任何字段。
2023-11-30 12:45:13 577
原创 Container被kill beyond the ‘VIRTUAL‘ memory limit. Current usage: 308.2 MB of 1 GB physical memory us
【代码】Container被kill beyond the ‘VIRTUAL‘ memory limit. Current usage: 308.2 MB of 1 GB physical memory us。
2023-11-29 23:08:32 456 1
原创 pyspark.stream DStream 转换为DataFrame 就行sql处理
【代码】pyspark.stream DStream 转换为DataFrame 就行sql处理。
2023-11-18 01:15:00 124 1
原创 pyspark报错:org.apache.spark.api.python.PythonUtils.getPythonAuthSocketTimeout does not
pip install pyspark==版本号。
2023-11-17 11:23:53 216
原创 matplotlib 图片中文乱码 missing from current font.
随便选择刚刚查看系统安装字体,里面带有CN的复制,粘贴修改为font.family。
2023-11-12 12:40:03 213 1
原创 pyspark 读取hdfs数据 failed on connection exception: java.net.ConnectException: 拒绝连接;
这个我也不是很懂,hosts映射也有,ssh localhost也可以。重新启动集群,pyspark。
2023-11-11 17:56:09 220 1
原创 java.lang.UnsupportedOperationException: Schema for type Any is not supported spark报错解决
我的代码分支没有返回值,加了下面图片红色的代码,分支给返回值,就可以了。spark自定义函数是有返回值的,返回值必须有,而且类型也要一样。
2023-10-13 20:16:44 292
原创 c语言 指针的基础理解 直接上手解读
初学c语言,以上是我的简单的认知,对我来说,写几个简单的方法是够用了。需要对 从pop方法传入的参数num就行修改操作,初始化栈,对传入的栈指针,就行创建空间的修改操作。然后在主方法,就可以对传入的num就行读取。引用从push方法传进来的参数 num,当对指针不需要就行修改操作,只需引用。引用指针s里面的内容,判断是否为空。当对指针内部需要就行修改操作。以编程栈的功能来就行说明。有什么不对,还希望指教。因此不需要用&num。
2023-10-09 08:30:00 42 1
原创 export/server/jdk/bin/java: No such file or directory CMD: bad array subscript Java gateway process
window系统下和linux下的java环境冲突了,在python代码指定java的环境变量即可。
2023-10-08 15:11:16 512 1
原创 hive开窗函数大汇总-案例|代码+结果
DENSE_RANK(): 计算每一行在排序结果中的排名,如果存在相同的值,则不会跳过相应的排名。ROW_NUMBER(): 为每一行分配一个唯一的整数值,根据指定的排序顺序进行排序。RANK(): 计算每一行在排序结果中的排名,如果存在相同的值,则会跳过相应的排名。函数将返回每个学生的上一个学生的得分。函数将返回每个学生的下一个学生的得分。LAST_VALUE(col): 返回分组内的最后一个行的值。函数将返回每个班级中得分最高的学生的得分。函数将返回每个班级中得分最低的学生的得分。
2023-10-06 13:54:49 183 1
原创 快速学会Git 使用命令
将暂存区的文件提交到本地库,并添加提交信息。:查看工作区文件的状态,包括已修改、已暂存等。:查看工作区与暂存区或本地库之间的文件差异。:创建一个新的分支,并切换到该分支。:查看所有分支,并标记当前所在分支。:将指定分支的更改合并到当前分支。:将工作区的文件添加到暂存区。:从工作区和暂存区中删除文件。:将本地库的更改推送到远程库。:将远程库的更改拉取到本地库。:撤销对工作区文件的修改。:从远程库克隆一个本地库。:撤销对文件的暂存操作。:将本地库与远程库关联。:切换到指定的分支。:查看远程库的信息。
2023-10-06 00:59:02 43 1
原创 hbase伪分布 自带zookeeper 报错org.apache.hadoop.hbase.PleaseHoldException: Master is initializing
查找网上的教程,删除hbase在conf下的hbase-site.xml,里面的rootdir删除。所以我们需要找到hbase自带的zookeeper的文件放在哪里?zookeeper的数据存放地方在/tmp/hbase-root/zookeeper。但是,我的hbase是伪分布安装,且依靠自带的zookeeper。把version都删除,然后重启hbase就可以了。然后zookeeper相关的hbase也删除。
2023-09-20 13:02:56 434 1
原创 错误: 找不到或无法加载主类 java | cmd命令行 java 类报错
在确定安装了jdk和设置了环境变量的前提下,可能就是环境变量设置搞错了。classpath前面是需要 .;随便编写一个后缀.java的类。在idea这个类是可以运行的。重新开启cmd窗口,编译运行。
2023-09-17 08:53:08 91 1
原创 解决spark-Error:(24, 10) Unable to find encoder for type ProduceRecord. An implicit Encoder[ProduceRec
将case class样例类移到object对象外部。
2023-07-04 10:01:11 315
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人