自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 记一次Spark Job碰到的问题

shuffle read的时候数据的分区数则是由spark提供的一些参数控制。可以想到的是,如果这个参数值设置的很小,同时shuffle read的量很大,那么将会导致一个task需要处理的数据非常大。shuffle write的分区数由上一阶段的RDD分区数控制,shuffle read的分区数则是由Spark提供的一些参数控制。数据倾斜,导致某个分区数据量巨大(因为要做分区器,所以数据倾斜也没有办法),解决办法就是给大的Key加前缀,随机发到不同的分区。的错误,也就是executor lost的意思。

2022-09-23 19:15:44 334 1

原创 Git提交代码流程

git提交流程

2022-09-05 17:13:44 817

原创 不可见字符‘\x00‘的切分

python不可见字符的切分

2022-08-25 15:25:23 113

原创 表锁和行锁

所以加过排他锁的数据行在其他事务种是不能修改数据的,也不能通过forupdate和lockinsharemode锁的方式查询数据,但可以直接通过select…响应的行上的,要是对应的SQL语句没有走索引,则会全表扫描,行锁则无法实现,取而代之的是表锁,此时其它事务无法对当前表进行更新或插入操作。如果用户A在进行了上述操作后,事务还未提交,则B无法对2~6之间的记录进行更新或插入记录,会阻塞,当A将事务提交后,B的更新操作会执行。,其它事务可以读取,但不能进行更新和插入操作。其他进程会堵塞读和写。...

2022-07-23 16:55:19 186

原创 在使用 shell脚本,结果hadoop命令没找到

在写DataX的全量更新的脚本,结果报的错误,后面发现原因是将系统变量$PATH作为变量传入,导致的错误即将改成即可。

2022-07-06 13:55:12 532

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除