南潇如梦
码龄5年
关注
提问 私信
  • 博客:417,741
    动态:660
    418,401
    总访问量
  • 207
    原创
  • 1,794,656
    排名
  • 787
    粉丝
  • 3
    铁粉

个人简介:编程小白

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:江西省
  • 加入CSDN时间: 2019-09-24
博客简介:

默主归沙的博客

博客描述:
大数据小白从0到正无穷大的编程之路,欢迎浏览哦~
查看详细资料
个人成就
  • 获得284次点赞
  • 内容获得37次评论
  • 获得2,297次收藏
  • 代码片获得1,522次分享
创作历程
  • 206篇
    2022年
  • 1篇
    2021年
成就勋章
TA的专栏
  • 日常踩坑记
    52篇
  • 大数据那些事
    85篇
  • 工作经验复盘
    8篇
  • 面试
    23篇
  • 大数据项目
    6篇
  • java
    31篇
  • 程序人生
    5篇
  • 运维
    5篇
  • python
    1篇
  • 学习资料推荐
    2篇
兴趣领域 设置
  • 大数据
    hadoophivesparketl
创作活动更多

AI大模型如何赋能电商行业,引领变革?

如何使用AI技术实现购物推荐、会员分类、商品定价等方面的创新应用?如何运用AI技术提高电商平台的销售效率和用户体验呢?欢迎分享您的看法

185人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

调度数据中断的错误排查

这个指令是对于yarn中mapreduce中慢数据进行查看,是否是任务产生了慢数据。如果有太多的任务,一定要暂停掉其他的hive中的任务。最近一次发现离线数据流居然凌晨调度失败,上午工作的时候被老板提起说数据断了,于是我果不其然发现有工作流的任务节点中间断开,运行失败。运行一个小时未果,于是就让运维去排查。重新跑,依然是卡在凌晨的节点上。
原创
发布博客 2022.11.12 ·
813 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

ck数据重复问题的解决之clickhouse的删除多分区的代码

但是存在一个问题,如果数据量比较大的话,使用ReplicatedMergeTree的速度是特别慢的,所以我们可以先在ck中插入数据之前,把重复的数据删掉,然后再插数据。这个代码主要是之前同步clickhouse的时候,发现调度同一天的时间账期要是运行了一次以上,clickhouse就会有重复数据。为了让数据不重复,其实我想到一种方式,把ck建表的引擎从megerTree()修改成ReplicatedMergeTree()。以上代码我是放在调度上的shell语句,
原创
发布博客 2022.10.31 ·
3005 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

presto的默认值

presto的默认值函数使用coalesce(column,0)hive的默认值的函数一般使用nvl。
原创
发布博客 2022.10.31 ·
1051 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive有关日期工作常用的内容

根据月份获取该月最后一天。– 计算每月最后一天。
原创
发布博客 2022.10.27 ·
1472 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

ftp登录笔记

以下是ftp日志的登录操作。ftp内部的文件夹路径和实际上在主机上看的文件路径不一致。
原创
发布博客 2022.10.27 ·
247 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

{“message“:“字段类型转换错误:你目标字段为[INT]类型,实际字段值为[10000800110000007202007181522149].“,“record“:[{“byteSize“:

datax把mysql的int类型导入hive。直接把hive这边的int改string。
原创
发布博客 2022.10.27 ·
1220 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

经历两次辞退,和一次主动离职剖析辞退的原因

我喜欢做一个透明人,但是同事总是和我关系好,本来我生活只有工作,和同事只聊工作,一些不顺遂的事情被她了解了,感觉我的缺点一直被放大化。有时候自己的个人事情都能在公司一传百,百传十,领导要是听到你这样那样的缺点,就不太好了。深圳这种大城市加班挺多的,如果运气好,在一个不经常加班的企业,就跟着大部队不加班了。6.1 有gitlab账号,就把公司的代码全部看一遍,知道大概需要开发什么需求。领导的事情不能拖,指不定就是你的暗期考核事情,直接反映你的工作态度。正常就可以,不要过于好,少聊自己的私事。
原创
发布博客 2022.10.27 ·
496 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

有关职场的碎碎念

如果自己技术真的不太行,怎么办?
原创
发布博客 2022.10.21 ·
177 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

ck报错is not presented in input data.: While executing ORCBlockInputFormat: While executing HDFSSource

(我凌晨一点找bug就是因为这个原因,就是删表再建表,查询的明明是之后的表,但是ck就是找不到)3、如图这个字段我感觉不太规范 :7dappointment_movie_dct。1、hive表里面没有数据,这样需要手动建表。2、hive的表和ck的表字段不一致。我已经遇见好多这样的问题了。数字最好不要放在第一个位置。
原创
发布博客 2022.10.15 ·
1094 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

perCPU arena getcpu() not available. Setting narenas to 128

导入到clickhuse的数据日志perCPU arena getcpu() not available. Setting narenas to 128。
原创
发布博客 2022.10.15 ·
451 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据开发的习惯

大数据开发工作总结
原创
发布博客 2022.10.15 ·
522 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DB::Exception: Sorting key contains nullable columns, but `setting allow_nullable_key` is disabled.

注意:ck的排序的主键不要Nullable()
原创
发布博客 2022.10.15 ·
1104 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

hive分区表同步到Clickhouse代码

【代码】hive分区表同步到Clickhouse代码。
原创
发布博客 2022.10.13 ·
530 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

2022-10-09 17:50:17.215 [job-0] ERROR HdfsWriter$Job - 判断文件路径[message:filePath =/data/ods/ods_bms_us

其实就是hdfs路径问题。在企业中经常会搞高可用模式,如果datax的json设置的是nn01为路径,那如果nn02变成主节点,那就会路径失败。nn01和nn02都是高可用主机的别名(我是在生产环境中找的别名)namenode的active和standby模式的切换。从nn01的standby切换为active。从nn02的active切换为standby。在datax导入到hive中,会有这种报错。查看高可用的是否为主节点状态。
原创
发布博客 2022.10.09 ·
1265 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

有关datax的20221008 [INFO ] [2022-10-09 19:27:07] Finished format job file: /web/soft/datax/

注意:这个不是报错,如果看见最后是成功那就是成功!
原创
发布博客 2022.10.09 ·
355 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

FAILED: SemanticException [Error 10036]: Duplicate column name: content_name

就是字段重复了,把重复的字段改成不重复的就可以了。hive建表的时候报错。
原创
发布博客 2022.10.08 ·
1066 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Presto和Hive的日期处理(工作总结)会持续更新

1、获取当前时间的月份,并且把日期转为20221007模式。
原创
发布博客 2022.10.07 ·
869 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

DataX导数据从mysql到hive回顾

注意:一定要先开启meta,再开启hive!太久没碰datax了,没想到真的忘记了。mysql可以确定一下表。
原创
发布博客 2022.09.27 ·
1241 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

spark面试常问问题

如果RDD D中的分区数据丢失,是只需要在RDD C的分区上重算?RDD做如下转换流程:RDD A——>RDD B——>RDD C-—>RDD D。spark中的reduceByKey和groupByKey的区别?Spark为什么要持久化,一般什么场景下要进行persist操作?Spark为什么要持久化,一般什么场景下要进行persist操作?Spark中cache与persist的区别与联系?Spark为什么要对数据进行序列化,有什么优缺点?RDD的“弹性”体现在哪?Spark的rdd有几种操作类型?..
原创
发布博客 2022.08.10 ·
293 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

有关Spark产生Jar冲突的杂谈

一般情况下,我们可以先核对依赖的版本是否和软件一样,比如mysql-jdbc或者hive的元数据版本信息,一定要和服务器中的一样,不能偷懒什么都写最高版本的。主要是不同的软件依赖,会下载对应的子依赖,如果在执行程序过程中需要加载其他的内容。一般是通过加载类名,如果有一样的名称,但是没有加载到程序应该加载的类,就会报错。在做spark开发的时候,经常因为导入不同的maven加载依赖,导致jar冲突。如果使用idea的商业版本进行开发,我们可以直接查看依赖树。为什么会发现jar冲突?如何排查Jar冲突?...
原创
发布博客 2022.08.05 ·
661 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多