![](https://img-blog.csdnimg.cn/20190927151124774.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
BigData FAQ Summary
大数据场景问题汇总
程序猿与汪
一枚专注于大数据领域知识的程序汪
展开
-
解决:superset db upgrade时报错:ModuleNotFoundError: No module named ‘dataclasses‘
错误详情:Traceback (most recent call last): File "/opt/module/miniconda3/envs/superset/bin/superset", line 5, in <module> from superset.cli import superset File "/opt/module/miniconda3/envs/superset/lib/python3.6/site-packages/superset/__init__.原创 2020-12-17 18:03:36 · 18122 阅读 · 5 评论 -
HDFS错误:Permission denied: user=dr.who, access=READ_EXECUTE, inode=“/“:root:supergroup:drwx------
今天在做Hadoop 分布式实例的时候遇到了这个错误:Permission denied: user=dr.who, access=READ_EXECUTE, inode="/tmp":root:supergroup:drwxrwx— 出错原因:tmp 权限不够hdfs dfs -chmod -R 755 /...原创 2020-07-18 02:02:36 · 595 阅读 · 0 评论 -
疑难杂症-Ambari报错Error occured during stack advisor command invocation
Ambari出现Error occured during stack advisor command invocation错误,并且配置NameNode HA时出现500 status code错误。这里是因为权限问题,修改一下权限就行了:chown -R ambari /var/run/ambari-server这里的ambari换成配置ambari-server时的用户名...原创 2020-07-18 02:02:23 · 1026 阅读 · 0 评论 -
智慧出行/FAQ-SPARK-4105,只要你spark版本低于2.3版本是一定会出现这个bug的正常的
SPARK-4105错误,只要你spark版本低于2.3版本是一定会出现这个bug的正常的正常的task的生命周期–>50–60s但是突然有一次task运行了2个小时还没有结束我们就怀疑可能是出现了数据倾斜的问题—>查看一下yarn日志:yarn logs -applicationiD YARNID我们看yarn的日志,日常上出现了shuffle fetchError sparkshuffle找不到的错误生成中出现慢磁盘现象解决办法,就是开始推测执行,等于是让task换一台机器进行执行原创 2020-07-16 22:40:04 · 207 阅读 · 0 评论 -
智慧出行/FAQ-报Offsets out of range with no configured reset policy for partition错误
Offsets out of range with no configured reset policy for partition假设我们有10000个数据sgment就把它分为0-1000,1000-2000,2000-3000…当我们消费到4500的时候报错了,然后也没有进行处理,过了kafka的生命周期,kafka就把数据全部清理掉了,当kafka在次进行消费,4501时没有数据了就报Offsets out of range with no configured reset policy f原创 2020-07-15 00:08:04 · 3773 阅读 · 0 评论 -
大数据疑难杂症-使用CDH启flume他有时候监听不到文件夹数据(CDH的一个bug)
放到一个shell脚本里面,加入到linux定时器当中去,定时的去启一下linux定时器原创 2020-06-03 22:30:24 · 567 阅读 · 0 评论 -
大数据疑难杂症-jar包冲突问题解决方案
产生原因当一个大数据工程,会用到多种组件,比如:spark,fink,在spark中会使用scala语言,内部有个而fink恰恰也使用的是此函数,但是他们使用的scala的版本是不一致的,函数名称一致,但是其内在的代码已经因为版本的变动发生了本质变化,这个时候就会产生一个jar包冲突问题解决办法IDEA插件...原创 2020-06-01 15:59:53 · 214 阅读 · 0 评论 -
智慧出行-数据回放的断点续传解决方案
1.问题背景通常我们使用flume和kafka集成,都是使用flume监控文件,会在配置source时的命令,例如:tail -F 文件名,这种方式依然会存在一个问题,当flume的agent进程由于各种原因挂掉一段时间之后,就会产生断点,无法续上之前传输的内容,只能从新开始.2.解决方案:(1)低版本flume第一种方案,是在使用tail -F命令的地方修改a1.sources.r2.command=tail -n +$(tail -n1 /root/log) -F /root/data原创 2020-06-01 09:07:52 · 224 阅读 · 0 评论 -
大数据疑难杂症-WARN [kafka-producer-network-thread | producer-1] - [Producer clientId=producer-1] Connectio
环境统一:CDH:5.14.2Kafka:3.0.1报错截图解决办法:在hosts文件下设置ip映射成功运行:原创 2020-05-28 23:55:26 · 5301 阅读 · 0 评论 -
大数据疑难杂症-安装hive后启动失败问题
目录标题1.报错截图2.原因3.解决方案1.报错截图2.原因没有hive的元数据表。3.解决方案1)在配置hive-site.xml的jdbc的url时,在连接中加上createDatabaseIfNotExist=true2)使用该命令创建hive元数据表schematool -initSchema -dbType mysql...原创 2020-05-07 22:40:31 · 216 阅读 · 0 评论 -
大数据基础-全流程大数据实验环境搭建,帮你迈出第一步
1.设置网络vi /etc/sysconfig/network-scripts/ifcfg-ens33BOOTPROTO=“static”IPADDR=192.168.52.100NETMASK=255.255.255.0GATEWAY=192.168.52.1DNS1=192.168.52.12.关闭防火墙systemctl stop firewalld.service /...原创 2020-04-18 22:56:47 · 641 阅读 · 0 评论 -
大数据-linux基础操作,虚拟机,shell编程
省市原创 2020-04-16 12:37:11 · 305 阅读 · 0 评论