自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 数仓搭建的思路扩充

数仓 重点在于建模,也就是理清思路,知道要怎么做,还要很具体的知道每个表用来干什么,每个表需要哪些字段。数仓分层 可以使用不同的库来区分。多个数据层用多个数据库来存放不同层的数据。即席查询 使用不同的表名区分主题。统一放在ads层就可以。然后将每个部门需要的数据,推送到相应部门自己的数据库中,数据量不大就推全量,数据量大就推增量。假设财务部门的即席查询,那就建立一个财务的库,专门用来接收财务...

2020-01-28 22:43:35 620

原创 部署spark定时任务

使用crontab组件crontab -l查询定时任务列表crontab -e编辑定时任务的列表,包括添加和删除shell脚本命名后 chmod +x ***.sh 给shell脚本执行权限* * * * * 分别表示 分 时 日 月 年 45 16 * * * /opt/moudle/etl.sh表示在16点45分执行etl脚本shell脚本里面把 \ 的换行全部去掉。路径如果不...

2019-12-04 16:49:03 735

原创 关于CDH相关的hadoop服务时间错误问题

date查看系统时间发现没问题进入/etc/localtime 发现localtime软连接的时间是纽约时间去/usr/share/zoneinfo/Asia/Shanghai下面拿到北京时间的文件不可以直接删除localtime之后cp过去要软连接过去ln -s /usr/share/zoneinfo/Asia/Shanghai /etc/localtime这里要先确认的是,系统时...

2019-12-04 11:45:38 182

原创 CDH磁盘爆满之后的调整和问题

1.大占用量的文件处理①这次找到的大占用量的文件是因为之前在开启flume的时候采用了后台启动进程的方法,导致在flume的运行过程中产生了总计300G的日志文件,主要是使用了nohup这个方式,以后避免在生产过程中采用nohup方法,从而避免产生nohup很大日志的失误.②这次在解决过程中出现了一个操作失误,nohup文件不应该直接采用rm -rf的命令直接删除,这种操作很容易产生因为文件路...

2019-12-02 14:50:48 1884

原创 rabbitMQ整合kafka

公司使用MQTT协议进行物联网传输,数据进入rabbitMQ,接入spark的途径采用rabbitMQ->flume->kafka->sparkflumesource使用自定义source,具体代码当然是去git找。##github地址 https://github.com/gmr/rabbitmq-flume-plugin找到后打成jar包,加入到flume的jar...

2019-11-22 10:59:16 869

原创 记录一次hadoop的空间清理

使用CDH遇到机器并没有跑什么生产项目,但是产生了将近300G/每个节点的数据。过程中使用hadoop fs -du -h / 来查看hadoop根目录下文件的空间占用量,在这里看到spark占用了差不多1.3T左右的磁盘空间。同时确定spark并没有需要落定在本地的生产数据,从而确定占用空间的都是代码运行的时候产生的运行文件。确定可以删除,那就果断删了它们,这里使用hdfs -rm -r ...

2019-11-22 10:23:04 3767

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除