大数据
XDSXHDYY
逝者如斯夫,不舍昼夜。
展开
-
企业微信添加机器人,监控实时任务,如果失败就重启,并向群里推送预警
企业微信添加机器人,监控实时任务,如果失败就重启,并向群里推送预警1.添加机器人只能在企业微信的群聊里才可加机器人,如下图右键群点击添加机器人,新建一个机器人,然后给机器人起个名字就好这个时候就会在群机器人那里看到你添加的机器人,鼠标放上去就会看到机器人的Webhook地址点击地址就可以打开机器人的配置说明了。配置文档很清晰就不多说了。2.重点:监控脚本编写编写检测实时任务是否挂掉的脚本,如果任务挂了就重启并执行微信推送脚本weixin_monitor.sh发送消息推送到企业微信群检测实原创 2020-07-31 15:13:30 · 1470 阅读 · 0 评论 -
clickhouse笔记
官网文档:https://clickhouse.tech/docs/zh/spark读写clickhousespark读取clickhouse数据//一:这种jdbc的了连接加载的是全量表数据val prop = new java.util.Propertiesprop.setProperty("user", "default")prop.setProperty("password", "123456")prop.setProperty("driver", "ru.yandex.clickh原创 2020-05-14 11:40:59 · 1276 阅读 · 0 评论 -
数仓中全量数据和增量数据的合并方案
两张表的字段都一样base:全量表log:增量表(包括新增和修改的数据)1. ****select * from base a where 0=(select count(1) from log b where a.id=b.id) union allselect * from log先查出base表有但log表没有的数据,再查出增量log的数据,两份数据合并即可2.开窗函数...原创 2020-03-19 19:43:51 · 5514 阅读 · 0 评论 -
datax介绍及生产脚本配置
常用数据抽取工具:kattle sqoop datax streamsetsstreamsets kattle:偏向etl,数据会做处理sqoop datax:偏向数据同步,数据不做处理直接拿streamsets主要是对一些数据做ETL处理,如果单纯做数据同步的话用阿里的datax速度更快,效率更高datax的详细教程可以去官网看 https://github.com/alibaba/Da...原创 2020-01-15 18:06:27 · 3346 阅读 · 0 评论 -
Spark Shuffle机制及Executor内存管理
Spark Shuffle机制Executor内存管理原创 2019-12-31 18:48:46 · 231 阅读 · 0 评论 -
mongodb修改数据存储目录
mongodb副本集搭建可以参考这篇blog,博主写的特别好,照步骤操作即可:https://www.cnblogs.com/operationhome/p/10744712.html如果想要更换数据存储路径mongodb默认数据存储目录是:/opt/mongodb/data现在想要换到:/data/mongodata注意:如果是副本集模式,每台节点都要执行以下6步1.先关闭服务s...原创 2019-11-07 18:47:53 · 5161 阅读 · 0 评论 -
spark调优
#spark优化##代码层面1.避免创建重复的rdd,对多次使用的rdd进行持久化,才能保证一个rdd被多次使用时只被计算一次2.persist方法可以自己选择持久化级别memory_and_disk_ser,其中_ser后缀表示使用序列化的方式来保存rdd数据,rdd中的每个partition都会被序列化成一个大的字节数组。序列化的方式可以减少持久化数据对内存/磁盘的占用量,避免内存...原创 2019-10-24 18:15:20 · 320 阅读 · 0 评论 -
phoenix的全局索引不起作用原因分析
phoenix的全局索引没起作用phoenix里面的全局索引比较废柴,因为除了select count(*) from table where name=‘xd’这种写法会用到索引之外,其他的情况都用不到这个全局索引包括 select * from table where name='xd’也用不到索引,而是进行full scan。原因分析这一点和我们平时的sql索引原理有点不一样,普...原创 2019-09-19 21:07:32 · 1528 阅读 · 0 评论 -
sqoop导入大表解决方案
导入表过大时报错:is running 24993792B beyond the ‘PHYSICAL’ memory limit. Current usage: 1.0 GB of 1 GB physical memory used; 2.5 GB of 2.1 GB virtual memory used. Killing container.方案一:yarn资源配置 mapreduce....原创 2019-08-22 20:45:11 · 1848 阅读 · 0 评论 -
hive数据备份方案
hive数据备份方案非风区表的备份create table t_copy as select * from t_temp;分区表的复制create table tablepark_test like tablepark;set hive.exec.dynamic.partition.mode=nonstrictinsert overwrite table tablepark_test ...原创 2019-08-23 16:21:44 · 3158 阅读 · 0 评论 -
redis集群搭建及设置密码重启集群脚本
以下链接方案都是我在搭建过程中参考的,亲测可行而且易懂,本来想自己再整理一遍的,但是真的太麻烦了,就直接把参考的链接都记录下来,以后用到可以直接去看redis单机安装(超详细):https://blog.csdn.net/qq_42815754/article/details/82832335redis集群搭建方案: https://www.cnblogs.com/wuxl360/p/5920...原创 2019-08-06 20:09:23 · 404 阅读 · 0 评论 -
canal介绍及HA集群模式搭建
快速了解canal1.首先大概介绍一下canal是干啥的?canal是用来实时同步mysql数据的。对于离线任务可以通过sqoop将mysql业务库的数据导入hive数仓中计算,但是想要处理实时任务就要借助canal解析binlog日志来实现了。官网的详细介绍: https://github.com/alibaba/canal/wiki2.canal是如何实时获取mysql数据的?can...原创 2019-07-30 22:20:21 · 6519 阅读 · 4 评论 -
sqlserver导入hbase和hive
1.采用sqoop将sqlserver数据导入hbase要先在hbase中将表建好(create ‘TicketInPark’,‘cf’),再导入否则会报错sqoop import --connect "jdbc:sqlserver://10.9.10.213:1433;database=CenterThemePark" \--username sa --password 123456 --...原创 2019-07-29 21:42:40 · 323 阅读 · 0 评论 -
hive shell最常用的操作命令
hive最常用的命令创建表,携带数据create table employees1 as select * from employees;创建表,携带表结构create table employees2 like employees;查看hive建表语句(拷出来自己改)show create table tablename;查看当前所在库select current_data...原创 2019-06-30 19:06:51 · 502 阅读 · 0 评论 -
sqoop导入mysql数据到Hive的各种方案
mysql数据导入数据仓库Hive的各种方案采用sqoop向hive中导入原始数据形成ODS层,之后可以在原始数据的基础上进行增量备份数据(定时同步)或者通过canal解析binlog(实时同步)日志进行同步数据。1.sqoop向hive中导数据的原理sqoop在向hive中导入数据时,是先将数据上传到hdfs中,然后创建表,最后再将hdfs中的数据load到表目录下。我们采用sqoop直...原创 2019-06-30 19:02:20 · 17784 阅读 · 2 评论 -
hive按年月实现动态分区,分桶表创建
目标:按照表中数据创建时间的年月来进行分区Hive分区分为静态分区和动态分区静态分区是在语句中指定分区字段为某个固定值,动态分区就相对灵活的多。一个分区实际上就是表下的一个目录,一个表可以在多个维度上进行分区,分区之间的关系就是目录树的关系。hive动态分区先将mysql表testtable用sqoop导入到hive中,采用自动建表的方式导入。(如果你的hive表已存在,这步可以忽略...原创 2019-07-03 00:25:15 · 1626 阅读 · 0 评论 -
Elasticsearch集群部署简易教程
前提介绍本文使用es版本:elasticsearch-5.6.6服务器三台:192.168.250.128192.168.250.129192.168.250.130es安装步骤:下载es:https://www.elastic.co/downloads/elasticsearch解压到安装目录创建一个es启动用户,因为不能用root来启动,这里就建一个叫’elas...原创 2019-07-02 21:35:39 · 265 阅读 · 0 评论