![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
weixin_43662454
这个作者很懒,什么都没留下…
展开
-
数仓表数据一般保留多久,而每个日志分区全量表快照一般保留多久
数据仓库整理部分内容类型:ods/永久保留 添加数据生命周期 ods 180天dw/365天/迭代删除/不用要的/ 1个月在存储资源有限的前提下,如何优化明细层存储:已经做好了orc+gz的压缩之后,如何优化存储1:大宽表+累计快照/删数据明细2:直接删/根据数据等级3.不删/业务提供资源...原创 2022-04-19 14:11:09 · 1063 阅读 · 0 评论 -
logstash处理解析失败的数据,不写入数据库或elasticsearch
filter { dissect{ mapping => { "message" => "%{clientip} - - [%{time_local}] %{request} %{url} " } } if "_dissectfailure" in [tags] { drop {} } }使用dissect做解析匹配或者grok解析失败写入数据源,...原创 2019-11-26 17:07:05 · 2006 阅读 · 0 评论 -
Hive的十四种调优方式:
Hive的十四种调优方式:第一种调优方式:fetch(hive可以避免MapReduce)对于hive可以简单地读取employee对应的储存目录下的文件,然后输出查询结果到控制台.修改hive.fetch.task.conversion默认是more,老版本为minimal,修改为more即可第二种:本地模式(在hive输入数据量是非常小的情况下,可以通过本地模式处理单台机器上所有的任务,...原创 2019-07-01 09:57:41 · 1101 阅读 · 1 评论 -
idea如何读取配置properties文件以及加载外部文件目录下的配置
如何去读properties结尾的文件,方便程序的灵活配置参数首先建立`PropertiesReader类一般放在util包下面public class PropertiesReader {/** * 读取配置文件 */private Properties getProperties(){ Properties p = null; try{ // 读取...原创 2019-07-11 09:55:42 · 2159 阅读 · 0 评论 -
Apache atlas的UI界面如何修改密码
Apache atlas的UI界面如何修改密码在apache-atlas-1.1.0/conf中的users-credentials.propertiesadmin=ADMIN::后面跟的为sha256加密在线转换方式http://tool.oschina.net/encrypt?type=2重启登录...原创 2019-05-17 11:03:13 · 2044 阅读 · 1 评论 -
apache atlas编译踩坑
纪念编辑atlas编辑踩过的坑官方下载地址:http://atlas.apache.org/Downloads.html我的是 apache-atlas-1.1.0-bin.tar.gz编译源码环境准备,jdk1.8以上,我的是 jdk1.8.0_211注意jdk1.8后的一定要大于155,我的是211,这个坑编译的时候踩过要大于155以上,哭过.maven3.5以上, 我的是 apa...原创 2019-05-09 17:12:34 · 2983 阅读 · 5 评论 -
Storm 的nimbus 单节点宕机如何自动重启?
storm在生产上跑得很欢快,但是突然遇到一个问题,不知道storm是什么原因,无缘无故的自动停止了。查看日志没有任何的报错信息,包括警告信息都没有,反正就是无缘无故的shut down了。问题分析,初步我们判断应该是系统资源不足导致的,但这只是推测,因为storm集群的这些server都没有做监控,只有后面加上监控才能验证是否是因为资源问题引起的。好吧!既然遇到问题咱们就解决问题吧!首先网上一...转载 2018-12-18 10:05:53 · 682 阅读 · 0 评论 -
spark的三种部署模式
三种模式standalone即独立模式,自带完整的服务,可单独部署到一个集群中,无须依赖任何其他资源系统spark on mesos模式 正式由于spark开发之初就考虑支持mesos,因此,目前而言,spark运行在mesos上会比运行在yarn上更加灵活,更加自然,目前在spark on mesos环境中,用户可选择两种调度模式之一运行自己的应用程序(1) 粗粒度模式:每个应用程序的运...原创 2018-12-04 17:01:42 · 1268 阅读 · 0 评论 -
Spark性能调优合理设置并行度
spark作业中,各个stage的task的数量,也就代表了spark作业在各个stage的并行度,50个Executor,3个core,也就是说Application任何一个stage运行的时候,都有150个cpu core,可以并行运行,官方建议task的数量,设置为spark Application总cpu core数量的2~3倍,比如150个CPU core,基本设置task数量为300~...原创 2018-12-04 16:59:44 · 213 阅读 · 0 评论 -
spark的程序开发调优
原则一:避免创建重复的RDD,对于同一份数据,只应该创建一个RDD.原则二:尽可以复用同一个RDD,对于类似这种多个RDD的数据有重叠或者包含的情况,我们应该尽量复用一个RDD,尽量减少RDD的数量,从而尽可能减少算子执行的次数原则三:对多次使用的RDD进行持久化,对多次进行操作的算子使用persist持久化算则四:尽量避免使用shuffle类算子,尽量避免使用reducebykey...原创 2018-12-04 16:58:31 · 72 阅读 · 0 评论 -
spark的shuffle相关参数调优
1.spark.shuffle.file.buffer默认是32K该参数用于设置shuffle write task 的BufferedOutputStream的buffer缓冲大小,将数据写到磁盘文件,在内存作业资源充足的情况下,可以调为64K2.spark.reduce.maxSizeInFlight默认值:48M该参数用于设置shuffle read task的buffer缓冲大小...原创 2018-12-04 16:56:45 · 517 阅读 · 0 评论 -
spark的持久化 persist
memory_only 使用未序列化的Java对象格式,将数据保存在内存中。memory_and_disk使用未序列化的Java对象格式,优先尝试将数据保存在内存中,如果内存不够存放所有的数据,会将数据写入磁盘文件汇总,下次对这个RDD执行算子是,持久化在磁盘文件中的数据会被读取出来使用.memory_only_ser基本含义同memory_only,唯一的区别是,会将RDD中的数据进行...原创 2018-12-04 16:54:40 · 338 阅读 · 0 评论 -
spark的资源参数调优
1.num-executors参数说明:该参数用于设置spark作业总共要用多少个Executor,建议每个spark作业运行一般设置50~100个左右的Executor进程比较合适2.executor-memory参数说明:该参数用于设置每个executor进程的内存,executor内存的大小,很多时候度决定了spark作业的性能,常见jvm oom异常建议每个executor内存设...原创 2018-12-04 16:52:24 · 196 阅读 · 0 评论 -
yarn中的三个调度器
yarn中的三个调度器FIFO调度器,容量调度器,公平调度器系统默认是FIFO调度器,具体用那种调度器需要结合实际情况来.具体的修改路径在yarn-site.xmlFIFO调度器:优点是,简单易懂,不需要任何配置,但是不适合共享集群,大的应用汇占用集群的所有资源,所有每个应用必须等待直到轮到自己运行,在一个共享集群中,更合适使用容量调度器或公平调度器.容量调度器:允许多个组织共享一个hado...原创 2018-11-26 10:19:33 · 213 阅读 · 0 评论