大数据相关
导演我死哪儿
这个作者很懒,什么都没留下…
展开
-
spark更新广播变量实例
https://blog.csdn.net/geeksu/article/details/78199164转载 2019-06-05 20:11:47 · 991 阅读 · 0 评论 -
sparkstreaming读取kafka的两种方式direct与receiver方式的区别已比较
https://blog.csdn.net/wzqllwy/article/details/78869889https://blog.csdn.net/qq_29651795/article/details/70158376转载 2019-06-04 19:56:27 · 277 阅读 · 0 评论 -
java8下spark-streaming结合kafka编程(spark 2.3 kafka 0.10)性能优化
https://blog.csdn.net/qq_24084925/article/details/80842534原创 2019-06-04 19:53:29 · 214 阅读 · 0 评论 -
foreachRDD/foreachpartition/foreach
Spark中foreachRDD、foreachPartition和foreach解读https://blog.csdn.net/Scapel/article/details/84030362另外Dframe 与RDD对应关系是一个RDD对应个计算间隔内的Dframehttps://www.jianshu.com/p/f57223ff9be0...原创 2019-06-04 19:51:32 · 284 阅读 · 0 评论 -
sparkstreaming的日志收集
sparkstreaming日志只有在停止任务的时候才可以收集,因此可以实时传送到kafka当中https://qindongliang.iteye.com/blog/2354381日志聚合服务的配置项https://www.cnblogs.com/gnivor/p/4672746.html粗略配置https://www.cnblogs.com/30go/p/8509893.html...原创 2019-04-16 21:26:58 · 659 阅读 · 0 评论 -
sparksql读取hbase表、统计分析
Spark读取hbase表的几种方式https://blog.csdn.net/sinadrew/article/details/80172984spark 读取hbase数据并转化为dataFramehttps://www.cnblogs.com/seaspring/articles/5851290.htmlsparksql使用hbase的API进行读取https://www...转载 2020-12-31 18:51:54 · 552 阅读 · 0 评论 -
Spark Streaming +Kafka 使用底层API直接读取Kafka的Partition数据,手动更新Offset到Zookeeper集群
https://blog.csdn.net/Dax1n/article/details/53413111转载 2020-12-31 18:50:59 · 113 阅读 · 0 评论 -
DAGScheduler源码分析(stage划分算法、task最佳位置计算算法)
首先是DAGScheduler的入口,我们找到一个action操作比如count,这个方法会启动一个runJob方法,如下图:再往下看,就可以看到在这个runjob方法里面调用了一个dagScheduler的runjob方法。进入dag的runjob方法我们可以看到如下:这里面启动了一个submitJob的方法,下面就是判断它的执行结果了,我们进入这个submint方法,如下图:这个方法里...原创 2020-12-31 18:50:19 · 110 阅读 · 0 评论 -
hbase行键设计实战案例
https://www.ibm.com/developerworks/cn/analytics/library/ba-1604-hbase-develop-practice/https://blog.csdn.net/yangang1223/article/details/80986060转载 2020-12-30 20:20:24 · 154 阅读 · 0 评论 -
driver,executor,worker,stage,task,partition
一个物理节点,可以存在一个到多个worker,一个worker上可以存在一个到多个executor,一个executor对应一个stage(一个计算任务可以划分为多个stage,每次shuffle就会划分一个stage),一个executor持有一个线程池,每个线程执行一个task,一个stage对应多个tasks,当一个executor执行完一个stage也就是一个tasks这时候executo...原创 2020-12-30 20:20:11 · 312 阅读 · 0 评论 -
windows上pycharm适配pyspark编码环境
1、首先将linux上的spark下的python目录下的pyspark文件夹拷贝到anaconda目录2、安装py4j3、官网下载spark/hadoop的安装包安装在windows上http://archive.apache.org/dist/spark/spark-2.2.1/https://archive.apache.org/dist/hadoop/common/...转载 2020-12-30 20:20:00 · 100 阅读 · 0 评论 -
spark调用外部程序
此博主的博客都是十分简单的pipe在spark中调用外部程序,也包含部分python以及PHP的简单程序https://blog.csdn.net/guotong1988/article/details/50801439https://blog.csdn.net/guotong1988/article/details/50817542此篇博客调用外部程序,样例https://blo...转载 2020-12-30 20:19:43 · 297 阅读 · 0 评论 -
kafka消息保留机制
https://blog.csdn.net/Tony10010/article/details/89553557https://www.cnblogs.com/yangcx666/p/8723855.html转载 2020-12-30 20:19:26 · 80 阅读 · 0 评论 -
如何提高hbase的效率
一、建表技巧1、合理设计列族,尽量控制在3个以内,因为当一个列族的memstore达到阀值进行扩容的时候,另外一个列族的memstore也会跟着一起扩容(不同的列族分为不同的store,但是分裂的时候是整个region都会分裂)这样会出现某些memstore数据量并不大但是分在了多个region中,降低效率。其实效率低的原因是因为,假如有AB两个100万条跟10条数据的列族,在region进行s...转载 2020-12-30 20:19:08 · 374 阅读 · 0 评论 -
hadoop yarn查看任务状态
https://blog.csdn.net/u010003835/article/details/83347589转载 2020-12-30 20:18:24 · 4033 阅读 · 0 评论 -
pyspark任务提交
https://blog.csdn.net/u010569893/article/details/96438379转载 2020-12-29 15:39:17 · 474 阅读 · 0 评论 -
spark调优整理
1、map与mapPartitions,mapPartitions算子效率高,mapPartitions算子占用内存多,如果一个partition的计算结果非常非常大,那么可能造成OOM,怎么解决?repartition算子来增加RDD的分区数,那么每一个partition的计算结果就减少了很多。mapPartitions应用场景:一般在将一个RDD的计算结果写入到数据库(mysql oracle...原创 2020-12-28 16:08:01 · 92 阅读 · 0 评论 -
spark并行度理解
每一个过程的任务数,对应一个inputSplit1, Partition输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。如果说spark任务的输入来源是hdfs等读取文件作为输入的话,会根据具体数据格式对应的InputFormat进行解析,一般是将若干个Block合并成一个输入分片,称为InputSplit,注意InputSplit不能跨越文件。随后将为这...原创 2020-12-28 16:07:42 · 453 阅读 · 0 评论 -
master、worker、driver、executor理解
master和worker是物理节点standalone模式时候我们分为master、worker。master用于分配资源,worker用于具体计算节点。driver和executor是进程原创 2020-12-28 16:07:18 · 501 阅读 · 0 评论 -
hbase实现mysql数据库备份
数据迁移时注意事项https://blog.csdn.net/molong1208/article/details/53363215canal实施方案https://www.jianshu.com/p/cdc3a69ae107https://blog.csdn.net/beyond_qjm/article/details/83624896理解canalhttps://...转载 2020-12-28 16:06:27 · 142 阅读 · 0 评论 -
hadoop1.x与2.x的任务调度、yarn的原理解析
参考博客:https://www.cnblogs.com/zhangwuji/p/7594728.htmlhttps://www.cnblogs.com/zimo-jing/p/8846569.html转载 2020-12-28 16:05:32 · 108 阅读 · 0 评论 -
UDF/UDAF/UDTF了解
https://blog.csdn.net/laksdbaksjfgba/article/details/87162906转载 2020-12-28 16:05:07 · 119 阅读 · 0 评论 -
pyspark提交计算任务时候指定python环境
https://blog.csdn.net/qq_16050561/article/details/86219366转载 2019-12-06 17:54:44 · 409 阅读 · 0 评论 -
yarn常用命令
https://www.jianshu.com/p/f510a1f8e5f0转载 2019-12-12 14:09:59 · 172 阅读 · 0 评论 -
hbase协处理器入门实战
1、基础介绍协处理器允许用户在region服务器上运行自己的代码,允许用户执行region级别的操作,并且可以使用与RDBMS中触发器(trigger)类似的功能。在客户端,用户不用关心操作具体在哪里执行,HBase的分布式框架会帮助用户把这些工作变得透明。协处理器框架提供了一些类,用户可以通过继承这些类来扩展自己的功能。比如通过hbase的协处理器我们可以实现二级索引(secondary i...转载 2019-08-21 20:27:45 · 232 阅读 · 0 评论 -
hbase原理梳理
1、hbase框架简单介绍hbase是一个分布式、面向列的开源数据库,它适合于存储非结构化数据,基于列的模式,一行数据可以对应一个或者多个列族。在分布式环境中需要运行在hdfs上作为其存储设施。hbase主要是由Hmaster与hregionserver组成。hbase中有这样几个概念分别介绍下rowkey这个是用来检索的主键,检索时分为单个rowkey,范围rowkey以及全表扫描,rowk...转载 2019-08-21 14:45:45 · 240 阅读 · 0 评论 -
rowkey设计
https://www.cnblogs.com/zengming/p/10442344.htmlhttps://blog.csdn.net/xianpanjia4616/article/details/85254643https://blog.csdn.net/u014091123/article/details/73163088https://blog.csdn.net/yoloho...转载 2019-07-29 14:16:09 · 255 阅读 · 0 评论 -
linux上python及其依赖包安装、节点快速扩容安装
1、首先是安装python版本python的安装可以有两种方式,一种是先安装纯金版的python然后根据自己代码的需要再去用pip对应安装其他的依赖包,当然这首先要求安装pip包;第二种方式是安装与python相对应的Anaconda,Anaconda的好处是除了安装对应版本的python之外还附带了很多第三方依赖包,一些比较常见的依赖基本可以满足,可以省去安装完纯净python版本之后还要手动...原创 2019-09-04 16:45:05 · 957 阅读 · 0 评论 -
pypyspark编码整理(三)-读写dataframe
这篇博客对dataframe的基本读写做了详细的介绍,很棒,我就不再赘述整理https://blog.csdn.net/suzyu12345/article/details/79673473转载 2019-08-28 11:44:38 · 377 阅读 · 0 评论 -
pyspark整理
pyspark的基础使用指南整理,较为全面https://www.cnblogs.com/jeasonit/p/10048790.htmlsc.textFile与sc.wholetextFile("xxx.t*xt")两种方式读取text文件demo以及区别简述https://blog.csdn.net/hzy459176895/article/details/83615962Pyspar...原创 2019-08-22 10:00:28 · 204 阅读 · 1 评论 -
修改yarn默认的格林威治标准调度时间
https://www.cnblogs.com/nhdlb/p/11718576.html如何编辑一个jar包中的配置文件https://www.cnblogs.com/micmouse521/p/8377890.html 如何修改时间转载 2019-09-17 16:45:41 · 299 阅读 · 0 评论 -
kafka的ISR
https://www.orchome.com/22https://blog.csdn.net/qq_37502106/article/details/80271800https://blog.csdn.net/jackie_zhf/article/details/89915709https://blog.csdn.net/u013256816/article/details/8079...原创 2019-08-30 17:46:51 · 170 阅读 · 0 评论 -
Kafka auto.offset.reset值详解
https://blog.csdn.net/lishuangzhe7047/article/details/74530417转载 2019-06-05 20:42:04 · 261 阅读 · 0 评论 -
手动维护kafka的offset版本
kafka版本2.12,offset默认在kafka的broker当中自行维护1、查看最近消费各个topic的各个group2、根据group名字查看具体group的消费情况3、分别查看某个topic的各个partition的起始offset4、终于不再说废话https://blog.csdn.net/weixin_33874713/article/details/...原创 2019-06-05 14:35:55 · 1083 阅读 · 0 评论 -
修改kafka topic的offset几种方法
https://blog.csdn.net/yxgxy270187133/article/details/53666760转载 2019-06-04 19:58:09 · 1988 阅读 · 0 评论 -
kafka的高级API与低级API的优缺点与异同
https://blog.csdn.net/weixin_39478115/article/details/79155118https://blog.csdn.net/qq_26091271/article/details/77164735转载 2019-06-04 19:57:44 · 790 阅读 · 0 评论 -
kafka消息队列偏移量管理
1、手动设置偏移量http://www.pianshen.com/article/474464346/、2、消费kaifka消息,手动控制消费逻辑,同步异步提交偏移量https://www.cnblogs.com/sodawoods-blogs/p/8969774.html3、管理kafka的偏移量,消费与提交https://my.oschina.net/u/1027043/b...原创 2020-10-29 09:08:15 · 133 阅读 · 0 评论 -
Kafka 使用Java实现数据的生产和消费demo
https://blog.csdn.net/qazwsxpcm/article/details/79186668原创 2019-05-10 18:21:48 · 310 阅读 · 0 评论 -
SparkStreamingj集成Kafka的几个重要参数配置,sparkstreaming反压机制配置,动态executor
SparkStreamingj集成Kafka的几个重要参数配置https://blog.csdn.net/u010454030/article/details/54629049spark.streaming.kafka.maxRatePerPartition计算规则https://blog.csdn.net/genius0182/article/details/81385096配置...原创 2019-04-16 14:03:01 · 679 阅读 · 0 评论 -
kafka原理梳理
https://blog.csdn.net/zxl2016/article/details/80278496https://blog.csdn.net/wanglei_storage/article/details/82692413#_8https://blog.csdn.net/lingbo229/article/details/80761778 重要转载 2019-04-09 13:48:37 · 76 阅读 · 0 评论