.Mr Zhang
码龄8年
关注
提问 私信
  • 博客:31,760
    31,760
    总访问量
  • 54
    原创
  • 1,212,879
    排名
  • 3
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:广东省
  • 加入CSDN时间: 2017-02-03
博客简介:

一只破碗

查看详细资料
个人成就
  • 获得13次点赞
  • 内容获得15次评论
  • 获得31次收藏
创作历程
  • 54篇
    2020年
成就勋章
TA的专栏
  • 数据结构与算法
    1篇
  • Hive
    3篇
  • Shell
    1篇
  • Druid
    3篇
  • Zookeeper
    1篇
  • Aspose
    1篇
  • Linux
    1篇
  • Spark
    17篇
  • Kettle
    24篇
  • Git
    1篇
  • 一些事
    1篇
兴趣领域 设置
  • 大数据
    hadoophivestormsparketl
创作活动更多

如何做好一份技术文档?

无论你是技术大神还是初涉此领域的新手,都欢迎分享你的宝贵经验、独到见解与创新方法,为技术传播之路点亮明灯!

342人参与 去创作
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

转载收集-常用设计算法

分治算法动态规划回溯法贪心法分支界限法十大排序算法
原创
发布博客 2020.04.25 ·
206 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

实时数仓-Druid 从kafka摄取数据

准备搭建好kafka可正常访问查询节点的8888端口: http://hadoop04:8888按部就班新建一个摄取规范,定义你的数据从哪摄取、怎么摄取、摄取成什么样。选择kafka。填写kafka消费者基本属性。检查你的数据列是否完整。将logTime列设置为时序列__time,格式yyyy-MM-dd HH:mm:ss。如果不需要转换Transform 或 Filte...
原创
发布博客 2020.03.31 ·
861 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

实时数仓-Druid 集群搭建

集群规划节点类型主机名数量描述主节点hadoop011包括一个 Coordinator 和一个 Overlord进程数据节点hadoop02,hadoop032分别包括一个 Historical 和一个 MiddleManager进程查询节点hadoop041包括一个 Broker 和一个 Router进程一般为了防止单点,生产上需要部...
原创
发布博客 2020.03.31 ·
1031 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

实时数仓-Druid简介

Druid是什么 ?Apache Druid是一个实时分析数据库,为时间驱动的数据分析而生,广泛应用于OLAP。此Druid,非阿里的那个数据连接池druid。Druid核心架构整合了数据仓库、时序数据库、日志搜索系统的思想。主要有以下特点:列式存储可扩展分布式系统并行处理实时或离线摄入数据自容错、自平衡、容易操作云化、容错架构不丢失数据基于时间的分区快速过滤的索引应用很多...
原创
发布博客 2020.03.31 ·
1117 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Zookeeper概念原理实战

啥是Zookeeper?Zookeeper是一个分布式的、提供协调服务的Apache开源软件。基础概念Leader :即Master节点。每个Zookeeper集群只能有一个Master节点,而Master是通过内部选举机制产生的。Follower :即slave节点。每个Zookeeper集群有多个Slave节点。半数机制 :Zookeeper集群中半数以上机器存活,则集群可用。所以...
原创
发布博客 2020.03.30 ·
131 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Aspose CAD标准dwg文件转svg或png

最近遇到一个需求需要把CAD绘图文件展示在浏览器上,然后Aspose提供的工具包可以实现,不过不免费。更多转换可参考我的GitHubmaven dependency <dependencies> <dependency> <groupId>com.aspose</groupId> ...
原创
发布博客 2020.03.24 ·
2847 阅读 ·
2 点赞 ·
10 评论 ·
5 收藏

Linux-操作系统常见性能监控指标

一般我们在进行性能分析、优化或调优之前,必不可少要进行性能监控,一方面是操作系统的监控,一方面是应用层面的监控,本篇讨论操作系统方面。那么操作系统常见的性能指标都有哪些?CPU利用率CPU调度运行队列长度上下文切换内存使用率磁盘IO使用率网络IO使用率CPU利用率在Linux系统上,CPU利用率主要分成两个部分:用户态利用率、系统态利用率用户态利用率 = 执行应用程序代码...
原创
发布博客 2020.03.10 ·
3497 阅读 ·
2 点赞 ·
0 评论 ·
7 收藏

Shell脚本-三剑客实战

awk第一条命令探路原 /etc/passwd 数据:awk -F’:’ ‘{print $1,$2,$6}’ /etc/passwd意思很明显:将/etc/passwd文件中的数据,先以":"分割,然后取第1、第2、第6列,打印出来。-F’:’ 指定冒号为分割符==’{print $1,$2,$6}’==脚本代码块执行脚本中的 BEGIN \ END模块一般地,对每个输...
原创
发布博客 2020.03.07 ·
798 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

离线数仓-Hive集成Tez

安装好JDK Hadoop MysqlJDK8+Hadoop2.7.7下载安装包并解压Hive下载Tez下载apache-hive-1.2.2-bin.tar.gzapache-tez-0.9.1-bin.tar.gz全部解压到 /home/hadoop/module安装Hive1.配置hive-env.shexport HADOOP_HOME=/home/hadoop/mo...
原创
发布博客 2020.02.23 ·
411 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

离线数仓-Hive 交互命令、DDL与DML操作

常用命令###交互命令#查看帮助bin/hive -help# -e 不进入hive提示窗口执行sql语句bin/hive -e "select id from student;"# -f 执行脚本中sql语句bin/hive -f /opt/module/datas/hivef.sql###hive提示窗口命令#进入提示窗口bin/hive#在hive提示窗口命令中...
原创
发布博客 2020.02.23 ·
202 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

离线数仓-Hive介绍

1.简介Hive是基于Hadoop的一个开源数据仓库工具,将海量结构化数据文件映射为一张表,并在其上提供类SQL(HQL)查询功能。Hive本质是将HQL转化成MapReduce,以处理存储在HDFS上的数据。优点避免写MapReduce,减少学习成本。提供HQL操作接口,易上手。适合处理大数据,处理小数据意义不大。支持自定义函数处理数据。缺点HQL表达能力有限。执行效率低。...
原创
发布博客 2020.02.17 ·
1174 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Spark常见问题

Executor OOM前篇内存优化有过介绍,Spark内存主要用在执行计算、持久化存储两个方面,这两部分内存共享一片区域。一般是执行计算方面出现OOM1.考虑通过调低spark.memory.fraction参数适当减少持久化存储的份额,让计算内存有更多的内存使用。2.考虑在shuffle操作中,调低map端buffer大小,以多次溢写磁盘IO消耗的代价换取更多的执行内存;调低redu...
原创
发布博客 2020.01.21 ·
175 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark数据倾斜及解决办法

数据倾斜在执行shuffle操作过程中,map端按照key分配数据输出,reduce端同样也按照key进行拉取、聚合。通常每一个key对应的数据量不对等,经常出些某些key数据量比其他key多很多。这种现象导致的后果,轻则拖慢job执行时间(执行时间由最慢的task决定),重则直接OOM(数据量太大,处理完成前不能回收内存)原因我觉得是两个必要条件,缺一个都不发生数据倾斜,而我们打破其中一个...
原创
发布博客 2020.01.21 ·
242 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark其他调优的点

并行度为了充分利用集群,可以调整每一个操作的并行度。Spark已经给各个参数默认设置了并行任务的数量。可以做的就是传入操作的第二参数来改变并行度,或者通过spark.default.parallelism参数来设置默认并行度。一般,官方推荐每一个CPU核对应2~3个Task。mapPartitions 代替 mapmap算子每一个元素执行一次func,而mapPartitions 算子每一个...
原创
发布博客 2020.01.19 ·
169 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark内存调优

由于Spark是基于内存计算的,所以集群中资源(比如CPU、带宽、内存)都会成为瓶颈。当集群内存够用时,网络带宽往往成为瓶颈。所有优化主要从两个方面进行:一个是数据序列化(提升网络性能,减少内存使用等),一个是内存优化数据序列化序列化在分布式应用程序中占用重要地位。Spark提供两种序列化库:Java serialization 拿来就用,但是太慢了。Kryo serialization...
原创
发布博客 2020.01.19 ·
596 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

SparkStreaming-DStream与DataFrame SQL联合操作

查询使用的SparkSession 可由StreamingContext中的SparkContext来创建,以此用来进行DataFrame Sql操作。val words: DStream[String] = ...words.foreachRDD { rdd => // 获取单例SparkSession val spark = SparkSession.builder.co...
原创
发布博客 2020.01.19 ·
884 阅读 ·
0 点赞 ·
3 评论 ·
0 收藏

SparkStreaming-DStream

Spark Streaming接收数据并将其分隔成一批批的数据,然后被Spark engine处理形成一批批的结果。需指出,Spark Streaming可以被应用与机器学习和图计算。Spark Streaming提供了一个高级抽象称为DStream,代表连续的数据流。DStream可从kafka、flume、kinesis等数据源创建,DStream内部是一个RDDs序列。快速入门Str...
原创
发布博客 2020.01.18 ·
382 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkSql-数据源

常用加载/保存默认数据源是parquet ,除非用spark.sql.sources.default配置参数定义为其他。val usersDF = spark.read.load("examples/src/main/resources/users.parquet")usersDF.select("name", "favorite_color").write.save("namesAndFa...
原创
发布博客 2020.01.17 ·
244 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

SparkSql-自定义聚合函数

像Hive一样自定义聚合函数弱类型自定义聚合函数继承UserDefinedAggregateFunction 来实现,面向DataFrameimport org.apache.spark.sql.{Row, SparkSession}import org.apache.spark.sql.expressions.MutableAggregationBufferimport org.apa...
原创
发布博客 2020.01.17 ·
379 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

SparkSql-Datasets和DataFrames

SparkSql顾名思义就是可以执行sql查询,同样也可以用于从hive查询数据。DatasetsDatasets分布式数据集。spark 1.6引入,提供了RDD的优点(强类型、强大的lambda函数)和Spark-SQL优化了的执行引擎。它可由JVM对象创建,然后使用函数式转换进行修改,比如map、flatmap、filter等。DataFramesDataFrames列已命名的Dat...
原创
发布博客 2020.01.17 ·
217 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多