zhaorongsheng-CSDN博客

原创 kafka producer batch优化节约百万级成本

本文主要介绍云音乐对kafka的优化，给生产集群带来了显著的收益，初步统计每年为云音乐节省几百万的成本。本文主要分为两部分，第一部分详细介绍优化kafka性能时遇到的问题及解决过程，第二部分介绍kafka producer的写入原理及batch优化。如果对我们定位问题的过程不太感兴趣的同学，可以直接阅读第二部分。一、背景随着云音乐主站流量的增长以及曙光埋点的放量，平台的流量逐渐增长，kaf...

2022-01-09 16:13:45 185

原创 kafka之网络模型总结

弄清楚kafka的网络模型原理，能很好的帮助理解和优化kafka服务。kafka底层的网络通信，没有使用第三方rpc实现，如netty等，而是使用了java的NIO实现的一套自己的通信框架协议。本文主要描述kafka基础网络通信的相关实现原理，版本为1.1.0。java NIO具体细节不再描述，主要包含3个部分：Channel：连接，如FileChannel、SocketChannel等，表...

2019-06-28 22:38:36 130

原创大数据图谱

2018-10-30 14:40:13 1289

原创 orcFile split和读数据原理总结（hive0.13）

官网关于orcfile的介绍背景Hive的rcfile格式已经使用多年，但是，它会将所有的列都当做二进制来处理，没有与类型挂钩。因此，Hive0.11版本引入orcFile。OrcFile有以下几点好处：每个task只生成一个文件，减轻hdfs压力保存列类型，支持datetime, decimal和负责类型(struct, list, map, and union)文件中保存轻量级索引跳

2017-06-07 20:13:23 5460

原创 spark job server原理

spark job server原理配置相关settings.sh 功能：配置环境变量APP_USER/APP_GROUP：作业提交用户和组JMX_PORT：java jmx端口，通常在aws或者其他容器里打开INSTALL_DIR：sjs所做目录LOG_DIR：日志路径PIDFILE：启动sjs，产生pid存放的文件名JOBSERVER_MEMORY：启动spark作业的drive

2017-06-07 20:03:51 2275

原创 spark job server使用方法

入门clone代码从github上的spark-jobserver工程clone代码到本地编译需要将工程根目录下的config文件删除将文件夹job-server/config拷贝到工程根目录下将local.conf.template/local.sh.template重命名为locao.conf/local.sh配置环境export JAVA_HOME=/d/java/jdk1

2017-06-07 20:00:12 4289

原创机器学习之决策树——学习总结

决策树学习总结机器学习的应用越来越广泛，特别是在数据分析领域。本文是我学习决策树算法的一些总结。机器学习简介机器学习 (Machine Learning) 是近 20 多年兴起的一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简而言之，机器学习是通过学习老知识（训练样本），得出自己的认知（模型），去预测未知的结果。学习方式监督式学习从给定的训练数据

2017-01-22 17:16:37 11659

原创 sbt使用及配置

the summary of sbt简介sbt是一个专门用来编译scala工程的编译工具，其本身也是用scala实现。 github地址安装与配置安装常用方法１:下载包下载export环境变量到PATH即可常用方法２：手动安装下载sbt-launch.jar包创建脚本： bash #!/bin/bash SBT_OPTS="-Xms512M -Xmx1536M -Xss1M

2016-12-30 01:26:23 8078

原创 TDW(Tencent Data Warehouse)之hive简介

1. 基本概念 Hive是由Facebook在2007年8月开始开发，并于2008年8月开源(https://issues.apache.org/jira/browse/HADOOP-3601)。它是建立在Hadoop上的数据仓库工具，它可以对存储在HDFS、HBase、PG等存储系统中的文件进行结构化分析等操作。 Hive提供了以下功能： 1)

2016-01-05 09:18:07 2844

原创 Hive现网内存问题定位总结

现网内存问题定位总结前段时间，现网遇到一个很奇葩的问题，server会莫名其妙的重启。个人功力有限，这个问题搞了好久才找到问题原因，现在就把此类问题的基本定位方法梳理一下，也算是一个总结吧。搞java(或其他JVM语言)的人都知道，jdk里自带了几个很牛逼的工具(jmap/jstack/jstat)，是定位java问题的利器，首先要知道这几个工具的使用，然后结合linux的相

2016-01-01 23:36:09 1474

zhaorongsheng的专栏