自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 问答 (1)
  • 收藏
  • 关注

原创 kafka producer batch优化节约百万级成本

本文主要介绍云音乐对kafka的优化,给生产集群带来了显著的收益,初步统计每年为云音乐节省几百万的成本。本文主要分为两部分,第一部分详细介绍优化kafka性能时遇到的问题及解决过程,第二部分介绍kafka producer的写入原理及batch优化。如果对我们定位问题的过程不太感兴趣的同学,可以直接阅读第二部分。一、背景随着云音乐主站流量的增长以及曙光埋点的放量,平台的流量逐渐增长,kaf...

2022-01-09 16:13:45 185

原创 kafka之网络模型总结

弄清楚kafka的网络模型原理,能很好的帮助理解和优化kafka服务。kafka底层的网络通信,没有使用第三方rpc实现,如netty等,而是使用了java的NIO实现的一套自己的通信框架协议。本文主要描述kafka基础网络通信的相关实现原理,版本为1.1.0。java NIO具体细节不再描述,主要包含3个部分:Channel:连接,如FileChannel、SocketChannel等,表...

2019-06-28 22:38:36 130

原创 大数据图谱

2018-10-30 14:40:13 1289

原创 orcFile split和读数据原理总结(hive0.13)

官网关于orcfile的介绍背景Hive的rcfile格式已经使用多年,但是,它会将所有的列都当做二进制来处理,没有与类型挂钩。因此,Hive0.11版本引入orcFile。OrcFile有以下几点好处:每个task只生成一个文件,减轻hdfs压力保存列类型,支持datetime, decimal和负责类型(struct, list, map, and union)文件中保存轻量级索引 跳

2017-06-07 20:13:23 5460

原创 spark job server原理

spark job server原理配置相关settings.sh 功能:配置环境变量APP_USER/APP_GROUP:作业提交用户和组JMX_PORT:java jmx端口,通常在aws或者其他容器里打开INSTALL_DIR:sjs所做目录LOG_DIR:日志路径PIDFILE:启动sjs,产生pid存放的文件名JOBSERVER_MEMORY:启动spark作业的drive

2017-06-07 20:03:51 2275

原创 spark job server使用方法

入门clone代码 从github上的spark-jobserver工程clone代码到本地编译 需要将工程根目录下的config文件删除将文件夹job-server/config拷贝到工程根目录下将local.conf.template/local.sh.template重命名为locao.conf/local.sh配置环境export JAVA_HOME=/d/java/jdk1

2017-06-07 20:00:12 4289

原创 机器学习之决策树——学习总结

决策树学习总结 机器学习的应用越来越广泛,特别是在数据分析领域。本文是我学习决策树算法的一些总结。机器学习简介机器学习 (Machine Learning) 是近 20 多年兴起的一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。简而言之,机器学习是通过学习老知识(训练样本),得出自己的认知(模型),去预测未知的结果。学习方式 监督式学习 从给定的训练数据

2017-01-22 17:16:37 11659

原创 sbt使用及配置

the summary of sbt简介sbt是一个专门用来编译scala工程的编译工具,其本身也是用scala实现。 github地址安装与配置安装常用方法1:下载包 下载export环境变量到PATH即可常用方法2:手动安装 下载sbt-launch.jar包创建脚本: bash #!/bin/bash SBT_OPTS="-Xms512M -Xmx1536M -Xss1M

2016-12-30 01:26:23 8078

原创 TDW(Tencent Data Warehouse)之hive简介

1.     基本概念  Hive是由Facebook在2007年8月开始开发,并于2008年8月开源(https://issues.apache.org/jira/browse/HADOOP-3601)。它是建立在Hadoop上的数据仓库工具,它可以对存储在HDFS、HBase、PG等存储系统中的文件进行结构化分析等操作。  Hive提供了以下功能:  1)

2016-01-05 09:18:07 2844

原创 Hive现网内存问题定位总结

现网内存问题定位总结   前段时间,现网遇到一个很奇葩的问题,server会莫名其妙的重启。个人功力有限,这个问题搞了好久才找到问题原因,现在就把此类问题的基本定位方法梳理一下,也算是一个总结吧。  搞java(或其他JVM语言)的人都知道,jdk里自带了几个很牛逼的工具(jmap/jstack/jstat),是定位java问题的利器,首先要知道这几个工具的使用,然后结合linux的相

2016-01-01 23:36:09 1474

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除