进击成长
码龄11年
关注
提问 私信
  • 博客:400,955
    400,955
    总访问量
  • 52
    原创
  • 2,248,234
    排名
  • 338
    粉丝
  • 0
    铁粉

个人简介:时间有限,但做于自己的无限。

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖北省
  • 加入CSDN时间: 2014-07-03
博客简介:

简单就好

博客描述:
生无所息
查看详细资料
个人成就
  • 获得205次点赞
  • 内容获得92次评论
  • 获得663次收藏
创作历程
  • 1篇
    2022年
  • 1篇
    2020年
  • 8篇
    2019年
  • 14篇
    2018年
  • 22篇
    2017年
  • 6篇
    2016年
  • 1篇
    2015年
成就勋章
TA的专栏
  • OLAP的那些事儿
    2篇
  • spark经验总结
    23篇
  • Spark入门教程
    6篇
  • zeppelin
    4篇
  • 30分钟概览新技术
    6篇
  • antlr4介绍
    1篇
  • 性能调优
    3篇
  • dr.elephant
    1篇
  • spark-streaming
    3篇
  • kafka
    1篇
  • 自问自答
    3篇
  • 运维监控
    1篇
  • grafana
    1篇
  • 杂记
    9篇
  • alluxio
    3篇
  • elasticsearch
    1篇
  • redis
    2篇
  • 推荐系统
    1篇
  • OLAP
    4篇
  • spring
  • 数据库技术
    1篇
兴趣领域 设置
  • 大数据
    spark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

阿里四年对工作和生活的感悟

随着时间经历,生活中常有一些新的感悟,下面对行业、工作、家庭和生活四个角度聊一聊,内容较长,可有选择的看
原创
发布博客 2022.04.07 ·
768 阅读 ·
5 点赞 ·
2 评论 ·
2 收藏

Spark内存泄露问题分析追查

本文分析思路非常清晰,这里转载作为学习分析spark内存泄露问题的案例。(原文见文章末尾参考)[Abstract]I recently encountered an OOM error in a PageRank application (org.apache.spark.examples.SparkPageRank). After profiling the application, I
转载
发布博客 2018.01.11 ·
3039 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

浅谈对数据中台理解

背景​跟同学朋友聊天的时候会被问到什么是数据中台,这个概念从阿里提出并实践已经有4年左右,但这个概念今年是真正在互联网圈内流行,很多人都听说这个概念,但它到底是什么,有什么用,可以用在哪些场景却很模糊,这里聊聊个人的理解。数据中台是什么?数据中台是马云在参观supercell公司后提出的理念,即大中台小前台,大中台是通用基础技术能力,小前台是指更灵活多样的领域业务。通过强大的中台能力就可以赋...
原创
发布博客 2019.11.13 ·
2814 阅读 ·
2 点赞 ·
2 评论 ·
9 收藏

spark standalone模式作业迁移到spark on yarn

本文主要介绍spark standalone模式的作业迁移到spark on yarn上的一些操作。1、代码重新编译因为之前spark standalone项目使用的是spark 1.5.2版本,而现在的spark on yarn 使用的是spark 2.0.1,所以先需要对原来代码重新编译,建议使用maven构建项目,根据需要使用下面提供的pom.xml文件即可自动下载当前部署版本所需的jar包。
原创
发布博客 2016.11.20 ·
4641 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

阿里工作第一年感悟

明天就开始在家办公,趁年的尾巴还没过完,回顾下去年经历吧。写到这里时,内心不禁沉重起来,来到新公司这一年,付出的心力、脑力、体力远超过去,过的很不容易,对自己来说最大的挑战不仅是工作本身,更是工作之外。就个人在业务部门的经历总体来说有这几个方面:工作内容过去在中小公司的团队业务范围很大,在所负责方向上有很多可以选择,担心最多的不是没项目做,而是人力有限只能挑最重要的做。来到阿里发现变化很大...
原创
发布博客 2020.02.02 ·
1727 阅读 ·
7 点赞 ·
0 评论 ·
0 收藏

OLAP技术应用——位运算原理及应用

背景位图(bitmap)是一种基于bit位数组的数据结构,在大数据场景下对于存储和计算效率均有奇效。假如将10亿连续的用户ID存在int数组,需要10亿个32位int,占用存储3.72G左右,如果改用bit数组存储,每一个bit位表示一个用户ID,只需要10亿个bit,120M左右存储就够。下图为表示用户是否登入属性的一个bitmap数据结构,存储的是0和1,其中1表示登入过,0表示没登入,...
原创
发布博客 2019.09.01 ·
763 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

OLAP领域技术及应用

背景这几年因工作跟OLAP结缘,想借这个机会整理一下OLAP领域的技术、原理及应用,后续会就里面的点进行总结分析,一方面作为对个人思考的激励,另一方面分享出来让更多人对OLAP有更丰富的认识。OLAP这个题目太大,个人计划对部分流行、热点OLAP技术进行总结,同时会兼顾其他方向技术,让大家从横向和纵向对OLAP有一些不同认识。这里附上OLAP知识树大纲,后续会逐个击破。(完)因个人水平...
原创
发布博客 2019.08.25 ·
1137 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

三年工作经历总结(创业公司、中小公司和大厂经历)

前记回想三年前办完手续离校那天,怀着感恩拖着箱子离开魏公村的母校,对未来工作满怀憧憬,希望能为社会做点什么,为爱的人去努力;不知觉三年过去,三年工作经历,虽然说不上轰烈,但也有一些波澜想记录下来,希望若干年后再回过头来看,能有不同的感悟。三段工作经历第一段(陌陌)接offer毕业后第一份工作是陌陌科技,这第一份工作背后发生很多并不轻松的故事,在经历20多次笔试面试挂掉后,还是去北交参加校...
原创
发布博客 2019.07.05 ·
6711 阅读 ·
16 点赞 ·
4 评论 ·
23 收藏

从业务视角看开源数据存储技术选型

背景看图图分析总结
原创
发布博客 2019.05.04 ·
488 阅读 ·
3 点赞 ·
0 评论 ·
1 收藏

基于idea+spring-mvc+mybatis+tomcat搭建web应用

最近工作中需要开发一些web项目开始学习使用Spring、mybatis搭建web项目,因为这里面涉及的组件范围比较多,对于新手而言很容易混杂(本人就是),这里重新组织整理,本文除了介绍流程性的搭建步骤,还会提供一些原理思想方面的知识帮助理解搭建过程。1、spring...
原创
发布博客 2019.04.01 ·
1271 阅读 ·
3 点赞 ·
2 评论 ·
5 收藏

小白转行大数据的思考

背景通过大数据面试经验总结这篇文章遇到很多朋友,大多都在做一件事,开始学大数据了。大家各有不同的困惑,例如:过去专业跟计算机不沾边,觉得现有行业待遇太一般,希望换个前景好的行业,挑战太大,不确定能不能实现。过去是计算机专业,不满意之前工作,想转大数据方向,不知道怎么着手。本来就是大数据方向,但觉得当前公司发展潜力不足,个人发展也比较迷茫,希望跳槽换家公司,但担心能力不足。整理一下,就...
原创
发布博客 2019.03.07 ·
6718 阅读 ·
7 点赞 ·
7 评论 ·
23 收藏

30分钟概览OLAP——起源,概念及现状

本文主要面对OLAP入门同学,读者可以对OLAP起源、核心概念和当前发展趋势有一定理解。OLAP起源OLAP(Online analytical processing),即联机分析处理,主要用于支持企业决策管理分析。这个概念最初源于1962年Kenneth Iverson发表的名为“A Programming Language” (APL)的著作,它第一次提出了处理操作和多维变量的的数学表达式...
原创
发布博客 2019.01.12 ·
54791 阅读 ·
34 点赞 ·
3 评论 ·
160 收藏

2018-年中小记

不知觉已经2018年10月份,感觉没做什么,但又感觉过的并不那么轻松,很快就是现公司的last day,趁记忆还在就记录点什么。从7月到10月完成了人生中几件大事,分别是买房、结婚和换工作。连自己都没想到这几件事全部凑在一起,一边在创业公司忙碌加班,下班回来后准备婚礼的工作,还时不时要出去跑买房手续,不得不说真的很充实。这三个月,于我而言,最大的挑战应该算尝试推荐算法领域和负责团队。一边是没什...
原创
发布博客 2018.10.20 ·
492 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

feed流推荐系统设计

本文主要分享个人经历中关于推荐系统的应用理解,包括整体推荐系统架构设计、推荐后台服务设计。推荐系统架构设计 1.0推荐系统根据数据使用划分为在线和离线两部分。APP服务日志通过flume采集,然后传给离线和在线业务使用。离线数据主要用来离线训练模型,如gbdt、lr、xgboost等,在线数据特征用来让模型进行在线预测。如下图所示:在线部分实时数据从kafka获取到后直接进入spar...
原创
发布博客 2018.10.10 ·
12768 阅读 ·
0 点赞 ·
7 评论 ·
21 收藏

redis常见问题和使用规范

在工作中使用redis一段时间,遇到了一些常见的问题。1、全量查询元素使用 zrange key 0 -1 命令导致慢查询,这个命令直接查询全量元素,当元素个数过万会导致慢查询。2、key没有加超时时间因为redis是使用内存存储,而内存的容量一般很有限,对key不加expire时间可能导致内存使用很快占满。3、不同业务数据存在同一个dbredis默认有16个db(从db0到db15)...
原创
发布博客 2018.10.09 ·
1652 阅读 ·
0 点赞 ·
0 评论 ·
6 收藏

redis入门介绍及社交行业应用

背景最近工作中开始使用redis,本文就本人目前的理解对redis做一个概括性的介绍,并简单举例几个工作中的应用,最后总结redis使用中的规范,期望以比较全面的方式整理redis相关知识点给大家。redis介绍Redis(Remote Dictionary Server)可以理解是一个基于内存的key-value存储数据结构。“基于内存”表示所有数据直接存在内存中,拥有较快的IO速度...
原创
发布博客 2018.10.09 ·
703 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

大数据开发岗位面试经验总结(一线、二线,独角兽,外企,外国企业)

为什么想走?跟很多人也许不同,我不是觉得待遇不好,反而认为陌陌在互联网公司中的待遇算一股清流了:额外家属子女商业保险、总包差不多17薪、每年出国团建、加班少、工作氛围愉快,没有所谓大公司政治斗争,这些对于我毕业第一份工作已经非常满意。可我还是想离开,主要是觉得个人成长已经很缓慢,工作没有太大压力,而内心很想逃出舒适区,于是想离职的想法逐渐萌芽。整个面试差不多持续1个半月,从刚开始懵懵懂懂准...
原创
发布博客 2018.06.11 ·
22087 阅读 ·
25 点赞 ·
27 评论 ·
127 收藏

如何修改jar文件内容和反编译class文件

这里主要介绍两个方面:如何修改jar文件内容及如何反编译class文件。修改jar包很多时候我们拿到第三方的jar包,但是发现里面有内容需要修改或删除,可以采取如下几步:例如这里有一个文件test-1.0-SNAPSHOT.jar,我发现这里面有一个test.xml文件需要删除。1)解压jar包先解压到当前目录jar -xvf test-1.0-SNAPSHOT.jar...
原创
发布博客 2018.04.26 ·
3931 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

spark thriftserver进程fullgc导致卡死和计算getsplit时间很长问题

背景参考饿了么经验:https://zhuanlan.zhihu.com/p/28574213饿了么经验中谈到:“hive.exec.orc.split.strategy为ETL”,但是这样可能导致spark thriftserver的内存压力很大,面对大作业会导致full gc从而进程卡死或退出。原因先看看split的strategy类别,它有BI,ETL和HYBRID三种,...
原创
发布博客 2018.04.09 ·
2550 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Spark SQL with Alluxio 环境搭建

背景这里搭建使用yarn的node label特性隔离出测试集群环境,使用Spark Thriftserver提供adhoc 查询服务,查alluxio scheme的表对用户来说是透明的。环境配置部分总体上来说,配置依据官网 https://www.alluxio.org/docs/1.6/en/Running-Spark-on-Alluxio.html和 https://w...
原创
发布博客 2018.03.22 ·
1198 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多