Spark内存泄露问题分析追查 本文分析思路非常清晰,这里转载作为学习分析spark内存泄露问题的案例。(原文见文章末尾参考)[Abstract]I recently encountered an OOM error in a PageRank application (org.apache.spark.examples.SparkPageRank). After profiling the application, I
浅谈对数据中台理解 背景跟同学朋友聊天的时候会被问到什么是数据中台,这个概念从阿里提出并实践已经有4年左右,但这个概念今年是真正在互联网圈内流行,很多人都听说这个概念,但它到底是什么,有什么用,可以用在哪些场景却很模糊,这里聊聊个人的理解。数据中台是什么?数据中台是马云在参观supercell公司后提出的理念,即大中台小前台,大中台是通用基础技术能力,小前台是指更灵活多样的领域业务。通过强大的中台能力就可以赋...
spark standalone模式作业迁移到spark on yarn 本文主要介绍spark standalone模式的作业迁移到spark on yarn上的一些操作。1、代码重新编译因为之前spark standalone项目使用的是spark 1.5.2版本,而现在的spark on yarn 使用的是spark 2.0.1,所以先需要对原来代码重新编译,建议使用maven构建项目,根据需要使用下面提供的pom.xml文件即可自动下载当前部署版本所需的jar包。
阿里工作第一年感悟 明天就开始在家办公,趁年的尾巴还没过完,回顾下去年经历吧。写到这里时,内心不禁沉重起来,来到新公司这一年,付出的心力、脑力、体力远超过去,过的很不容易,对自己来说最大的挑战不仅是工作本身,更是工作之外。就个人在业务部门的经历总体来说有这几个方面:工作内容过去在中小公司的团队业务范围很大,在所负责方向上有很多可以选择,担心最多的不是没项目做,而是人力有限只能挑最重要的做。来到阿里发现变化很大...
OLAP技术应用——位运算原理及应用 背景位图(bitmap)是一种基于bit位数组的数据结构,在大数据场景下对于存储和计算效率均有奇效。假如将10亿连续的用户ID存在int数组,需要10亿个32位int,占用存储3.72G左右,如果改用bit数组存储,每一个bit位表示一个用户ID,只需要10亿个bit,120M左右存储就够。下图为表示用户是否登入属性的一个bitmap数据结构,存储的是0和1,其中1表示登入过,0表示没登入,...
OLAP领域技术及应用 背景这几年因工作跟OLAP结缘,想借这个机会整理一下OLAP领域的技术、原理及应用,后续会就里面的点进行总结分析,一方面作为对个人思考的激励,另一方面分享出来让更多人对OLAP有更丰富的认识。OLAP这个题目太大,个人计划对部分流行、热点OLAP技术进行总结,同时会兼顾其他方向技术,让大家从横向和纵向对OLAP有一些不同认识。这里附上OLAP知识树大纲,后续会逐个击破。(完)因个人水平...
三年工作经历总结(创业公司、中小公司和大厂经历) 前记回想三年前办完手续离校那天,怀着感恩拖着箱子离开魏公村的母校,对未来工作满怀憧憬,希望能为社会做点什么,为爱的人去努力;不知觉三年过去,三年工作经历,虽然说不上轰烈,但也有一些波澜想记录下来,希望若干年后再回过头来看,能有不同的感悟。三段工作经历第一段(陌陌)接offer毕业后第一份工作是陌陌科技,这第一份工作背后发生很多并不轻松的故事,在经历20多次笔试面试挂掉后,还是去北交参加校...
基于idea+spring-mvc+mybatis+tomcat搭建web应用 最近工作中需要开发一些web项目开始学习使用Spring、mybatis搭建web项目,因为这里面涉及的组件范围比较多,对于新手而言很容易混杂(本人就是),这里重新组织整理,本文除了介绍流程性的搭建步骤,还会提供一些原理思想方面的知识帮助理解搭建过程。1、spring...
小白转行大数据的思考 背景通过大数据面试经验总结这篇文章遇到很多朋友,大多都在做一件事,开始学大数据了。大家各有不同的困惑,例如:过去专业跟计算机不沾边,觉得现有行业待遇太一般,希望换个前景好的行业,挑战太大,不确定能不能实现。过去是计算机专业,不满意之前工作,想转大数据方向,不知道怎么着手。本来就是大数据方向,但觉得当前公司发展潜力不足,个人发展也比较迷茫,希望跳槽换家公司,但担心能力不足。整理一下,就...
30分钟概览OLAP——起源,概念及现状 本文主要面对OLAP入门同学,读者可以对OLAP起源、核心概念和当前发展趋势有一定理解。OLAP起源OLAP(Online analytical processing),即联机分析处理,主要用于支持企业决策管理分析。这个概念最初源于1962年Kenneth Iverson发表的名为“A Programming Language” (APL)的著作,它第一次提出了处理操作和多维变量的的数学表达式...
2018-年中小记 不知觉已经2018年10月份,感觉没做什么,但又感觉过的并不那么轻松,很快就是现公司的last day,趁记忆还在就记录点什么。从7月到10月完成了人生中几件大事,分别是买房、结婚和换工作。连自己都没想到这几件事全部凑在一起,一边在创业公司忙碌加班,下班回来后准备婚礼的工作,还时不时要出去跑买房手续,不得不说真的很充实。这三个月,于我而言,最大的挑战应该算尝试推荐算法领域和负责团队。一边是没什...
feed流推荐系统设计 本文主要分享个人经历中关于推荐系统的应用理解,包括整体推荐系统架构设计、推荐后台服务设计。推荐系统架构设计 1.0推荐系统根据数据使用划分为在线和离线两部分。APP服务日志通过flume采集,然后传给离线和在线业务使用。离线数据主要用来离线训练模型,如gbdt、lr、xgboost等,在线数据特征用来让模型进行在线预测。如下图所示:在线部分实时数据从kafka获取到后直接进入spar...
redis常见问题和使用规范 在工作中使用redis一段时间,遇到了一些常见的问题。1、全量查询元素使用 zrange key 0 -1 命令导致慢查询,这个命令直接查询全量元素,当元素个数过万会导致慢查询。2、key没有加超时时间因为redis是使用内存存储,而内存的容量一般很有限,对key不加expire时间可能导致内存使用很快占满。3、不同业务数据存在同一个dbredis默认有16个db(从db0到db15)...
redis入门介绍及社交行业应用 背景最近工作中开始使用redis,本文就本人目前的理解对redis做一个概括性的介绍,并简单举例几个工作中的应用,最后总结redis使用中的规范,期望以比较全面的方式整理redis相关知识点给大家。redis介绍Redis(Remote Dictionary Server)可以理解是一个基于内存的key-value存储数据结构。“基于内存”表示所有数据直接存在内存中,拥有较快的IO速度...
大数据开发岗位面试经验总结(一线、二线,独角兽,外企,外国企业) 为什么想走?跟很多人也许不同,我不是觉得待遇不好,反而认为陌陌在互联网公司中的待遇算一股清流了:额外家属子女商业保险、总包差不多17薪、每年出国团建、加班少、工作氛围愉快,没有所谓大公司政治斗争,这些对于我毕业第一份工作已经非常满意。可我还是想离开,主要是觉得个人成长已经很缓慢,工作没有太大压力,而内心很想逃出舒适区,于是想离职的想法逐渐萌芽。整个面试差不多持续1个半月,从刚开始懵懵懂懂准...
如何修改jar文件内容和反编译class文件 这里主要介绍两个方面:如何修改jar文件内容及如何反编译class文件。修改jar包很多时候我们拿到第三方的jar包,但是发现里面有内容需要修改或删除,可以采取如下几步:例如这里有一个文件test-1.0-SNAPSHOT.jar,我发现这里面有一个test.xml文件需要删除。1)解压jar包先解压到当前目录jar -xvf test-1.0-SNAPSHOT.jar...
spark thriftserver进程fullgc导致卡死和计算getsplit时间很长问题 背景参考饿了么经验:https://zhuanlan.zhihu.com/p/28574213饿了么经验中谈到:“hive.exec.orc.split.strategy为ETL”,但是这样可能导致spark thriftserver的内存压力很大,面对大作业会导致full gc从而进程卡死或退出。原因先看看split的strategy类别,它有BI,ETL和HYBRID三种,...
Spark SQL with Alluxio 环境搭建 背景这里搭建使用yarn的node label特性隔离出测试集群环境,使用Spark Thriftserver提供adhoc 查询服务,查alluxio scheme的表对用户来说是透明的。环境配置部分总体上来说,配置依据官网 https://www.alluxio.org/docs/1.6/en/Running-Spark-on-Alluxio.html和 https://w...