简单就好

生无所息

从业务视角看开源数据存储技术选型

背景 看图 图分析 总结

2019-05-04 18:45:11

阅读数 23

评论数 0

基于idea+spring-mvc+mybatis+tomcat搭建web应用

最近工作中需要开发一些web项目开始学习使用Spring、mybatis搭建web项目,因为这里面涉及的组件范围比较多,对于新手而言很容易混杂(本人就是),这里重新组织整理,本文除了介绍流程性的搭建步骤,还会提供一些原理思想方面的知识帮助理解搭建过程。 1、spring ...

2019-04-01 10:13:47

阅读数 58

评论数 0

小白转行大数据的思考

背景 通过大数据面试经验总结这篇文章遇到很多朋友,大多都在做一件事,开始学大数据了。大家各有不同的困惑,例如: 过去专业跟计算机不沾边,觉得现有行业待遇太一般,希望换个前景好的行业,挑战太大,不确定能不能实现。 过去是计算机专业,不满意之前工作,想转大数据方向,不知道怎么着手。 本来就是大数据方...

2019-03-07 23:23:33

阅读数 636

评论数 0

30分钟概览OLAP——起源,概念及现状

本文主要面对OLAP入门同学,读者可以对OLAP起源、核心概念和当前发展趋势有一定理解。 OLAP起源 OLAP(Online analytical processing),即联机分析处理,主要用于支持企业决策管理分析。这个概念最初源于1962年Kenneth Iverson发表的名为“A Pro...

2019-01-12 22:36:59

阅读数 192

评论数 0

2018-年中小记

不知觉已经2018年10月份,感觉没做什么,但又感觉过的并不那么轻松,很快就是现公司的last day,趁记忆还在就记录点什么。 从7月到10月完成了人生中几件大事,分别是买房、结婚和换工作。连自己都没想到这几件事全部凑在一起,一边在创业公司忙碌加班,下班回来后准备婚礼的工作,还时不时要出去跑买房...

2018-10-20 22:45:22

阅读数 209

评论数 2

feed流推荐系统设计

本文主要分享个人经历中关于推荐系统的应用理解,包括整体推荐系统架构设计、推荐后台服务设计。 推荐系统架构设计 1.0 推荐系统根据数据使用划分为在线和离线两部分。APP服务日志通过flume采集,然后传给离线和在线业务使用。离线数据主要用来离线训练模型,如gbdt、lr、xgboost等,在线数据...

2018-10-10 18:31:44

阅读数 4390

评论数 4

redis常见问题和使用规范

在工作中使用redis一段时间,遇到了一些常见的问题。 1、全量查询元素 使用 zrange key 0 -1 命令导致慢查询,这个命令直接查询全量元素,当元素个数过万会导致慢查询。 2、key没有加超时时间 因为redis是使用内存存储,而内存的容量一般很有限,对key不加expire时...

2018-10-09 23:06:35

阅读数 334

评论数 0

redis入门介绍及社交行业应用

背景 最近工作中开始使用redis,本文就本人目前的理解对redis做一个概括性的介绍,并简单举例几个工作中的应用,最后总结redis使用中的规范,期望以比较全面的方式整理redis相关知识点给大家。 redis介绍 Redis(Remote Dictionary Server)...

2018-10-09 18:59:47

阅读数 129

评论数 0

大数据开发岗位面试经验总结(一线、二线,独角兽,外企,外国企业)

为什么想走? 跟很多人也许不同,我不是觉得待遇不好,反而认为陌陌在互联网公司中的待遇算一股清流了:额外家属子女商业保险、总包差不多17薪、每年出国团建、加班少、工作氛围愉快,没有所谓大公司政治斗争,这些对于我毕业第一份工作已经非常满意。可我还是想离开,主要是觉得个人成长已经很缓慢,工作没有太...

2018-06-11 10:14:43

阅读数 7642

评论数 20

如何修改jar文件内容和反编译class文件

这里主要介绍两个方面:如何修改jar文件内容及如何反编译class文件。 修改jar包 很多时候我们拿到第三方的jar包,但是发现里面有内容需要修改或删除,可以采取如下几步: 例如这里有一个文件test-1.0-SNAPSHOT.jar,我发现这里面有一个test.xml文件需要...

2018-04-26 16:37:00

阅读数 913

评论数 0

spark thriftserver进程fullgc导致卡死和计算getsplit时间很长问题

背景 参考饿了么经验:https://zhuanlan.zhihu.com/p/28574213 饿了么经验中谈到:“hive.exec.orc.split.strategy为ETL”,但是这样可能导致spark thriftserver的内存压力很大,面对大作业会导致full gc从而进程卡...

2018-04-09 18:54:55

阅读数 836

评论数 1

Spark SQL with Alluxio 环境搭建

背景 这里搭建使用yarn的node label特性隔离出测试集群环境,使用Spark Thriftserver提供adhoc 查询服务,查alluxio scheme的表对用户来说是透明的。 环境配置部分 总体上来说,配置依据官网 https://www.alluxio.org/do...

2018-03-22 19:08:15

阅读数 426

评论数 0

Alluxio 1.6.1 与Spark SQL结合使用踩坑总结

1、 扫表问题 表不存在hdfs,但在元数据中 java.lang.RuntimeException: serious problem at org.apache.hadoop.hive.ql.io.orc.OrcInputFormat.generateSplitsInfo...

2018-03-22 17:50:47

阅读数 703

评论数 0

Elasticsearch 6.2 集群搭建问题小记

搭了了一个单机的ELK,基本没有太多配置就好了,没什么坑,然后看ES有集群模式,然后尝试搭建一个集群模式,发有几个需要注意的地方。 首先集群配置ES参数含义参考https://www.jianshu.com/p/149a8da90bbc,集群模式搭建参考http://blog.csdn.net/...

2018-03-12 19:19:02

阅读数 3651

评论数 0

Leveraging Alluxio with Spark SQL to Speed Up Ad-hoc Analysis

Background At present, hundreds of TB of data is processed in Momo bigdata cluster every day. However, most of the data will be read/write through d...

2018-01-23 18:46:16

阅读数 544

评论数 0

Spark内存泄露问题分析追查

本文分析思路非常清晰,这里转载作为学习分析spark内存泄露问题的案例。(原文见文章末尾参考) [Abstract] I recently encountered an OOM error in a PageRank application (org.apache.spark.examples...

2018-01-11 10:15:33

阅读数 1031

评论数 0

Spark与Hive的Beeline运行机制

因为业务中主要使用Spark Thriftserver作为adhoc查询服务,而Spark原生是不支持SQLStdBasedAuthorization,所以需要调研这方面源码,本文将这方面的理解分享给大家,如有错误欢迎指出。Spark的beeline在很多地方直接沿袭hive的beeline,当然...

2018-01-03 19:39:58

阅读数 1958

评论数 0

小结2017,小记2018

时间总是很快,2017年初定的目标,脑袋闪一下就过了。从2016年毕业已经工作快2年,细数去年一年的经历,有成长也有很多不足。下面开始流水账: 1)工作方面 2017年说要读3本技术书的,结果看杂书去了(苦脸),一本关于佛教,一本关于社会边缘人群的心理故事。哎,说好的看技术呢。 关于开源...

2018-01-02 22:54:04

阅读数 376

评论数 4

使用jmxtrans监控Spark JVM信息到grafana显示

1、下载jmxtrans jmxtrans作为agent部署在需要采集数据的节点上,主要用于数据采集和发送. 2、修改{jmxtrans}/conf下配置文件 配置文件内容需要json格式,名字可自取。 { "servers" : [ { ...

2017-12-27 18:55:08

阅读数 1514

评论数 0

Spark ERROR: org.apache.spark.shuffle.FetchFailedException 问题追查

Spark ERROR: org.apache.spark.shuffle.FetchFailedException 问题追查

2017-12-11 11:59:48

阅读数 2139

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭