茅庐

Engineering is trade-off.

谈Spark下并行执行多个Job的问题

本文结合笔者的实践场景,探讨了Spark下并行执行多个Job的问题。梳理了Spark任务调度的机制,并总结了实践中需要考虑的问题。

2019-03-20 19:08:03

阅读数 665

评论数 0

聊一聊Spark写文件的机制——如何保证数据一致性

本文结合实践中遇到的问题来分析Spark写文件的机制,探讨其在性能和数据一致性上的权衡,包括什么是Rename机制,诸如S3这种对象存储的特殊性以及当前的优化方案(Consistent View,S3 Multipart Upload)。

2019-03-03 13:36:27

阅读数 4388

评论数 0

Elasticsearch最佳实践之Index与Shard设计

作为专栏的第三篇,本文主要探讨实际应用中Index与Shard的设计方法。主要包括这样几方面:基于时间的Index设计、Mapping设计技巧、巧妙的Alias、Shard分配原则、整体思路。

2019-01-22 16:44:53

阅读数 6926

评论数 1

创业公司做数据分析(六)数据仓库的建设

本文重点探讨了数据处理层中数据仓库的建设,旨在构建一个适于分析的数据存储系统。文章探讨了数据仓库建设中的两个重要环节:数据建模与ETL过程,根据实践谈了谈维度建模的方法,以及ETL中的增量更新机制与基于Airflow的任务流管理系统。

2017-02-02 19:36:58

阅读数 12003

评论数 6

创业公司做数据分析(五)微信分享追踪系统

本文重点探讨数据采集层中的微信分享追踪系统。用户在微信中对Web H5网页进行浏览、分享,便会形成两种数据:操作行为数据和用户之间的传播关系数据,微信分享追踪系统便是对这类数据进行采集、存储,本文主要总结我们在微信分享追踪上的技术思考和方案演进。

2017-01-12 21:13:27

阅读数 9631

评论数 2

创业公司做数据分析(四)ELK日志系统

本文将重点探讨数据采集层中的ELK日志系统,结合自身实践来介绍如何使用ELK系统、使用中的问题以及如何解决。ELK是一套开源的集中式日志数据管理的解决方案,由Elasticsearch、Logstash和Kibana三个系统组成。

2017-01-07 00:54:07

阅读数 11019

评论数 4

创业公司做数据分析(三)用户行为数据采集系统

本文将重点探讨数据采集层中的用户行为数据采集系统,分析了为什么要建设用户行为数据采集系统、采什么、前端怎么采、后端怎么存。

2016-12-27 17:12:46

阅读数 14766

评论数 8

创业公司做数据分析(二)运营数据系统

本文探讨数据应用层中的运营数据系统,因为运营数据几乎是所有互联网创业公司开始做数据的起点,也是早期数据服务的主要对象。本文将着重回顾下我们做了哪些工作、遇到过哪些问题、如何解决并实现了相应的功能。

2016-12-07 22:39:07

阅读数 8714

评论数 2

创业公司做数据分析(一)开篇

        了解“认知心理学”的朋友应该知道:人类对事物的认知,总是由浅入深。然而,每个人思考的深度千差万别,关键在于思考的方式。通过提问三部曲:WHAT->HOW->WHY,可以帮助我们一步步地从事物的表象深入到事物的本质。比如学习一个新的技术框...

2016-12-01 23:14:06

阅读数 7706

评论数 2

当Spark遇上Zeppelin

本文将会发表在GitChat上面,主要探讨Spark with Zeppelin。Zeppelin是一个基于Web的交互式数据分析工具,里面有很多解释器,透过这些解释器可以利用相应的引擎完成数据分析,Spark便是其中一种。

2019-01-13 14:19:09

阅读数 1520

评论数 0

详解Spark Streaming的Graceful Shutdown

本文主要探讨Spark Streaming的Graceful Shutdown,重点为三个问题:为什么需要Graceful Shutdown?如何触发Graceful Shutdown?Graceful Shutdown过程是怎样的?

2019-01-06 23:22:08

阅读数 7573

评论数 0

Elasticsearch最佳实践之核心概念与原理

作为专栏文章的第二篇,本文从数据组织、数据分布、集群角色、数据写入与存储结构多个方面对Elasticsearch的核心概念进行整理,尽可能由浅入深的交代清楚每个概念。

2018-12-03 22:29:58

阅读数 6324

评论数 4

谈Elasticsearch下分布式存储的数据分布

本文探讨了Elasticsearch是如何让数据均衡的分布在不同的节点上,主要有三个影响:节点位置、磁盘空间、单个节点的Index和Shard个数。

2018-10-30 22:25:45

阅读数 8182

评论数 13

聚合查询越来越慢?——详解Elasticsearch的Global Ordinals与High Cardinality

本文结合笔者在实践过程中遇到的由High Cardinality引起Global Ordinals构建过慢,从而导致聚合查询变慢的问题,阐述了Elasticsearch中两个核心概念:Global Ordinals和High Cardinality。

2018-10-22 17:42:37

阅读数 2105

评论数 4

Elasticsearch最佳实践之使用场景

本文围绕Elasticsearch的核心特征:搜索与分析,探讨其常见的业务场景:ELK日志系统、数据聚合分析、业务内搜索,以及集群建设的选择。

2018-10-08 20:31:30

阅读数 21302

评论数 9

谈一谈Elasticsearch的集群部署

Elasticsearch是一个分布式的搜索引擎和数据分析引擎。本文重点谈一谈Elasticsearch的集群节点相关问题,搞清楚这些是进行Elasticsearch集群部署和拓扑结构设计的前提。

2018-09-30 16:17:39

阅读数 20519

评论数 0

打造私人搜书系统之系统设计

作者利用业余时间打造了一个自己的搜书系统,基本的思路是:从各个小说网站爬取相关的书籍信息,通过一个手机客户端来阅读小说。本文将从系统设计的角度,来谈谈设计的思路和踩过的坑。

2017-08-26 19:11:11

阅读数 3699

评论数 1

Kafka下的生产消费者模式与订阅发布模式

生产消费者模式与订阅发布模式是使用消息中间件时常用的两种模式,用于功能解耦和分布式系统间的消息通信。本文在总结了Kafka基本概念的基础上,以“数据接入”和“事件分发”这两个场景为例,来探讨Kafka作为消息系统的应用方法(High Level)。

2017-01-21 17:27:26

阅读数 26233

评论数 3

Elasticsearch使用总结

本文着重对Elasticsearch在应用层面上的使用进行总结,主要包括基本概念、数据插入、数据查询、聚合分析。

2016-12-25 20:51:33

阅读数 7340

评论数 0

RabbitMQ下的生产消费者模式与订阅发布模式

生产消费者模式与订阅发布模式是使用消息中间件时常用的两种模式,用于功能解耦和分布式系统间的消息通信。本文在总结了RabbitMQ核心概念的基础上,以“数据接入”和“事件分发”两个场景来探讨如何实现生产消费者模式和订阅发布模式。

2016-12-11 16:58:34

阅读数 15142

评论数 6

提示
确定要删除当前文章?
取消 删除