Mr-Bruce-CSDN博客

原创让业务数据流动起来~

本文探讨了一种优雅的、没有倾入性的获取核心业务数据对应的过程型数据的通用解决方案。

2020-07-12 22:11:57 14672 1

原创大数据的一生一世——谈数据冷热分离技术

本文探讨了大数据冷热分离的诸多解决方案，包括冷热分离异构系统、冷热分离同构系统。

2020-06-14 23:31:45 19193 4

原创再谈Spark下写S3文件的File Output Committer问题

本文回顾了Spark写文件的机制，探讨了AWS EMRFS S3-optimized Committer的工作原理、存在的数据一致性问题以及如何解决。

2020-05-03 17:11:38 11432 1

原创 Parquet的那些事（三）嵌套数据模型

本文从嵌套结构的特性出发，逐步探讨了Parquet是如何支持嵌套结构存储的。

2020-04-12 23:05:09 15012 3

原创 Parquet的那些事（二）Spark中的Schema兼容问题

本文探讨了在Spark中经常会遇到的Parquet Schema兼容的问题，分析了文件加载和表加载的细节与Schema兼容的规则。

2020-03-14 20:10:50 16848 1

原创 Parquet的那些事（一）基本原理

本文阐述了Parquet的价值、基本文件结构、Predicate Pushdown Filter特性以及常用的工具。

2020-03-09 00:47:29 19252

原创谈Spark下并行执行多个Job的问题

本文结合笔者的实践场景，探讨了Spark下并行执行多个Job的问题。梳理了Spark任务调度的机制，并总结了实践中需要考虑的问题。

2019-03-20 19:08:03 27491 11

原创 Elasticsearch最佳实践之Index与Shard设计

作为专栏的第三篇，本文主要探讨实际应用中Index与Shard的设计方法。主要包括这样几方面：基于时间的Index设计、Mapping设计技巧、巧妙的Alias、Shard分配原则、整体思路。

2019-01-22 16:44:53 21673 8

原创 Elasticsearch最佳实践之核心概念与原理

作为专栏文章的第二篇，本文从数据组织、数据分布、集群角色、数据写入与存储结构多个方面对Elasticsearch的核心概念进行整理，尽可能由浅入深的交代清楚每个概念。

2018-12-03 22:29:58 14864 9

原创聚合查询越来越慢？——详解Elasticsearch的Global Ordinals与High Cardinality

本文结合笔者在实践过程中遇到的由High Cardinality引起Global Ordinals构建过慢，从而导致聚合查询变慢的问题，阐述了Elasticsearch中两个核心概念：Global Ordinals和High Cardinality。

2018-10-22 17:42:37 12163 8

原创 Elasticsearch最佳实践之使用场景

本文围绕Elasticsearch的核心特征：搜索与分析，探讨其常见的业务场景：ELK日志系统、数据聚合分析、业务内搜索，以及集群建设的选择。

2018-10-08 20:31:30 27280 7

原创创业公司做数据分析（六）数据仓库的建设

本文重点探讨了数据处理层中数据仓库的建设，旨在构建一个适于分析的数据存储系统。文章探讨了数据仓库建设中的两个重要环节：数据建模与ETL过程，根据实践谈了谈维度建模的方法，以及ETL中的增量更新机制与基于Airflow的任务流管理系统。

2017-02-02 19:36:58 15940 4

原创创业公司做数据分析（五）微信分享追踪系统

本文重点探讨数据采集层中的微信分享追踪系统。用户在微信中对Web H5网页进行浏览、分享，便会形成两种数据：操作行为数据和用户之间的传播关系数据，微信分享追踪系统便是对这类数据进行采集、存储，本文主要总结我们在微信分享追踪上的技术思考和方案演进。

2017-01-12 21:13:27 12246 1

原创创业公司做数据分析（四）ELK日志系统

本文将重点探讨数据采集层中的ELK日志系统，结合自身实践来介绍如何使用ELK系统、使用中的问题以及如何解决。ELK是一套开源的集中式日志数据管理的解决方案，由Elasticsearch、Logstash和Kibana三个系统组成。

2017-01-07 00:54:07 14423 2

原创创业公司做数据分析（三）用户行为数据采集系统

本文将重点探讨数据采集层中的用户行为数据采集系统，分析了为什么要建设用户行为数据采集系统、采什么、前端怎么采、后端怎么存。

2016-12-27 17:12:46 21736 6

原创创业公司做数据分析（二）运营数据系统

本文探讨数据应用层中的运营数据系统，因为运营数据几乎是所有互联网创业公司开始做数据的起点，也是早期数据服务的主要对象。本文将着重回顾下我们做了哪些工作、遇到过哪些问题、如何解决并实现了相应的功能。

2016-12-07 22:39:07 13072 2

原创创业公司做数据分析（一）开篇

作为系列文章的第一篇，本文采用“WHY->WHAT->HOW”的思考方式来介绍三点：1. 创业公司为什么需要做数据分析？2. 创业公司做数据分析，需要做哪些事情？3. 如何实现这些数据上的需求？

2016-12-01 23:14:06 13672 2

原创图计算思维与实践（三）项目实践

本文截取了我们在网络数据分析项目中的一小块，阐述了使用图计算解决相关业务问题的基本思路。

2021-02-27 22:00:30 677

原创图计算思维与实践（二）核心概念与算法

本文介绍了图计算中的核心概念与算法，了解这些基本知识可以帮助我们更好更快的探索一个图，找到相应的解决方案，同时也是更深层次研究的基础。

2021-01-10 21:34:23 13396 4

原创图计算思维与实践（一）概览

本文介绍了以知识图谱、网络分析为主的图计算的应用，阐述了图思维的方式。

2020-12-27 16:10:40 28355 1

原创 Spark最佳实践之如何有效分配资源

本文主要探讨如何在AWS EMR下为Spark有效分配资源，从而充分利用一个集群的所有可用资源。

2020-03-28 22:39:20 22484

原创探秘HDFS —— 发展历史、核心概念、架构、工作机制（上）

本文作为“探秘HDFS”上篇，主要分享Hadoop发展历史、HDFS核心概念和整体架构。

2019-09-01 18:28:16 22219 5

原创聊一聊Spark写文件的机制——如何保证数据一致性

本文结合实践中遇到的问题来分析Spark写文件的机制，探讨其在性能和数据一致性上的权衡，包括什么是Rename机制，诸如S3这种对象存储的特殊性以及当前的优化方案（Consistent View，S3 Multipart Upload）。

2019-03-03 13:36:27 13917

原创当Spark遇上Zeppelin

本文将会发表在GitChat上面，主要探讨Spark with Zeppelin。Zeppelin是一个基于Web的交互式数据分析工具，里面有很多解释器，透过这些解释器可以利用相应的引擎完成数据分析，Spark便是其中一种。

2019-01-13 14:19:09 4220

原创详解Spark Streaming的Graceful Shutdown

本文主要探讨Spark Streaming的Graceful Shutdown，重点为三个问题：为什么需要Graceful Shutdown？如何触发Graceful Shutdown？Graceful Shutdown过程是怎样的？

2019-01-06 23:22:08 12199

原创谈Elasticsearch下分布式存储的数据分布

本文探讨了Elasticsearch是如何让数据均衡的分布在不同的节点上，主要有三个影响：节点位置、磁盘空间、单个节点的Index和Shard个数。

2018-10-30 22:25:45 15165 9

原创谈一谈Elasticsearch的集群部署

Elasticsearch是一个分布式的搜索引擎和数据分析引擎。本文重点谈一谈Elasticsearch的集群节点相关问题，搞清楚这些是进行Elasticsearch集群部署和拓扑结构设计的前提。

2018-09-30 16:17:39 64132 2

原创打造私人搜书系统之系统设计

作者利用业余时间打造了一个自己的搜书系统，基本的思路是：从各个小说网站爬取相关的书籍信息，通过一个手机客户端来阅读小说。本文将从系统设计的角度，来谈谈设计的思路和踩过的坑。

2017-08-26 19:11:11 5398 1

原创 Kafka下的生产消费者模式与订阅发布模式

生产消费者模式与订阅发布模式是使用消息中间件时常用的两种模式，用于功能解耦和分布式系统间的消息通信。本文在总结了Kafka基本概念的基础上，以“数据接入”和“事件分发”这两个场景为例，来探讨Kafka作为消息系统的应用方法（High Level）。

2017-01-21 17:27:26 63912 4

原创 Elasticsearch使用总结

本文着重对Elasticsearch在应用层面上的使用进行总结，主要包括基本概念、数据插入、数据查询、聚合分析。

2016-12-25 20:51:33 10519

原创 RabbitMQ下的生产消费者模式与订阅发布模式

生产消费者模式与订阅发布模式是使用消息中间件时常用的两种模式，用于功能解耦和分布式系统间的消息通信。本文在总结了RabbitMQ核心概念的基础上，以“数据接入”和“事件分发”两个场景来探讨如何实现生产消费者模式和订阅发布模式。

2016-12-11 16:58:34 25942 4

原创循环查询数据的性能问题及优化

本文过三个实例来阐述循环查询对性能的影响和优化的方法，涉及常用的三种数据存储：MySQL，MongoDB和Redis，更重要的是想借此传达一个观点：编程，应该设计先于写代码。

2016-11-13 22:36:19 19802

原创微信公众号营销背后的技术

本文试图分析在开发者模式下，微信公众号营销背后的几个常用技术方案，包括二维码关注、账号绑定、海报数据追踪，同时总结了一些微信开发的基本规则。

2016-09-26 00:01:27 8376

原创 MFC总结之CListCtrl用法及技巧（二）

续第一篇：MFC总结之CListCtrl用法及技巧（一） http://blog.csdn.net/zwgdft/article/details/7560592 本篇重点介绍：禁止拖动表头、让第一列居中显示、设置行高与字体、虚拟列表技术、点击表头时进行归类、向上与向下移动、动态调整大小问题、避免闪烁问题。 6、禁止拖动表头重载OnNoti

2012-05-19 08:56:01 12178 1

原创 MFC总结之CListCtrl用法及技巧（一）

本文根据本人在项目中的应用，来谈谈CListCtrl的部分用法及技巧。当初学习时，查了很多资料，零零碎碎的作了些记录，现在主要是来做个总结，方便以后查阅。主要包括以下十三点内容：基本操作、获取选中行的行号、复选框操作、动态设置选中行的字体颜色、设置选中行的背景颜色、禁止拖动表头、让第一列居中显示、设置行高与字体、虚拟列表技术、点击表头时进行归类、向上与向下移动、动态调整大小问题、避免闪烁问题。

2012-05-15 11:14:00 51014 7

原创修改SMDK6410的调试串口为普通串口(wince系统)

环境：飞凌OK6410A开发板， Windows CE6.0系统最近在做GPRS通信，可是手头上的GPRS模块（Q2403A）是五线串口的（RXD、TXD、GND、RCS、CTS），老板又不愿买新的模块。所以考虑将调试串口COM1改为普通串口来用（飞凌开发板上也就这1个5线串口）。在网上找了些资料，然后让师弟测试摸索了下，发现网上现有资料都无法修改成功，他经过几天的努力后给

2012-05-04 16:21:42 3965

原创解决CListCtrl闪烁及水平滚动条不能跟踪拖动的问题（MFC）

项目中用到一个界面如下图所示，在View上有个CPropertySheet，其上有几个CPropertyPage，每个属性页上有个CListCtrl，供用户查看信息。由于CListCtrl中的信息每隔200ms就要刷新一次，导致这个区域不停的闪烁。同时，由于空间不够，CListCtrl上有个水平滚动条，当我们想拉动滚动条到中间位置查看后面几列数据时，刚拉过去就由于刷新又被拉回起点，导致很难查看后面

2012-03-26 19:51:50 13874 2

原创修改Eboot使OK6410A（128M内存+256MNand）支持HDMI高清显示

之前一直使用OK6410A（256M内存+2GNand）（WinCE6.0系统），买了块HDMI高清显示，跟飞凌技术要了资料，按照所给的资料说明，对Eboot做了修改后，就可以正常使用HDMI高清显示了。最近为了节省几十块RMB，老板决定更换板子使用128M内存+256MNand的板子，拿到手准备把高清部分加进去，可是发现Eboot不太一样呀，编译出错。问了飞凌技术，人家告诉我他们没有准备在这个板

2012-03-15 09:22:43 2316

原创 Windows CE6.0下使用IAMStreamConfig接口更改拍摄图像的分辨率

我的开发环境：飞凌6410开发板，WinCE6.0操作系统，OV9650摄像头，DirectShow编程，飞凌摄像头测试程序Camera_App 在对飞凌OK6410开发板自带的摄像头测试程序进行修改后，进行调试时发现拍摄的图像有点小，分辨率为320*240，我考虑能否修改这个值。在网上查找了一番，有个帖子（http://www.devdiv.com/thread-8755-1

2012-02-21 20:57:39 7052

原创修改飞凌OK6410的默认LCD显示设备

我用的飞凌OK6410开发板在烧入系统（Wince6.0系统）后，默认是采用4.3寸触摸屏显示，而我的项目中采用的是HDMI高清显示，因此每次烧完系统后，都要重新用DNW来配置为高清显示驱动，比较麻烦，所以我打算修改一下eboot的程序，使其烧入系统后的默认显示设备为HDMI高清显示。下面主要是阐述一下我的思路和方法。分析：之所以默认采用4.3寸触摸屏显示，是因为初始写入Boo

2012-02-18 11:22:28 3516

空空如也

空空如也