自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

茅庐

Engineering is trade-off.

原创 Parquet的那些事(三)嵌套数据模型
原力计划

本文从嵌套结构的特性出发,逐步探讨了Parquet是如何支持嵌套结构存储的。

2020-04-12 23:05:09 12134 1

原创 Spark最佳实践之如何有效分配资源
原力计划

本文主要探讨如何在AWS EMR下为Spark有效分配资源,从而充分利用一个集群的所有可用资源。

2020-03-28 22:39:20 19503 0

原创 Parquet的那些事(二)Spark中的Schema兼容问题

本文探讨了在Spark中经常会遇到的Parquet Schema兼容的问题,分析了文件加载和表加载的细节与Schema兼容的规则。

2020-03-14 20:10:50 12770 0

原创 Parquet的那些事(一)基本原理

本文阐述了Parquet的价值、基本文件结构、Predicate Pushdown Filter特性以及常用的工具。

2020-03-09 00:47:29 14315 0

原创 Elasticsearch最佳实践之Index与Shard设计

作为专栏的第三篇,本文主要探讨实际应用中Index与Shard的设计方法。主要包括这样几方面:基于时间的Index设计、Mapping设计技巧、巧妙的Alias、Shard分配原则、整体思路。

2019-01-22 16:44:53 11695 5

原创 Elasticsearch最佳实践之核心概念与原理

作为专栏文章的第二篇,本文从数据组织、数据分布、集群角色、数据写入与存储结构多个方面对Elasticsearch的核心概念进行整理,尽可能由浅入深的交代清楚每个概念。

2018-12-03 22:29:58 9429 7

原创 Elasticsearch最佳实践之使用场景

本文围绕Elasticsearch的核心特征:搜索与分析,探讨其常见的业务场景:ELK日志系统、数据聚合分析、业务内搜索,以及集群建设的选择。

2018-10-08 20:31:30 23213 10

原创 创业公司做数据分析(六)数据仓库的建设

本文重点探讨了数据处理层中数据仓库的建设,旨在构建一个适于分析的数据存储系统。文章探讨了数据仓库建设中的两个重要环节:数据建模与ETL过程,根据实践谈了谈维度建模的方法,以及ETL中的增量更新机制与基于Airflow的任务流管理系统。

2017-02-02 19:36:58 13818 6

原创 创业公司做数据分析(五)微信分享追踪系统

本文重点探讨数据采集层中的微信分享追踪系统。用户在微信中对Web H5网页进行浏览、分享,便会形成两种数据:操作行为数据和用户之间的传播关系数据,微信分享追踪系统便是对这类数据进行采集、存储,本文主要总结我们在微信分享追踪上的技术思考和方案演进。

2017-01-12 21:13:27 11014 3

原创 创业公司做数据分析(四)ELK日志系统

本文将重点探讨数据采集层中的ELK日志系统,结合自身实践来介绍如何使用ELK系统、使用中的问题以及如何解决。ELK是一套开源的集中式日志数据管理的解决方案,由Elasticsearch、Logstash和Kibana三个系统组成。

2017-01-07 00:54:07 12481 4

原创 创业公司做数据分析(三)用户行为数据采集系统

本文将重点探讨数据采集层中的用户行为数据采集系统,分析了为什么要建设用户行为数据采集系统、采什么、前端怎么采、后端怎么存。

2016-12-27 17:12:46 17749 8

原创 创业公司做数据分析(二)运营数据系统

本文探讨数据应用层中的运营数据系统,因为运营数据几乎是所有互联网创业公司开始做数据的起点,也是早期数据服务的主要对象。本文将着重回顾下我们做了哪些工作、遇到过哪些问题、如何解决并实现了相应的功能。

2016-12-07 22:39:07 10444 4

原创 创业公司做数据分析(一)开篇

作为系列文章的第一篇,本文采用“WHY->WHAT->HOW”的思考方式来介绍三点:1. 创业公司为什么需要做数据分析?2. 创业公司做数据分析,需要做哪些事情?3. 如何实现这些数据上的需求?

2016-12-01 23:14:06 9791 4

原创 再谈Spark下写S3文件的File Output Committer问题
原力计划

本文回顾了Spark写文件的机制,探讨了AWS EMRFS S3-optimized Committer的工作原理、存在的数据一致性问题以及如何解决。

2020-05-03 17:11:38 6966 0

原创 探秘HDFS —— 发展历史、核心概念、架构、工作机制 (上)

本文作为“探秘HDFS”上篇,主要分享Hadoop发展历史、HDFS核心概念和整体架构。

2019-09-01 18:28:16 18925 5

原创 谈Spark下并行执行多个Job的问题

本文结合笔者的实践场景,探讨了Spark下并行执行多个Job的问题。梳理了Spark任务调度的机制,并总结了实践中需要考虑的问题。

2019-03-20 19:08:03 13487 6

原创 聊一聊Spark写文件的机制——如何保证数据一致性

本文结合实践中遇到的问题来分析Spark写文件的机制,探讨其在性能和数据一致性上的权衡,包括什么是Rename机制,诸如S3这种对象存储的特殊性以及当前的优化方案(Consistent View,S3 Multipart Upload)。

2019-03-03 13:36:27 10090 0

原创 当Spark遇上Zeppelin

本文将会发表在GitChat上面,主要探讨Spark with Zeppelin。Zeppelin是一个基于Web的交互式数据分析工具,里面有很多解释器,透过这些解释器可以利用相应的引擎完成数据分析,Spark便是其中一种。

2019-01-13 14:19:09 2226 0

原创 详解Spark Streaming的Graceful Shutdown

本文主要探讨Spark Streaming的Graceful Shutdown,重点为三个问题:为什么需要Graceful Shutdown?如何触发Graceful Shutdown?Graceful Shutdown过程是怎样的?

2019-01-06 23:22:08 8896 0

原创 谈Elasticsearch下分布式存储的数据分布

本文探讨了Elasticsearch是如何让数据均衡的分布在不同的节点上,主要有三个影响:节点位置、磁盘空间、单个节点的Index和Shard个数。

2018-10-30 22:25:45 11474 14

原创 聚合查询越来越慢?——详解Elasticsearch的Global Ordinals与High Cardinality

本文结合笔者在实践过程中遇到的由High Cardinality引起Global Ordinals构建过慢,从而导致聚合查询变慢的问题,阐述了Elasticsearch中两个核心概念:Global Ordinals和High Cardinality。

2018-10-22 17:42:37 4845 4

原创 谈一谈Elasticsearch的集群部署

Elasticsearch是一个分布式的搜索引擎和数据分析引擎。本文重点谈一谈Elasticsearch的集群节点相关问题,搞清楚这些是进行Elasticsearch集群部署和拓扑结构设计的前提。

2018-09-30 16:17:39 42040 0

原创 打造私人搜书系统之系统设计

作者利用业余时间打造了一个自己的搜书系统,基本的思路是:从各个小说网站爬取相关的书籍信息,通过一个手机客户端来阅读小说。本文将从系统设计的角度,来谈谈设计的思路和踩过的坑。

2017-08-26 19:11:11 4163 1

原创 Kafka下的生产消费者模式与订阅发布模式

生产消费者模式与订阅发布模式是使用消息中间件时常用的两种模式,用于功能解耦和分布式系统间的消息通信。本文在总结了Kafka基本概念的基础上,以“数据接入”和“事件分发”这两个场景为例,来探讨Kafka作为消息系统的应用方法(High Level)。

2017-01-21 17:27:26 36968 3

原创 Elasticsearch使用总结

本文着重对Elasticsearch在应用层面上的使用进行总结,主要包括基本概念、数据插入、数据查询、聚合分析。

2016-12-25 20:51:33 8663 0

原创 RabbitMQ下的生产消费者模式与订阅发布模式

生产消费者模式与订阅发布模式是使用消息中间件时常用的两种模式,用于功能解耦和分布式系统间的消息通信。本文在总结了RabbitMQ核心概念的基础上,以“数据接入”和“事件分发”两个场景来探讨如何实现生产消费者模式和订阅发布模式。

2016-12-11 16:58:34 17987 7

原创 循环查询数据的性能问题及优化

本文过三个实例来阐述循环查询对性能的影响和优化的方法,涉及常用的三种数据存储:MySQL,MongoDB和Redis,更重要的是想借此传达一个观点:编程,应该设计先于写代码。

2016-11-13 22:36:19 10887 0

原创 浅谈微信公众号营销背后的技术

本文试图分析在开发者模式下,微信公众号营销背后的几个常用技术方案,包括二维码关注、账号绑定、海报数据追踪,同时总结了一些微信开发的基本规则。

2016-09-26 00:01:27 6886 0

原创 MFC总结之CListCtrl用法及技巧(二)

续第一篇:MFC总结之CListCtrl用法及技巧(一) http://blog.csdn.net/zwgdft/article/details/7560592         本篇重点介绍:禁止拖动表头、让第一列居中显示、设置行高与字体、虚拟列表技术、点击表头时进行归类、向上与向下移动...

2012-05-19 08:56:01 10292 3

原创 MFC总结之CListCtrl用法及技巧(一)

本文根据本人在项目中的应用,来谈谈CListCtrl的部分用法及技巧。当初学习时,查了很多资料,零零碎碎的作了些记录,现在主要是来做个总结,方便以后查阅。主要包括以下十三点内容:基本操作、获取选中行的行号、复选框操作、动态设置选中行的字体颜色、设置选中行的背景颜色、禁止拖动表头、让第一列居中显示、...

2012-05-15 11:14:00 41751 6

原创 修改SMDK6410的调试串口为普通串口(wince系统)

环境: 飞凌OK6410A开发板, Windows CE6.0系统          最近在做GPRS通信,可是手头上的GPRS模块(Q2403A)是五线串口的(RXD、TXD、GND、RCS、CTS),老板又不愿买新的模块。所以考虑将调试串口COM1改为普通串口来用(飞凌开发板上也就这1个5线...

2012-05-04 16:21:42 3667 2

原创 解决CListCtrl闪烁及水平滚动条不能跟踪拖动的问题(MFC)

项目中用到一个界面如下图所示,在View上有个CPropertySheet,其上有几个CPropertyPage,每个属性页上有个CListCtrl,供用户查看信息。由于CListCtrl中的信息每隔200ms就要刷新一次,导致这个区域不停的闪烁。同时,由于空间不够,CListCtrl上有个水平滚...

2012-03-26 19:51:50 11093 4

原创 修改Eboot使OK6410A(128M内存+256MNand)支持HDMI高清显示

之前一直使用OK6410A(256M内存+2GNand)(WinCE6.0系统),买了块HDMI高清显示,跟飞凌技术要了资料,按照所给的资料说明,对Eboot做了修改后,就可以正常使用HDMI高清显示了。最近为了节省几十块RMB,老板决定更换板子使用128M内存+256MNand的板子,拿到手准备...

2012-03-15 09:22:43 1943 0

原创 Windows CE6.0下使用IAMStreamConfig接口更改拍摄图像的分辨率

我的开发环境:飞凌6410开发板,WinCE6.0操作系统,OV9650摄像头,DirectShow编程,飞凌摄像头测试程序Camera_App          在对飞凌OK6410开发板自带的摄像头测试程序进行修改后,进行调试时发现拍摄的图像有点小,分辨率为320*240,我考虑能否修改这个...

2012-02-21 20:57:39 6203 2

原创 修改飞凌OK6410的默认LCD显示设备

我用的飞凌OK6410开发板在烧入系统(Wince6.0系统)后,默认是采用4.3寸触摸屏显示,而我的项目中采用的是HDMI高清显示,因此每次烧完系统后,都要重新用DNW来配置为高清显示驱动,比较麻烦,所以我打算修改一下eboot的程序,使其烧入系统后的默认显示设备为HDMI高清显示。下面主要是阐...

2012-02-18 11:22:28 3171 0

原创 Wince6.0系统启动后直接运行应用程序的实现与问题

最近在做项目程序的初始化配置,需要实现开机自启动、程序初始化配置等等。在网上搜了下,要实现WINCE系统启动后直接运行程序,有三种方法,这里主要是结合我的实际经历来阐述一下值得注意的一些问题。     1、不管是哪种方法,首先都得把应用程序app.exe放入NK映像中,在project.bib中...

2012-02-17 21:48:17 5476 0

原创 MFC总结(一):MFC中文件操作、查找与选择总结(3)

(三)为保存文件选择路径     A. 使用SHBrowseForFolder函数创建一个对话框,用于选择路径。其原型为                     LPITEMIDLIST SHBrowseForFolder(LPBROWSEINFO lpbi) 其中,返回值是一个指针,一个项...

2011-12-30 21:13:19 8407 0

原创 MFC总结(一):MFC中文件操作、查找与选择总结(2)

(二)CArchive类操作      CArchive类实现数据的缓冲区读写,同时定义了类对象的存储与读取方案。 在文档视图编程,结合CList和CArray等可很方便的实现数据读写。      (1)基本数据读写----显示创建CArchive对象      A.  使用CArhive类...

2011-12-29 21:30:55 2994 0

原创 MFC总结(一):MFC中文件操作、查找与选择总结(1)

本文主要涉及以下几个方面,均为在MFC编程中较为常用的:CFile操作、CArchive操作、如何选择文件和文件夹、如何查找文件、获取当前目录、_access函数等。      (一)使用CFile类操作文件        CFile类在MFC的文件操作中应该是最常用的了。主要的成员函数有Op...

2011-12-27 22:03:58 3328 0

提示
确定要删除当前文章?
取消 删除