- 博客(2)
- 收藏
- 关注
原创 Flume 源码解析:组件生命周期
Apache Flume 是数据仓库体系中用于做实时 ETL 的工具。它提供了丰富的数据源和写入组件,这些组件在运行时都由 Flume 的生命周期管理机制进行监控和维护。本文将对这部分功能的源码进行解析。
2017-10-24 09:41:34 1176
原创 Pandas 与数据整理
在 Tidy Data 论文中,Wickham 博士提出了这样一种“整洁”的数据结构:每个变量是一列,每次观测结果是一行,不同的观测类型存放在单独的表中。他认为这样的数据结构可以帮助分析师更简单高效地进行处理、建模、和可视化。他在论文中列举了五种不符合整洁数据的情况,并演示了如何通过 R 语言对它们进行整理。本文中,我们将使用 Python 和 Pandas 来达到同样的目的。
2017-10-10 10:08:47 1726
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人