我的大数据十年
我从2011年开始接触Hadoop,当年带领一个小规模的高效团队,开发了一个基于HBase的高并发,高可靠,大吞吐的实时交易应用。记得当时HBase和Hadoop的main branch还不兼容,Hadoop namenode的single point failure也没解决。
2013年开始研究Hive应用,在AWS上用Hive做了广告投放评价系统,当时感觉Hive是Hadoop生态的杀手级应用,没有之一。2013年加入初创时期的Hortonworks,也就是从Yahoo分出来的,开发并开源了Hadoop的公司。在Hortonworks工作期间,亲身经历了很多公司试水大数据。有两个客户给我的印象最深。一个是技术水平很高,应用规模很大,作为Hadoop的开源方,我们反而从他们那里学了很多。另一个规模中等,但计算量浩大,在不扩容的前提下深挖Hadoop和Hive的优化,受益良多。
在Hortonworks的第二年,开始意识到公有云的冲击。企业自建数据中心,自己搭建Hadoop的少了。当时我已经转向数据仓库,数据分析和处理,于是开始尝试以上场景在私有云,AWS, Azure和Google Cloud上的应用。
下一篇谈谈从Hadoop到NoSQL,再到Distributed SQL。