看书学习
william_jm
这个作者很懒,什么都没留下…
展开
-
自学Hadoop1.0——初识MapReduce基本组件
简单描述MapReduce的各部分组件及一个简单的WordCount实例剖析。原创 2015-05-23 15:00:52 · 1601 阅读 · 0 评论 -
大数据批处理框架Spring Batch+spring boot+quartz
大数据时代,数据的收集、处理、存储、分析、挖掘、检索、展示,环环相扣。其中数据处理环节是一个典型的批处理场景——定期对海量数据进行格式化,各种业务规范校验,复杂的业务逻辑处理,并通过事务的方式处理到自己的数据库中,同时还应该具备高效率,无人工干预能力。Spring Batch的出现,很好的应对了该类需求。Spring Batch是一个轻量级的综合性批处理框架,可以应用于企业级大数据量处理系统。Spring Batch可以提供大量的,可重复的数据处理功能,包括日志/跟踪(tracing),事务管理,任务处理原创 2018-01-03 19:20:40 · 34081 阅读 · 2 评论 -
分布式数据处理框架:Apache Beam
大数据时代中,数据从简单的批处理,扩展到实时处理、流处理。起初的MapReduce处理模式早已独木难支。此外,大数据处理技术也是百花齐放,如 HBase、Hive、Kafka、Spark、Flink 等,对开发者而言,想要将其全部熟练运用几乎是一项不可能完成的任务。此时,Google 在2016年2月宣布将大数据流水线产品(Google DataFlow)贡献给 Apache 基金会孵化,2017年1月Apache 对外宣布开源 Apache Beam,2017年5月迎来了它的第一个稳定版本2.0.0。A原创 2018-01-03 19:53:17 · 1903 阅读 · 0 评论