- 博客(21)
- 资源 (29)
- 收藏
- 关注
原创 Apache Arrow:一个跨平台的内存数据交换格式
Apache Arrow是Apache基金会下一个全新的开源项目,同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分析的生态系统,这些工具涵盖了数据分析的各个层面,比如列式存储格式(Parquet/OR...
2016-02-29 09:41:13 1395
原创 用空间换时间,内存数据库不止于快
近年来随着内存价格的下跌内存数据库正变得日益流行起来,内存数据库的性能也有了飞跃式的发展。然而很多开发人员在考虑内存数据库时只想到了速度,这无疑忽视了内存技术真正的潜力。内存提供的不仅仅是更快的速度,它也是一种以存储空间换时间的方式。很多开发人员对于内存数据库的使用有一些疑虑,下面我们就来一一说明:1.内存数据库运行比较快。除了快还有什么别的吗?我们知道内存的读写比硬盘快得多,所以将表全都加载到内...
2016-02-29 09:03:15 511
原创 回顾Spark Summit East 2016:Spark 2.0概览、PPT集锦
近日,在“A Look Back at Spark Summit East 2016: Thank you NYC!”一文中, Databrciks对前些时间刚结束的Spark Summit East 2016进行了回顾。其中包括Spark Summit现状以及3天会议的全部亮点,而值得一提的是,今年5月份,由Databricks支持,CSDN主办的Spark Summit 中国也将拉开帷幕,敬请...
2016-02-26 10:11:03 437
原创 高效Java编程工具集锦
Java 开发者常常都会想办法如何更快地编写 Java 代码,让编程变得更加轻松。目前,市面上涌现出越来越多的高效编程工具。所以,以下总结了一系列工具列表,其中包含了大多数开发人员已经使用、正在使用或将来一定会用到的高效工具。这份列表名单包括集成开发环境、集成工具、测试和质量工具等。1、集成开发环境Eclipse是最有名也最广泛使用的Java集成开发环境(IDE),允许开发者结合语言支持和其他功能...
2016-02-25 09:05:52 1865
原创 一些基于Kafka Connect的开源连接器
在Apache Kafka 0.9版本中,Kafka Connect特性被添加让Kafka可以建立可扩展和安全的流数据管道。下表中,Kafka Connector Hub列出了一些基于Kafka Connect建立的connectors。如果你发现新的,也可以联系confluent-platform@googlegroups.com添加。Connector NameOwnerStatus...
2016-02-24 09:18:47 3709
原创 Tachyon更名为 Alluxio,并发布1.0版本
【摘要】近日,人气开源分布式内存文件系统Tachyon正式更名为Alluxio,并发布了1.0版本。自从Alluxio的第一个开源版本发布之后,我们社区的人数从1个迅速增加到200多个,这200多人来自50多个公司,这些公司将Alluxio部署到由成百上千机器构成的生产环境中。Alluxio(前Tachyon)起源于我(李浩源,笔者)读博期间在 UC Berkeley AMPLab实验室的一个研究...
2016-02-24 08:47:41 624
原创 在Spark中使用Pivot重塑数据
本文来自Andrew Ray博士在Silicon Valley Data Science网站上发表的博客,Andrew Ray博士对大数据有着浓厚的兴趣并且有着丰富的Spark使用经验。Andrew同样也是一名活跃的Apache Spark源码贡献者,其源码贡献主要集中在Spark SQL和GraphX组件上。透视(pivot)数据功能是Spark 1.6的众多新增特性之一,它通过使用DataFr...
2016-02-23 10:09:50 4482
原创 如何使用 Java8 实现观察者模式?
【编者按】本文作者是 BAE 系统公司的软件工程师 Justin Albano。在本篇文章中,作者通过在 Java8 环境下实现观察者模式的实例,进一步介绍了什么是观察者模式、专业化及其命名规则,供大家参考学习。观察者(Observer)模式又名发布-订阅(Publish/Subscribe)模式,是四人组(GoF,即 Erich Gamma、Richard Helm、Ralph Johnson ...
2016-02-22 14:59:05 132
原创 如何使用 Java8 实现观察者模式?
【编者按】本文作者是 BAE 系统公司的软件工程师 Justin Albano。在本篇文章中,作者通过在 Java8 环境下实现观察者模式的实例,进一步介绍了什么是观察者模式、专业化及其命名规则,供大家参考学习。观察者(Observer)模式又名发布-订阅(Publish/Subscribe)模式,是四人组(GoF,即 Erich Gamma、Richard Helm、Ralph Johnson ...
2016-02-22 14:58:45 1955
原创 Apache Flink :回顾2015,展望2016
回顾2015,总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时,Flink社区也从一个相对较小,并且地理上集中的团队,成长为一个真正的全球性的大型社区,并在Apache软件基金会成为最大的大数据社区之一。接下来看看一些有趣的统计数据,其中就包括Flink每周最繁忙的时间是星期一,肯定出乎很多人所料:)社区发展首先,我们从Flink的GitHub库中看一些简单的...
2016-02-15 17:14:48 157
原创 Apache Flink :回顾2015,展望2016
回顾2015,总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时,Flink社区也从一个相对较小,并且地理上集中的团队,成长为一个真正的全球性的大型社区,并在Apache软件基金会成为最大的大数据社区之一。接下来看看一些有趣的统计数据,其中就包括Flink每周最繁忙的时间是星期一,肯定出乎很多人所料:)社区发展首先,我们从Flink的GitHub库中看一些简单的...
2016-02-15 17:13:22 100
原创 Apache Flink :回顾2015,展望2016
回顾2015,总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时,Flink社区也从一个相对较小,并且地理上集中的团队,成长为一个真正的全球性的大型社区,并在Apache软件基金会成为最大的大数据社区之一。接下来看看一些有趣的统计数据,其中就包括Flink每周最繁忙的时间是星期一,肯定出乎很多人所料:)社区发展首先,我们从Flink的GitHub库中看一些简单的...
2016-02-15 17:12:09 123
原创 Apache Flink :回顾2015,展望2016
回顾2015,总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时,Flink社区也从一个相对较小,并且地理上集中的团队,成长为一个真正的全球性的大型社区,并在Apache软件基金会成为最大的大数据社区之一。接下来看看一些有趣的统计数据,其中就包括Flink每周最繁忙的时间是星期一,肯定出乎很多人所料:)社区发展首先,我们从Flink的GitHub库中看一些简单的...
2016-02-15 17:08:05 115
原创 Apache Flink :回顾2015,展望2016
回顾2015,总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时,Flink社区也从一个相对较小,并且地理上集中的团队,成长为一个真正的全球性的大型社区,并在Apache软件基金会成为最大的大数据社区之一。接下来看看一些有趣的统计数据,其中就包括Flink每周最繁忙的时间是星期一,肯定出乎很多人所料:)社区发展首先,我们从Flink的GitHub库中看一些简单的...
2016-02-15 17:04:51 120
原创 Apache Flink :回顾2015,展望2016
回顾2015,总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时,Flink社区也从一个相对较小,并且地理上集中的团队,成长为一个真正的全球性的大型社区,并在Apache软件基金会成为最大的大数据社区之一。接下来看看一些有趣的统计数据,其中就包括Flink每周最繁忙的时间是星期一,肯定出乎很多人所料:)社区发展首先,我们从Flink的GitHub库中看一些简单的...
2016-02-15 17:03:48 130
原创 如何打造高性能大数据分析平台
原文:Building High Performance Big Data Analytics Systems 译者:袁璞,圣特尔•E店宝大数据架构师,关注高性能或可用架构、大数据技术、机器学习。 审核:朱正贵 责编:仲浩大数据分析系统作为一个关键性的系统在各个公司迅速崛起。但是这种海量规模的数据带来了前所未有的性能挑战。同时,如果大数据分析系统无法在第一时间为运营决策提...
2016-02-08 22:37:43 778
原创 MUMPS:50年历史、可实现RDBMS和Hadoop一切的数据库
原文:MUMPS – The Most Important Database You (Probably) Never Heard Of 译者:孙薇 责编:仲浩 声明: CSDN原创译文,禁止任何形式的转载。【编者按】是否听说过有这样一款数据库,它可以完成RDBMS和Hadoop能做的一切,如今在全世界范围内广泛采用,并已有50年历史?从未听说过MUMPS?看看下面这些惊...
2016-02-08 22:20:37 701
原创 Spark Streaming快速状态流处理
作者:Tathagata Das & Shixiong Zhu 原文:Faster Stateful Stream Processing in Spark Streaming 译者:牛亚真,中科院计算机信息处理专业硕士研究生,关注大数据技术>和数据挖掘方向。 责编:仲浩许多复杂流处理流水线程序必须将状态保持一段时间,例如,如果你想实时了解网站用户行为,你需要...
2016-02-08 09:05:07 821
原创 Schemaless架构(三):Uber基于MySQL的Trip数据库
Schemaless架构(三):Uber基于MySQL的Trip数据库 Schemaless架构(二):Uber基于MySQL的Trip数据库 Schemaless架构(一):Uber基于MySQL的可扩展数据库本文介绍Schemaless的主要功能:Schemaless trigger的细节与案例。本文是系列文章的第三部分;第一部分是关于Schemaless的设计,第二部分是...
2016-02-06 11:33:54 328
原创 Schemaless架构(二):Uber基于MySQL的Trip数据库
Uber的Schemaless数据库是从2014年10月开始启用的,这是一个基于MySQL的数据库,本文就来探究一下它的架构。本文是系列文章的第二部分;第一部分是关于Schemaless的设计。 在《Mezzanine项目——Uber的超级大迁移》一文中,我们描述了如何将Uber的核心trip数据从一个单独的Postgres实例迁移到Schemaless这个可扩展与高可用的数据库中。然后对Sche...
2016-02-02 16:52:22 498
原创 2016年大数据在金融领域的10大趋势
2015 年对于银行和金融业公司来说是一个开局之年,在这一年中他们继续用大数据来帮助他们进行业务和组织架构的演进。现在,放眼2016年将要面对的,我们猜测金融服务公司为了利益最大化进而不断整合大数据环境而言,他们面前的路依旧漫长。 银行家们也正在起草大数据战略,制定入门和随后的用例。对于银行来说,大数据主要还是围绕提高客户情商,减少风险,符合监管。在可见的未来处于第一梯队的大型金融集团都会继续围绕...
2016-02-01 16:45:15 257
Spark在TalkingData移动大数据平台的实践
2016-04-28
The Future of Real-Time in Spark
2016-02-26
Spark Usage in Enterprise Business Operations
2016-02-26
Role of Spark in transforming eBay’s Enterprise Data Platform
2016-02-26
Apache Spark, the Analytics Operating System
2016-02-26
2015中国开源参与调查报告Final
2016-02-04
戴金权:基于Spark软件栈的下一代大数据分析
2015-10-30
Per Brashers:硬件改造将巨大影响着软件行业
2014-05-29
周海燕:Ctrip的容量分析模型
2014-05-29
第五届中国云计算大会George Chu:下一代个性化智能推送系统OnePush
2013-06-13
第五届中国云计算大会dotCloud高级软件工程师Jerome Petazzoni:轻量级虚拟系统LXC
2013-06-13
第五届中国云计算大会新浪SAE首席架构师丛磊:SAE如何保证商业应用可靠运行
2013-06-13
第五届中国云计算大会:Marvell大中华区系统与解决方案首席规划师甘卫宁:Marvell的公共云洞察
2013-06-13
第五届中国云计算大会青山友纪:运用inter-cloud computing处理大数据的演进
2013-06-13
思杰公司亚太区云平台总监黎国威:云计算推动移动工作模式及IT即服务
2013-06-13
阿里巴巴资深技术专家强琦:大数据开发平台
2013-06-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人