2016年02月_仲浩

06月 05月 04月 03月 02月 01月

原创 Apache Arrow：一个跨平台的内存数据交换格式

Apache Arrow是Apache基金会下一个全新的开源项目，同时也是顶级项目。它的目的是作为一个跨平台的数据层来加快大数据分析项目的运行速度。用户在应用大数据分析时除了将Hadoop等大数据平台作为一个经济的存储和批处理平台之外也很看重分析系统的扩展性和性能。过去几年开源社区已经发布了很多工具来完善大数据分析的生态系统，这些工具涵盖了数据分析的各个层面，比如列式存储格式(Parquet/OR...

2016-02-29 09:41:13 1395

原创用空间换时间，内存数据库不止于快

近年来随着内存价格的下跌内存数据库正变得日益流行起来，内存数据库的性能也有了飞跃式的发展。然而很多开发人员在考虑内存数据库时只想到了速度，这无疑忽视了内存技术真正的潜力。内存提供的不仅仅是更快的速度，它也是一种以存储空间换时间的方式。很多开发人员对于内存数据库的使用有一些疑虑，下面我们就来一一说明：1．内存数据库运行比较快。除了快还有什么别的吗？我们知道内存的读写比硬盘快得多，所以将表全都加载到内...

2016-02-29 09:03:15 511

原创回顾Spark Summit East 2016：Spark 2.0概览、PPT集锦

近日，在“A Look Back at Spark Summit East 2016: Thank you NYC!”一文中， Databrciks对前些时间刚结束的Spark Summit East 2016进行了回顾。其中包括Spark Summit现状以及3天会议的全部亮点，而值得一提的是，今年5月份，由Databricks支持，CSDN主办的Spark Summit 中国也将拉开帷幕，敬请...

2016-02-26 10:11:03 437

原创高效Java编程工具集锦

Java 开发者常常都会想办法如何更快地编写 Java 代码，让编程变得更加轻松。目前，市面上涌现出越来越多的高效编程工具。所以，以下总结了一系列工具列表，其中包含了大多数开发人员已经使用、正在使用或将来一定会用到的高效工具。这份列表名单包括集成开发环境、集成工具、测试和质量工具等。1、集成开发环境Eclipse是最有名也最广泛使用的Java集成开发环境（IDE），允许开发者结合语言支持和其他功能...

2016-02-25 09:05:52 1865

原创一些基于Kafka Connect的开源连接器

在Apache Kafka 0.9版本中，Kafka Connect特性被添加让Kafka可以建立可扩展和安全的流数据管道。下表中，Kafka Connector Hub列出了一些基于Kafka Connect建立的connectors。如果你发现新的，也可以联系confluent-platform@googlegroups.com添加。Connector NameOwnerStatus...

2016-02-24 09:18:47 3709

原创 Tachyon更名为 Alluxio，并发布1.0版本

【摘要】近日，人气开源分布式内存文件系统Tachyon正式更名为Alluxio，并发布了1.0版本。自从Alluxio的第一个开源版本发布之后，我们社区的人数从1个迅速增加到200多个，这200多人来自50多个公司，这些公司将Alluxio部署到由成百上千机器构成的生产环境中。Alluxio（前Tachyon）起源于我(李浩源，笔者)读博期间在 UC Berkeley AMPLab实验室的一个研究...

2016-02-24 08:47:41 624

原创在Spark中使用Pivot重塑数据

本文来自Andrew Ray博士在Silicon Valley Data Science网站上发表的博客，Andrew Ray博士对大数据有着浓厚的兴趣并且有着丰富的Spark使用经验。Andrew同样也是一名活跃的Apache Spark源码贡献者，其源码贡献主要集中在Spark SQL和GraphX组件上。透视（pivot）数据功能是Spark 1.6的众多新增特性之一，它通过使用DataFr...

2016-02-23 10:09:50 4482

原创如何使用 Java8 实现观察者模式？

【编者按】本文作者是 BAE 系统公司的软件工程师 Justin Albano。在本篇文章中，作者通过在 Java8 环境下实现观察者模式的实例，进一步介绍了什么是观察者模式、专业化及其命名规则，供大家参考学习。观察者（Observer）模式又名发布-订阅（Publish/Subscribe）模式，是四人组（GoF，即 Erich Gamma、Richard Helm、Ralph Johnson ...

2016-02-22 14:59:05 132

原创如何使用 Java8 实现观察者模式？

2016-02-22 14:58:45 1955

原创 Apache Flink ：回顾2015，展望2016

回顾2015，总体而言Flink在功能方面已经从一个引擎发展成为最完整的开源流处理框架之一。与此同时，Flink社区也从一个相对较小，并且地理上集中的团队，成长为一个真正的全球性的大型社区，并在Apache软件基金会成为最大的大数据社区之一。接下来看看一些有趣的统计数据，其中就包括Flink每周最繁忙的时间是星期一，肯定出乎很多人所料：）社区发展首先，我们从Flink的GitHub库中看一些简单的...

2016-02-15 17:14:48 157

原创 Apache Flink ：回顾2015，展望2016

2016-02-15 17:13:22 100

原创 Apache Flink ：回顾2015，展望2016

2016-02-15 17:12:09 123

原创 Apache Flink ：回顾2015，展望2016

2016-02-15 17:08:05 115

原创 Apache Flink ：回顾2015，展望2016

2016-02-15 17:04:51 120

原创 Apache Flink ：回顾2015，展望2016

2016-02-15 17:03:48 130

原创如何打造高性能大数据分析平台

原文：Building High Performance Big Data Analytics Systems 译者：袁璞，圣特尔•E店宝大数据架构师，关注高性能或可用架构、大数据技术、机器学习。审核：朱正贵责编：仲浩大数据分析系统作为一个关键性的系统在各个公司迅速崛起。但是这种海量规模的数据带来了前所未有的性能挑战。同时，如果大数据分析系统无法在第一时间为运营决策提...

2016-02-08 22:37:43 778

原创 MUMPS：50年历史、可实现RDBMS和Hadoop一切的数据库

原文：MUMPS – The Most Important Database You (Probably) Never Heard Of 译者：孙薇责编：仲浩声明： CSDN原创译文，禁止任何形式的转载。【编者按】是否听说过有这样一款数据库，它可以完成RDBMS和Hadoop能做的一切，如今在全世界范围内广泛采用，并已有50年历史？从未听说过MUMPS？看看下面这些惊...

2016-02-08 22:20:37 701

原创 Spark Streaming快速状态流处理

作者：Tathagata Das & Shixiong Zhu 原文：Faster Stateful Stream Processing in Spark Streaming 译者：牛亚真，中科院计算机信息处理专业硕士研究生，关注大数据技术>和数据挖掘方向。责编：仲浩许多复杂流处理流水线程序必须将状态保持一段时间，例如，如果你想实时了解网站用户行为，你需要...

2016-02-08 09:05:07 821

原创 Schemaless架构（三）：Uber基于MySQL的Trip数据库

Schemaless架构（三）：Uber基于MySQL的Trip数据库 Schemaless架构（二）：Uber基于MySQL的Trip数据库 Schemaless架构（一）：Uber基于MySQL的可扩展数据库本文介绍Schemaless的主要功能：Schemaless trigger的细节与案例。本文是系列文章的第三部分；第一部分是关于Schemaless的设计，第二部分是...

2016-02-06 11:33:54 328

原创 Schemaless架构（二）：Uber基于MySQL的Trip数据库

Uber的Schemaless数据库是从2014年10月开始启用的，这是一个基于MySQL的数据库，本文就来探究一下它的架构。本文是系列文章的第二部分；第一部分是关于Schemaless的设计。在《Mezzanine项目——Uber的超级大迁移》一文中，我们描述了如何将Uber的核心trip数据从一个单独的Postgres实例迁移到Schemaless这个可扩展与高可用的数据库中。然后对Sche...

2016-02-02 16:52:22 498

原创 2016年大数据在金融领域的10大趋势

2015 年对于银行和金融业公司来说是一个开局之年，在这一年中他们继续用大数据来帮助他们进行业务和组织架构的演进。现在，放眼2016年将要面对的，我们猜测金融服务公司为了利益最大化进而不断整合大数据环境而言，他们面前的路依旧漫长。银行家们也正在起草大数据战略，制定入门和随后的用例。对于银行来说，大数据主要还是围绕提高客户情商，减少风险，符合监管。在可见的未来处于第一梯队的大型金融集团都会继续围绕...

2016-02-01 16:45:15 257

Spark在TalkingData移动大数据平台的实践

2013年9月份，TalkingData开始尝试使用Spark解决数据挖掘性能问题。随着对Spark的逐渐了解，TalkingData开始将Spark应用到整个移动大数据平台的建设中。在移动大数据平台中，ETL过程、计算过程、数据挖掘、交互式数据提取等等都依赖于Spark。在这里，我将要介绍我们使用Spark的状况、平台架构、以及一些实践经验。当然也包括一些总结的最佳实践。

2016-04-28

The Future of Real-Time in Spark

via Reynold Xin, Co-Founder & Chief Architect, Databricks

2016-02-26

Spark Usage in Enterprise Business Operations

Via Ken Tsai, Head of Cloud Platform & Data Management, SAP

2016-02-26

Role of Spark in transforming eBay’s Enterprise Data Platform

VIA Seshu Adunuthula, Head of Analytics Infrastructure, eBay

2016-02-26

Apache Spark, the Analytics Operating System

VIA Anjul Bhambhri, VP of Big Data Engineering, IBM

2016-02-26

Accelerating Enterprise Spark

via Shaun Connolly, VP of Business Strategy, Hortonworks

2016-02-26

Democratizing Access to Data

via Databricks联合创始人兼CEO Ali Ghodsi

2016-02-26

Spark 2.0概览

via Databricks联合创始人兼CTO Matei Zaharia。

2016-02-26

2015中国开源参与调查报告Final

本报告的形成是基于开源社与 CSDN 携手推出的“2015 年中国开源社区参与调查问卷”,旨在对中国开源社区、开源生态、开源开发者做一次全面性地摸底调查。

2016-02-04

服务端开发那些事

服务端开发对于任何互联网公司来讲，都并非易事，它所涉及的技术知识面非常广泛，如果开发人员的经验不足，将直接影响产品用户的体验。

2015-11-06

李永辉：IBM Watson 大数据与分析平台

2015-10-30

韩卿：Apache Kylin－Hadoop上的大规模联机分析平台

2015-10-30

戴金权：基于Spark软件栈的下一代大数据分析

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用并行框架，Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。

2015-10-30

Zhu Tao：The 'Nanotechnology' in eCommerce

2015-10-30

Ted Yu：Recent Developments in Apache Hbase

Recent Developments in Apache Hbase!

2015-10-30

Per Brashers：硬件改造将巨大影响着软件行业

Per是一位极具远见的存储战略家。他发明创造了若干对业界具有深远影响的存储平台，其中包括用于Facebook引领的Open Compute Project系统下的OpenVault及Cold Storage解决方案。

2014-05-29

周海燕：Ctrip的容量分析模型

携程旅行网负责网站运营中心容量平台周海燕——ctrip的容量规划任务，通过使用当前性能作为基线数据，评估以及预测系统需要什么资源，什么时候需要更多的资源。其中包括，基于周期性季节指数预测法的业务量预测，基于回归分析的web容量预测等。

2014-05-29

周诚：Hadoop大数据分析

九城技术部负责Hadoop的架构师周诚：九城基于Hadoop的大数据分析平台及相关的具体案例。

2014-05-29

第五届中国云计算大会George Chu:下一代个性化智能推送系统OnePush

作为分布式开源数据库Hadoop的创造者，雅虎一直是大数据的重要玩家。在第五届云计算大会上，雅虎北京全球研发中心资深研发总监George Chu介绍了雅虎在数据挖掘方面的最新成果——OnePush。

2013-06-13

第五届中国云计算大会dotCloud高级软件工程师Jerome Petazzoni：轻量级虚拟系统LXC

Jerome Petazzoni目前是PaaS平台dotCloud的高级工程师，同时他也是dotCloud平台的布道师。他认为，“重量级”的虚拟化推动IaaS的发展，而“轻量级“虚拟化则推动PaaS的发展。

2013-06-13

第五届中国云计算大会新浪SAE首席架构师丛磊：SAE如何保证商业应用可靠运行

作为国内最早的公有云计算平台，有着近万家商业企业运行的SAE，如何从技术和产品层面避免这个问题，怎么利用技术保证应用运行的可靠性和扩展性，丛磊给出了答案。

2013-06-13

第五届中国云计算大会：Marvell大中华区系统与解决方案首席规划师甘卫宁：Marvell的公共云洞察

在第五届中国云计算大会“云计算核心技术架构专题论坛”上，Marvell大中华区系统与解决方案首席规划师甘卫宁解析了Web2.0数据中心的架构，并分析了计算、存储、网络三大核心技术的演变过程。

2013-06-13

第五届中国云计算大会青山友纪：运用inter-cloud computing处理大数据的演进

随着移动终端数量的增加，由各种移动终端衍生出来的海量数据，需要通过网络技术和云计算更高效地进行处理。包括inter-cloud computing技术在内的新一代网络技术随之诞生。

2013-06-13

思杰公司亚太区云平台总监黎国威：云计算推动移动工作模式及IT即服务

在第五届中国云计算大会“云计算核心技术架构专题论坛”上，思杰公司亚太区云平台总监黎国威在主题为《云计算如何推动移动工作模式和ITaaS》的演讲中介绍了全新的 ITaaS （交付IT即服务）模式以及企业如何开始转型。

2013-06-13

阿里巴巴资深技术专家强琦：大数据开发平台

在第五届云计算大会第二天的《云计算与大数据》专题论坛上，阿里巴巴资深技术专家强琦发表了名为《大数据开发平台》的主题演讲，大数据开发背景、平台和应用探索三个方面，介绍了阿里巴巴大数据和云计算的工作进展。

2013-06-13

第五届中国云计算大会百度林仕鼎：大数据的系统构架支持

2013-06-13

第五届中国云计算大会百度林仕鼎：应用驱动的数据中心计算

2013-06-13

第五届中国云计算大会吴继业：Linkedin商业分析部如何运用大数据实现商业价值-

第五届中国云计算大会讲师PPT：Linkedin商业分析部如何运用大数据实现商业价值-吴继业

2013-06-13

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人