- 博客(39)
- 资源 (29)
- 收藏
- 关注
原创 Spark 2015年回顾:四个大版本更迭、数以百计的改进
Apache Spark在2015年得到迅猛发展,开发节奏比以前任何时候都快,在过去一年的时间里,发布了4个版本(Spark 1.3到Spark 1.6),各版本都添加了数以百计的改进。给Spark贡献过源码的开发者数量已经超过1000,是2014年年末人数的两倍。据我们了解,不管是大数据或小数据工具方面,Spark目前是开源项目中最活跃的。对Spark的快速成长及社区对Spark项目的重视让我们...
2016-01-29 15:43:59 747
原创 众安保险推出数据安全险 专治黑客盗取数据隐患
自保险于1384年在佛罗伦萨诞生以来,它对生活的影响从未像本世纪这么大。2016年1月中旬,阿里云市场上线第一份数据保险——由众安保险提供的数据安全险,为企业虚拟资产数据的安全承保。用户投保后,一旦发生因黑客入侵引发的数据泄露,将由众安保险公司提供最高100万元的现金赔偿,最大限度降低客户损失。这是国内第一份专保黑客盗取云计算数据的保险,意味着DT时代数据的价值正在被各方认可,而保险的推出也将推动...
2016-01-28 22:32:10 186
原创 众安保险推出数据安全险 专治黑客盗取数据隐患
自保险于1384年在佛罗伦萨诞生以来,它对生活的影响从未像本世纪这么大。2016年1月中旬,阿里云市场上线第一份数据保险——由众安保险提供的数据安全险,为企业虚拟资产数据的安全承保。用户投保后,一旦发生因黑客入侵引发的数据泄露,将由众安保险公司提供最高100万元的现金赔偿,最大限度降低客户损失。这是国内第一份专保黑客盗取云计算数据的保险,意味着DT时代数据的价值正在被各方认可,而保险的推出也将推动...
2016-01-28 22:27:05 238
原创 连续三个季度保持三位数增长 阿里云Q4营收劲增126%
1月28日晚间,阿里巴巴集团(NYSE:BABA)发布2015年第四季度(2016财年第三季度)财报,旗下云计算业务阿里云保持强劲增长,营收增速亮眼。财报显示,阿里云第四季度营收8.19亿元,比去年同期增长126%,连续第三个季度保持三位数增长。综合2015全年数据,阿里云业务三连翻,阿里巴巴集团领跑技术竞争。28日晚到29日早间,包括阿里云、亚马逊、微软在内的全球主要云计算服务商将陆续发布201...
2016-01-28 22:16:41 247
原创 Java程序员在用的大数据工具,MongoDB稳居第一!
据日前的一则大数据工具使用情况调查,我们知道了Java程序猿最喜欢用的大数据工具。问题:他们最近一年最喜欢用什么工具或者是框架?受访者可以选择列表中的选项或者列出自己的,本文主要关心的是大数据工具。上一篇Java调查包括下列内容:开发语言Web框架应用服务器数据库工具SQL数据大数据开发工具云供应商现在,来看看维基百科上对大数据的定义: 大数据,广义上来说是一组量很大...
2016-01-28 15:59:07 525
原创 Schemaless:Uber基于MySQL的可扩展数据库(一)
Mezzanine项目描述了我们如何从单独的Postgres实例中将Uber的核心trip数据提取出来,就成了Schemaless这个具备容错性和高可用性的数据库。本文进一步描述了Schemaless的架构,及其在Uber基础结构中的详细角色,以及它如何成为这样的角色。我们关于新数据库的努力2014年初,由于业务增长迅猛,我们的数据库空间终告耗尽。随着扩张,每次新入驻城市,每次里程增长形成里程碑都...
2016-01-27 15:02:31 924
原创 衡量企业应用数据库性能的6大指标
【编者按】本文作者是 Omed Habib,在其职业生涯中花费了大量的时间不断探索一些新方法以提高大型 Web 应用的性能状况。本篇文章中,作者详细介绍了数据库的六大性能指标,帮助我们更好对数据库性能进行评估和改进。在前一篇文章中,我们曾对 SQL 和非 SQL 进行过简要介绍。本文基于这些主题,通过回顾最重要的六个性能指标,帮助评估企业应用数据库的健康状况。具体来说,本文包括以下内容:事务查...
2016-01-26 18:00:04 4206 1
原创 构建实战机器学习系统的10点经验(二)
原文:10 More lessons learned from building real-life Machine Learning systems — Part II 译者:刘翔宇 审校:赵屹华 责编:周建丁在我上一篇博客中,我介绍了10点新的经验,并且讲述了其中5个。那么现在来讲讲剩下的5个吧。6.特征工程的烦恼与收获一个性能良好的机器学习特征的主要特性有:可复用性可转换性可解释...
2016-01-25 16:57:42 529
原创 Windows OS上安装运行Apache Kafka教程
下面是分步指南,教你如何在Windows OS上安装运行Apache Zookeeper和Apache Kafka。 简介本文讲述了如何在Windows OS上配置并启动Apache Kafka,这篇指南将会指导你安装Java和Apache Zookeeper。 Apache Kafka是一个快速可扩展的消息队列,能够应对繁重的读写负载,即IO相关工作。更多信息请参见http://kafka....
2016-01-25 15:13:16 544
原创 Windows OS上安装运行Apache Kafka教程
下面是分步指南,教你如何在Windows OS上安装运行Apache Zookeeper和Apache Kafka。 简介本文讲述了如何在Windows OS上配置并启动Apache Kafka,这篇指南将会指导你安装Java和Apache Zookeeper。 Apache Kafka是一个快速可扩展的消息队列,能够应对繁重的读写负载,即IO相关工作。更多信息请参见http://kafka....
2016-01-25 15:12:11 116
原创 提高 ASP.NET Web 应用性能的 24 种方法和技巧
在这篇文章中,将介绍一些提高 ASP.NET Web 应用性能的方法和技巧。众所周知,解决性能问题是一项繁琐的工作,当出现性能问题,每个人都会归咎于编写代码的开发人员。以下为译文那性能问题到底该如何解决?以下是应用系统发布前,作为 .NET 开发人员需要检查的点。1.debug=「false」当创建 ASP.NET Web应用程序,默认设置为「true」。开发过程中,设置为「true」是非常有用多...
2016-01-22 19:23:26 192
原创 大数据分析的几个极佳用例
原文作者:Sandro Saitta 原文地址:Unusual Big Data Use Cases (guest post) 文章译者:刘旭坤时至今日互联网每天新增的数据量达2.5*10^18字节,而全球90%的数据都是在过去的两年间创造出来的。举个直观的例子来说明一下互联网的数据量:假设大西洋里每一升海水代表一个字节的数据,那么整个大西洋存储的数据也只能到2010年就满了。...
2016-01-21 21:48:48 3318
原创 Github上的十大机器学习项目
原文作者:Matthew Mayo 译文地址:Top 10 Machine Learning Projects on Github 文章译者:赵屹华,搜狗计算广告工程师,前生物医学工程师,关注推荐算法、机器学习领域。 文章审校:刘帝伟Github上的十大机器学习项目涵盖了一系列函数库、框架和教学资源。我们来看看别人使用的工具和学习的资源。开源软件是数据科学很重要的一部分...
2016-01-21 21:30:24 2095
原创 TiDB:支持MySQL协议的分布式数据库解决方案
【编者按】TiDB 是国内 PingCAP 团队开发的一个分布式 SQL 数据库。其灵感来自于 Google 的 F1,TiDB 支持包括传统 RDBMS 和 NoSQL 的特性。在国内ITOM 管理平台OneAPM 举办的技术公开课中,TiDB的高级工程师刘奇从HBase特性、TiDB的优势和系统架构等方面进行了详细阐述。以下为演讲整理:HBase简介众所周知,在SQL方面处于顶级的有两个公司,...
2016-01-20 17:48:57 3019
原创 最流行的六大数据模型工具
当今的商业决策对基于天的数据依赖越来越强烈。然而,正确而连贯的数据流对商业用户做出快速、灵活的决策起到决定性的作用。建立正确的数据流和数据结构才能保证最好的结果。这个过程叫做数据建模。为了避免认为错误并且加快进度,我们需要使用专业的软件来帮助我们建立数据逻辑模型和物理模型、生成DDL,并且能够生成报告来描述这个模型,同时分享给其他伙伴。本文列出的工具都是从Data to Value公司咨询顾问处精...
2016-01-19 09:02:01 7451
原创 优秀大数据GitHub项目一览
VMware CEO Pat Gelsinger曾说: 数据科学是未来,大数据分析则是打开未来之门的钥匙企业正在迅速用新技术武装自己以便从大数据项目中获益。各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展。 跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要的技能,工作的效率也会更高。 下面我们尽量列出了一些流行的开源大数据项目。根据它们各自...
2016-01-18 14:15:09 2502
原创 优秀大数据GitHub项目一览
VMware CEO Pat Gelsinger曾说: 数据科学是未来,大数据分析则是打开未来之门的钥匙企业正在迅速用新技术武装自己以便从大数据项目中获益。各行业对大数据分析人才的需求也迫使我们升级自己的技能以便寻找更好的职业发展。 跳槽之前最好先搞清楚一个岗位会接触到的项目类型,这样你才能掌握所有需要的技能,工作的效率也会更高。 下面我们尽量列出了一些流行的开源大数据项目。根据它们各自...
2016-01-18 13:58:55 2302
原创 Docker上的安全性:如何配合无间
当然Docker镜像因其简洁实用而闻名,Docker的安全性到底如何却仍然是一个未知的迷。Docker的专家Dustin Huptas和Andreas Schmidt给我们展示了一些要构建安全的Docker系统必须了解的安全功能。越来越多的公司开始向Docker容器技术迁移,并且在他们的技术栈中引入基于Docker的解决方案。围绕开发人员向Docker技术的靠近迟早会影响到生产环境的变化。...
2016-01-18 13:42:11 485
原创 应用Docker+Jupyter快速搭建数据科研环境
配置一个数据科研环境是一个非常痛苦的过程。比如处理各个软件包版本的一致性问题,必须非常深入理解并解决模糊晦涩的错误消息,再加上无数漫长的等待各个包的编译过程是非常令人沮丧的。这成为了数据科研难以上手的首要因素,并且是完全的没有规律可循。在过去的几年中我们能看到有多种技术产生,来帮助我们创建隔离化的环境。在此我们将主要关注一个技术:Docker。Docker的出现让创建一个新的数据科研环境变得更快更...
2016-01-15 10:53:08 3563
原创 探讨人工智能、深度学习、大数据等术语的定义
计算机运算对于上世纪80年代的我们来说是件非常兴奋的事,还记得我们第一次启动386DX处理器的场景。对,是”DX”,不是”MX”。尽管没人能够正确说出“DX”在数学或其它方面的优势是什么,但我们仍然会付出额外的200美元在Super VGA图形卡上安装16MHz的386DX,然后让那个坏男孩上钩,去CompuServe购买快如闪电的14,400 波特的U.S. Robotics “Sportste...
2016-01-15 09:19:16 762
原创 2016预测:Web scale 应用和基础设施监控
新年伊始,有不少人在总结过去,也有一些人在展望未来。下面让我们跟随 OpsClarity 的 Dhruv Jain,看看他对 2016 IT 趋势有什么大胆的预测。以下为译文又到了众人纷纷对下一年进行预测的时候了。虽然这些预测看起来多为老生常谈,但鉴于我所在的公司 OpsClarity 在 2015 年 12 月刚刚崭露头角,我决定做出一个预测。我们 OpsClarity 公司的人对于应用和基础设...
2016-01-14 17:55:22 228
原创 对比Pig、Hive和SQL,浅看大数据工具之间的差异
【编者按】在笔者看来,语言和工具之争从来都没有太大的意义,所谓存在既有道理,如何在场景下做出最合适的选择才至关重要。本文,DeZyre公司专家Manisha Nandy Mazumder对比了Pig、Hive和SQL的区别,并为读者浅谈了一些选择标准。以下为译文有人说对于大数据分析来说Hadoop才是炙手可热的新技术,SQL虽然久经考验但已经有些过时了。这话说得不错,但有非常多的项目都用Hadoo...
2016-01-13 15:11:52 258
原创 对比Pig、Hive和SQL,浅看大数据工具之间的差异
【编者按】在笔者看来,语言和工具之争从来都没有太大的意义,所谓存在既有道理,如何在场景下做出最合适的选择才至关重要。本文,DeZyre公司专家Manisha Nandy Mazumder对比了Pig、Hive和SQL的区别,并为读者浅谈了一些选择标准。以下为译文有人说对于大数据分析来说Hadoop才是炙手可热的新技术,SQL虽然久经考验但已经有些过时了。这话说得不错,但有非常多的项目都用Hadoo...
2016-01-13 15:10:05 1274
原创 2015人工智能重大突破
今年在人工智能和机器学习领域取得的进展令人印象深刻。这些领域中受到认可的进展一年比一年多,但我们仍然能够赶上这速度。如今这些工作的大部分都建立在年初其他团队的成果之上,大多数其他领域与此不同,它们之间的引用跨越了几十年。要写一篇这个领域广泛发展的总结,几乎不可避免地会导致大量的拟人描述,这篇总结确实如此。使用这些比喻仅仅是为了方便为谈论这些功能。要记住的一点是,即使许多这些功能听起来可以思考样,但...
2016-01-12 01:32:48 528
原创 深度学习和自然语言处理中的attention和memory机制
Attention机制是最近深度学习的一个趋势。在一次采访中,OpenAI的研究总监Ilya Sutskever说attention机制是最令人兴奋的进步之一,而且已经广为使用。听起来激动人心吧。但attention机制究竟是什么呢?神经网络里的attention机制是(非常)松散地基于人类的视觉注意机制。人类的视觉注意机制已经被充分地研究过了,而且提出了多个不同的模型,所有的模型归根结底都是按照...
2016-01-12 01:15:54 5816
原创 Storm over Gearpump & StreamingSQL on Spark解析
在由 Intel 主办、Cloudera China赞助的第二次上海大数据流处理聚会上,来自 Intel,大众点评与 Cloudera 的大数据工程师与大家分享时下大数据流处理最火热的话题。张天伦:Storm over GearpumpIntel大数据工程师张天伦演讲开始前,张天伦通过介绍自己的工作表达了对streaming的兴趣,并向大家推荐自己搜集在github上的projects,希望有更多...
2016-01-12 00:48:18 293
原创 你真的需要掌握多种语言吗?
我刚刚断送了我的事业。嗯,别人就是这么对我说的。我的同事们知道了我要离开公司,大多数对此表示理解。让他们不解的是,我目前就职的公司是一家 Windows 商店,我们用 C#.net 写代码,而我要入职的岗位要求在 Linux 环境下进行开发,以 Java 为主要的编程语言。他们认为编程语言的改变会让我丢失多年的编程语言经验,许多人赞同我同事们的观点。编程语言有上百种。有些编程语言十分常见,例如 J...
2016-01-08 18:10:44 255
原创 你真的需要掌握多种语言吗?
我刚刚断送了我的事业。嗯,别人就是这么对我说的。我的同事们知道了我要离开公司,大多数对此表示理解。让他们不解的是,我目前就职的公司是一家 Windows 商店,我们用 C#.net 写代码,而我要入职的岗位要求在 Linux 环境下进行开发,以 Java 为主要的编程语言。他们认为编程语言的改变会让我丢失多年的编程语言经验,许多人赞同我同事们的观点。编程语言有上百种。有些编程语言十分常见,例如 J...
2016-01-08 18:09:22 120
原创 你真的需要掌握多种语言吗?
我刚刚断送了我的事业。嗯,别人就是这么对我说的。我的同事们知道了我要离开公司,大多数对此表示理解。让他们不解的是,我目前就职的公司是一家 Windows 商店,我们用 C#.net 写代码,而我要入职的岗位要求在 Linux 环境下进行开发,以 Java 为主要的编程语言。他们认为编程语言的改变会让我丢失多年的编程语言经验,许多人赞同我同事们的观点。编程语言有上百种。有些编程语言十分常见,例如 J...
2016-01-08 18:08:53 139
原创 你真的需要掌握多种语言吗?
我刚刚断送了我的事业。嗯,别人就是这么对我说的。我的同事们知道了我要离开公司,大多数对此表示理解。让他们不解的是,我目前就职的公司是一家 Windows 商店,我们用 C#.net 写代码,而我要入职的岗位要求在 Linux 环境下进行开发,以 Java 为主要的编程语言。他们认为编程语言的改变会让我丢失多年的编程语言经验,许多人赞同我同事们的观点。编程语言有上百种。有些编程语言十分常见,例如 J...
2016-01-08 18:08:29 122
原创 Web Scale IT 与 5个 DevOps 工具
新年伊始,在总结过去一年 IT 行业变化和发展的同时,不少企业更关注未来一年甚至几年的行业趋势。Gartner 于 2014 年发表了文章 Gartner Says By 2017 Web-Scale IT Will Be an Architectural Approach Found Operating in 50 Percent of Global Enterprises表示:截止至 2017...
2016-01-08 17:47:16 149
原创 Apache Spark 1.6发布
今天我们非常高兴能够发布Apache Spark 1.6,通过该版本,Spark在社区开发中达到一个重要的里程碑:Spark源码贡献者的数据已经超过1000人,而在2014年年末时人数只有500。那么,Spark 1.6有什么新特性呢?Spark 1.6有逾千个补丁。在本博文中,我们将重点突出三个主要的开发主题:性能提升、新的DataSet API和数据科学函数的扩展。性能提升根据我们2015年S...
2016-01-06 10:12:42 158
原创 科研算法的敏捷应用
我记得几个月前看到Deep Dream研究员们(Leon A. Gatys, Alexander S. Ecker and Matthias Bethge)发布的文章,想着有人能把这些技术开发成API或者网页应用,使得大家能把自己的照片处理成具有各种艺术家风格的照片。所以当看见Łukasz Kidzinski 和Michał Warchoł 的deepart.io上线时,我就打算试试这款产品,并和...
2016-01-05 20:46:22 334
原创 专家展望未来5年深度学习发展趋势
2015年已然过去,2016刚刚开始,回头将目光集中于去年的成就上,以及对将来科学趋势的预测。去年最令人瞩目的一个领域就是深度学习,它是机器学习中越来越流行的一个分支,看起来它会继续向前发展,并会运用到越来越多的行业和领域中。在过去的一年中,我们有幸通过RE•WORK节目与从事人工智能和计算机科学方面的许多大牛进行交流,我们期待在2016年会晤更多的专家,并向他们学习。作为Q&A系列的一部...
2016-01-05 20:00:26 3803
原创 专家展望未来5年深度学习发展趋势
2015年已然过去,2016刚刚开始,回头将目光集中于去年的成就上,以及对将来科学趋势的预测。去年最令人瞩目的一个领域就是深度学习,它是机器学习中越来越流行的一个分支,看起来它会继续向前发展,并会运用到越来越多的行业和领域中。在过去的一年中,我们有幸通过RE•WORK节目与从事人工智能和计算机科学方面的许多大牛进行交流,我们期待在2016年会晤更多的专家,并向他们学习。作为Q&A系列的一部...
2016-01-05 20:00:02 829
原创 Salesforce计划收购Steelbrick,整合报价和支付服务
如果你不能打败他们,那么花钱买了它。Salesforce计划收购Steelbrick,整合报价和支付服务,该公司也是Salesforce早期投资的企业。如果你不能打败他们,那么花钱买了它,土豪们一般都这么干的。Salesforce收购的steelbrick,一个在Salesforce平台可以为SME中小企业建立报价、计费功能的创业公司 。建立在Salesforce平台上的应用程序,可以方便...
2016-01-05 19:29:12 321
原创 云计算是最终的计算架构?
NetSuite是一家做云计算软件服务的公司,它的CEO Nelson发表观点认为:云计算是最终的计算模式,你同意吗?作为NetSuite的CEO扎克•纳尔逊,对于云计算有深刻的理解。毕竟,他的公司诞生于1998年,那个时候云计算还没有它成为时尚,那个时候NetSuite就开始以订阅的方式提供ERP企业软件和其他业务软件。“我们实际上是第一个云计算应用程序,” 纳尔逊最近的一次采访中说。”...
2016-01-05 19:06:18 355 1
原创 Apache Zeppelin与Apache Kylin结合运用实践
在大数据领域,有很多新兴或成熟的技术满足了我们对数据处理的各种需求,有专注于文件系统的,有专注于数据存储的,有解决资源协调问题,也有像Apache Kylin[1](下文统称Kylin)这种基于Hadoop的OLAP引擎等。当这些技术满足了我们各个环节的需求把数据处理好后,我们就回到了最初的目标,数据分析。Apache Zeppelin[2](下文统称Zeppelin)即是一个试图在此领域助我们一...
2016-01-05 17:09:05 2788 2
原创 Spring Boot 性能优化
Spring 框架给企业软件开发者提供了常见问题的通用解决方案,包括那些在未来开发中没有意识到的问题。但是,它构建的 J2EE 项目变得越来越臃肿,逐渐被 Spring Boot 所替代。Spring Boot 让我们创建和运行项目变得更为迅速,现在已经有越来越多的人使用它。我们已经在几个项目中使用了 Spring Boot ,今天我们就来一起讨论一下如何改进 Spring Boot 应用的性能。...
2016-01-05 16:11:07 1363 1
Spark在TalkingData移动大数据平台的实践
2016-04-28
The Future of Real-Time in Spark
2016-02-26
Spark Usage in Enterprise Business Operations
2016-02-26
Role of Spark in transforming eBay’s Enterprise Data Platform
2016-02-26
Apache Spark, the Analytics Operating System
2016-02-26
2015中国开源参与调查报告Final
2016-02-04
戴金权:基于Spark软件栈的下一代大数据分析
2015-10-30
第五届中国云计算大会George Chu:下一代个性化智能推送系统OnePush
2013-06-13
第五届中国云计算大会dotCloud高级软件工程师Jerome Petazzoni:轻量级虚拟系统LXC
2013-06-13
第五届中国云计算大会新浪SAE首席架构师丛磊:SAE如何保证商业应用可靠运行
2013-06-13
第五届中国云计算大会:Marvell大中华区系统与解决方案首席规划师甘卫宁:Marvell的公共云洞察
2013-06-13
第五届中国云计算大会青山友纪:运用inter-cloud computing处理大数据的演进
2013-06-13
思杰公司亚太区云平台总监黎国威:云计算推动移动工作模式及IT即服务
2013-06-13
阿里巴巴资深技术专家强琦:大数据开发平台
2013-06-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人