![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
xiyf2046
这个作者很懒,什么都没留下…
展开
-
基于Spring Batch的大数据量并行处理 网页资料地址
http://www.infoq.com/cn/presentations/Spring-Batch-large-data?utm_source=infoq&utm_medium=related_content_link&utm_campaign=relatedContent_articles_clk原创 2013-10-10 10:34:03 · 894 阅读 · 0 评论 -
QuantCell Resarch发布首款Java大数据电子表格beta版本
以大数据分析起家的QuantCell Reaearch最近发布了首个他们称作“大数据”表格的公开beta测试版本。乍一看,人们可能会认为QuantCell是其他电子表格应用的Java Swing版本。但实际上它是早在1970年底就出现的商用电子表格软件VisiCalc发展而来的最新版本,目前这一市场由Microsoft Excel占领,当然,Excel无疑是最广泛使用的计算机程序之一。转载 2013-10-10 10:35:29 · 1120 阅读 · 0 评论 -
2013 Bossie评选:最佳开源大数据工具
标签: 开源 ,开源工具 , NoSQL , 大数据 , IT头条 【IT168 评论】MapReduce的出现是为了突破数据库的局限。Giraph、Hama以及Impala等工具的出现则是为了突破MapReduce的局限。虽然上述方案的运行都需要以Hadoop为基础,但图形、文档、列式以及其它NoSQL数据库也是大数据当中不可或缺的组成部分。转载 2013-10-10 15:10:24 · 869 阅读 · 0 评论 -
海量数据处理面试题
第一部分、十道海量数据处理面试题1、海量日志数据,提取出某日访问百度次数最多的那个IP。此题,在我之前的一篇文章算法里头有所提到,当时给出的方案是:IP的数目还是有限的,最多2^32个,所以可以考虑使用hash将ip直接存入内存,然后进行统计。再详细介绍下此方案:首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32转载 2013-10-18 09:13:07 · 951 阅读 · 0 评论 -
Google工程师谈程序员的自我修养
摘要:美国计算机协会对Sanjay Ghemawat进行了专访,Sanjay谈到了Google的文化和大数据的机会。Sanjay认为,挑战是一切创新的原动力,与团队成员紧密配合会产生更多创新,在实践中学习,让项目先简单快速的运行起来。【CSDN编译】美国计算机协会十月的人物栏目对Sanjay Ghemawat进行了 专访,他是Google系统架构组(包括MapReduce、 BigTa转载 2013-10-25 09:20:50 · 760 阅读 · 0 评论 -
深入剖析阿里巴巴云梯YARN集群
摘要:阿里巴巴是国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。本文将详细介绍阿里巴巴如何充分利用YARN的新特性来构建和完善其多功能分布式集群——云梯YARN集群。阿里巴巴作为国内使用Hadoop最早的公司之一,已开启了Apache Hadoop 2.0时代。阿里巴巴的Hadoop集群,即云梯集群,分为存储与计算两个模块,计算模块既有MRv1,也有YARN转载 2013-12-11 10:21:10 · 982 阅读 · 0 评论