大数据处理
z_l_l_m
这个作者很懒,什么都没留下…
展开
-
牛人是怎样处理海量数据的_数据库?access?mssql?mysql?oracle等_夜鹰教程网 .
一、数据量过大,数据中什么情况都可能存在。 如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处理时,前面还能正常处理,突然到了某个地方问题出现了,程序终止了。二、软硬件要求高,系统资源占用转载 2012-12-07 11:51:24 · 1605 阅读 · 0 评论 -
hive job oom问题
错误信息如下:Container [pid=26845,containerID=container_1419056923480_0212_02_000001] is running beyond virtual memory limits. Current usage: 262.8 MB of 2 GB physical memory used; 4.8 GB of 4.2 GB virtua原创 2015-06-26 18:28:33 · 1957 阅读 · 0 评论 -
御膳房:构建大数据的美食厨房
转自 http://m.csdn.net/article/a/2014-09-27/15820226转载 2014-10-31 10:47:54 · 1423 阅读 · 0 评论 -
数据产品的前世今生
出自:http://www.woshipm.com/pmd/76203.html转载 2014-04-30 17:53:21 · 686 阅读 · 0 评论 -
构建海量数据平台-云梯生态系统
转自 http://fengshenwu.com/blog/2014/02/16/build_cdo_yunti_ecosystem/《大数据时代》一书说:技术终究会过去,分析的模型也将定型,未来的制高点在于是否拥有数据。其实目前的数据技术正在蓬勃发展,也不知道维克托•迈尔•舍恩伯格说的啥时候到来。云梯系统为阿里已经服务了将近5年了,其上存储着数十PB的数据,每日运行数转载 2014-02-18 14:48:35 · 1100 阅读 · 0 评论 -
复述(paraphrases)
总结了一些海量数据课程所学的东西。一.复述的定义:同一个意思的不同表达二.复述的分类按照粒度可以分为Surface Paraphrases和Structural paraphrases. Surface Paraphrases有词汇,短语,句子,论述四个级别。Structural paraphrases有模式和搭配两个级别。按照复述的风格可以分为细小变化,短语替换,短语重排序,句子翻译 2013-06-19 14:49:17 · 1835 阅读 · 0 评论 -
淘宝的数据解决方案:datax - DataX产品说明
Datax官方文档https://docs.google.com/folder/d/0B0fmFtPvGjJpbl9GWklLZ04xVGc/edit?pli=1# Datax官方社区http://code.taobao.org/p/datax/src/ DataX是什么?DataX是一个在异构的数据库/文件系统之间高速交换数据的工具,实现了在任意的数据处理系统(R转载 2013-04-08 18:00:15 · 3046 阅读 · 1 评论 -
Apache推出Google Dremel的开源版本Drill
在大数据时代,对于Hadoop中的信息,越来越多的用户需要能够获得快速且互动的分析方法。现在,谷歌正在使用Dremel工具来快速分析事务,而Apache基金会则支持了一个类似于Dremel的开源版本——Drill。(CSDN编者注:Dremel是一种用来分析信息的方法,它可以在数以千计的服务器上运行,允许你“请求查询”海量数据,如网络文件的集合或是数字图书馆等,甚至是描述成百上千万条垃圾游戏信息的转载 2013-03-24 18:05:52 · 1218 阅读 · 0 评论 -
Google Dremel 原理 - 如何能 3 秒分析 1PB
简介Dremel 是Google 的“交互式”数据分析系统。可以组建成规模上千的集群,处理PB级别的数据。MapReduce处理一个数据,需要分钟级的时间。作为MapReduce的发起人,Google开发了Dremel将处理时间缩短到秒级,作为MapReduce的有力补充。Dremel作为Google BigQuery的report引擎,获得了很大的成功。最近Apache计划推出Dreme转载 2013-03-22 01:03:41 · 865 阅读 · 0 评论 -
Google后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel
摘要:Google在2003年到2004年公布了关于GFS、MapReduce和BigTable三篇技术论文,这也成为后来云计算发展的重要基石,如今Google在后Hadoop时代的新“三驾马车”——Caffeine、Pregel、Dremel再一次影响着全球大数据技术的发展潮流。Mike Olson是Hadoop运动背后的主要推动者,但这还远远不够,目前Google内部使用的大数转载 2013-03-22 01:06:48 · 1083 阅读 · 0 评论 -
那些年Google公开的大数据领域论文
Google于2004年公布了MapReduce论文,为数据领域工作者开启了大数据算法之门。然而Google的大数据脚步显然不止于此,其后公布了Percolator、Pregel、Dremel、Spanner等多篇论文。没有止步的不仅是Google,很多公司也跟随其脚步开发了很多优秀的产品,虽然其中不乏模仿。Mikio L. Braun柏林工业大学机器学习学博士后,TWIMPACT联合创始转载 2013-03-21 22:48:22 · 1219 阅读 · 0 评论 -
洞察力的“黄金时代”:大数据的美好未来
图为EricHorvitz编者按:过去20年间,微软研究院位于世界各地的实验室都在集中力量研究计算机科学领域中各种课题。研究院从一开始就投入巨资,力图在机器智能领域取得突破,其中包括在机器学习和大数据。在这次采访中,杰出科学家EricHorvitz谈到了自己对这一领域未来发展的前瞻、他们对日常生活的影响,以及如何借助源自大数据的深刻见解和更多智能软件和服务的开发来改变这个世界。转载 2013-02-28 17:14:03 · 885 阅读 · 0 评论 -
Fork/Join模式(JSR166y)手记之TransferQueue/LinkedTransferQueue
TransferQueue是一个继承了 BlockingQueue的接口,并且增加若干新的方法。LinkedTransferQueue是实现类,其定义为一个无界的队列,一样具有先进先出(FIFO : first-in-first-out)的特性。Doug Lea 这样评价它:TransferQueue是一个聪明的队列,它是ConcurrentLinkedQueue, Synchronous转载 2013-02-20 10:26:32 · 1329 阅读 · 0 评论 -
hadoop RPC 机制
转载 http://blog.sina.com.cn/s/blog_7973e0f101014ckc.htmlRPC(Remote Procedure Call Protocol)远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不需要了解底层网络技术的协议。Hadoop底层的交互都是通过 rpc进行的。例如:datanode和namenode 、tasktracker和jobt转载 2013-01-30 14:49:48 · 923 阅读 · 0 评论 -
蝉游记 通过微博冷启动
转自:http://www.jianshu.com/p/2bf81f6ac3f8很多人问我,蝉游记当年是怎么冷启动的。游记产品的冷启动太他妈难了。写游记本身是件极低频次,极高成本的事情,还需要充足的“情绪”来酝酿,通常只在旅行刚刚结束后有这样的情绪,时间窗口极短一瞬间。并不是说我上去一拉,人家就给个面子来写篇游记好吗——谁给你这么大的面子,花4-8个小时跑来素昧平生的新网站转载 2015-09-28 15:14:29 · 1574 阅读 · 0 评论