大数据
文章平均质量分 84
掌勺者
这个作者很懒,什么都没留下…
展开
-
如何处理海量数据(转)
在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚至 过亿,那不是手工能解决的了,必须通过工具或者程序进行处理,尤其海量的数据中,什么情况都可能存在,例如,数据中某处格式出了问题,尤其在程序处转载 2015-05-27 08:50:23 · 560 阅读 · 0 评论 -
(转)hadoop上运行c++程序步骤
一。写一个程序保存为wordcount-simple.cpp:#include "hadoop/Pipes.hh"#include "hadoop/TemplateFactory.hh"#include "hadoop/StringUtils.hh"const std::string WORDCOUNT = "WORDCOUNT";const std::string INPUT_WORDS =转载 2015-05-27 09:04:20 · 467 阅读 · 0 评论 -
(转)Hadoop c++开发
假设你有上百G的数据,你要统计出这些数据中,含有某些你感兴趣的内容的数据的有多少条,你会怎么做?在硬件条件允许的情况下,用hadoop并行计算是一个不错的选择。为了使本文得以清晰地说明,我们不妨假设如下的情况:我们有100G的数据,分别保存在5个文件中,它们位于 /data/ 目录下。这5个数据文件的内容均为相同的格式,即,文件的内容大致如下:ABCDSDFKJ转载 2015-05-27 09:32:54 · 408 阅读 · 0 评论 -
win10 64位系统下,搭建spark环境,并配置python+pycharm开发环境
因为个人需要,想要学习大数据的处理知识,在学习之前首先要搭建基本软件环境。目前用的比较广泛的大数据平台基本都是基于hadoop生态圈的一系列软件,不过这两年spark异军突起,比hadoop生态中的MR的处理方式要快非常多,而且spark中的SQL、streaming、MLlib、GraphX等组件功能十分强大,所以选择搭建以spark为基础的大数据处理环境。一、系统环境理论上说,无论原创 2017-11-28 18:13:27 · 2002 阅读 · 0 评论 -
X-pack全功能解锁(用于个人试验测试)
使用Kibana管理Elasticsearch集群很方便,但需要集成X-pack组件。虽然ES和Kibana都是免费开源的,但X-pack却是收费才能开放所有功能。还好,X-pack的证书校验并不复杂,可以绕开验证机制,解锁全部功能。测试版本为X-pack-6.1.0版本。1、访问在kibana的证书管理页面,上面会指示你跳转到X-pack的官方证书生成网址,可以生成一个1原创 2017-12-28 08:19:25 · 4350 阅读 · 1 评论