自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

海牛大数据的博客

分享海量大数据技术教程及资料

  • 博客(10)
  • 收藏
  • 关注

转载 教你如何用 Python 来实现一个大数据搜索引擎

搜索是大数据领域里常见的需求。Splunk和ELK分别是该领域在非开源和开源领域里的领导者。本文利用很少的Python代码实现了一个基本的数据搜索功能,试图让大家理解大数据搜索的基本原理。布隆过滤器 (Bloom Filter)第一步我们先要实现一个布隆过滤器。布隆过滤器是大数据领域的一个常见算法,它的目的是过滤掉那些不是目标的元素。也就是说如果一个要搜索的词并不存在与我的

2018-01-26 17:01:02 3305

转载 入行大数据你需要了解关于Hadoop与大数据的12个事实

事实1:Hadoop是由多个产品组成的。人们在谈论Hadoop的时候,常常把它当做单一产品来看待,但事实上它由多个不同的产品共同组成。Russom说:“Hadoop是一系列开源产品的组合,这些产品都是Apache软件基金会的项目。”一提到Hadoop,人们往往将其与MapReduce放在一起,但其实HDFS和MapReduce一样,也是H

2018-01-25 13:37:48 548

转载 搞懂大数据的这5个问题,可迅速入坑大数据!

随着大数据的火热,越来越多的小伙伴开始对大数据产生了兴趣。但是大数据到底是什么?总是让小伙伴们似懂非懂。我们为大家收集整理了五个常见的大数据问题,以帮助大数据相关行业入门的小伙伴迅速入坑。01什么是大数据?在维克托·迈尔-舍恩伯格及肯尼斯·库克耶编写的《大数据时代》 中大数据指不用随机分析法(抽样调查)这样的捷径,而采用所有数据进

2018-01-24 11:42:57 2680

转载 不懂这25个术语,千万不要说自己是干大数据的!

大数据听起来总是很神秘、很高大上的感觉,让很多人望而却步。如果你掌握了基本理论,对大数据技术的专业术语有所了解的话,相信你会开始慢慢的爱上大数据。让我们一起来了解大数据的25个术语。01算法“算法”如何与大数据相关?即使算法是一个通用术语,但大数据分析使其在当代更受青睐和流行。02分析年末你可能会收到一份来自信用卡公司寄来的包

2018-01-22 15:56:47 1733

转载 Spark为什么能成为大数据分析主流工具?

一.Spark是什么Spark是伯克利大学2009年开始研发的一个项目,它是大数据时代下的一个快速处理数据分析工作的框架。spark发展十分迅速,2014年,Hadoop的四大商业机构均宣称全力支持Spark,今后将全面接收基于Spark编写的数据挖掘与分析算法,多家世界顶级的数据企业例如Google,Facebook等现已纷纷转向Spark框架。近两年,Spark在中国的发展达到了一个前所未有的

2018-01-19 15:43:45 1484

原创 怎么学习大数据,入门大数据要掌握哪些知识?

我在很多平台上都收到过“怎么学习大数据?学大数据要学编程吗?大数据都学什么知识” 等等类似的问题。而近期类似的问题越来越多,2018年将成为大数据人才集中产出的一年,我也应广大网友的要求写了此篇文章,希望可以帮助更多的大数据人。每个人都在说大数据,但是大数据到底是什么?很多人都没有搞清楚。所以大数据学习要学什么知识自然就不是非常清楚了。什么是大数据?其实从字面意义上讲,我们就可以进行简单的了解,大

2018-01-18 12:44:44 1155

转载 新手常见的17个Python运行错误

原文地址:点击阅读原文当初学 Python 时,想要弄懂 Python 的错误信息的含义可能有点复杂。这里列出了常见的的一些让你程序 crash 的运行时错误。1、忘记在 if , elif , else , for , while , class ,def 声明末尾添加 :(导致 “SyntaxError :invalid syntax”)该错误将发生在类

2018-01-08 12:34:50 414

原创 Hadoop 系列教程(三):zookeeper

原文地址:http://hainiubl.com/topics/81#reply371. 复制一个nn2虚拟机并设置好主机名,静态IP,HOST修改crt上的配置文件把当前连接名称改成好识别的,并把登录用户修改成hadoop,尽量少用root操作,这样以后登录都使用hadoop用户验证是否当前为root用户可以用vim打开某个文件查看比如/etc/hosts切换到r

2018-01-04 15:14:38 513

转载 海牛大数据教你Hadoop 如何批量操作多台服务器

原文地址:http://hainiubl.com/topics/80#reply421. 每个虚拟机设置静态IPcd /etc/sysconfig/network-scripts/ifconfig/ip add 查看网卡的硬件名称和基本信息记下这个UUID以下内容回帖刷新可见………………#网卡配置例子TYPE="Ethernet"

2018-01-03 14:32:52 1615 1

转载 海牛 Hadoop 系列教程(一):服务器基础环境

原文:点击打开链接虚拟机linux使用的是centos7操作系统1. 安装sz rz工具,用于以后用rz sz上传下载文件yum install -y lrzsz2. 将原来的yum源配置进行备份mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base_repo_bak以下内容回帖刷新可见………………3. 用rz命令将Cen

2018-01-02 14:54:50 827

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除