自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 实验七 spark

1、Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更...

2019-05-20 20:12:36 213

转载 实验六 Hive基于Hadoop的 数据仓库

一、数据仓库HiveHive:是基于hadoop的一个数据仓库二、为什么用Hive:1.操作接口是类似SQL语法的HQL2.不用写MapReduce(查询逻辑复杂,开发难度大 成本高)3.拓展功能方便,也是分布式的4.有自定义的函数可以使用(延展性)三、可拓展、延展性、容错性(因为是分布式的)、简单(HQL)、离线处理(日志)、处理大数据集四、Hive和Hadoop的关系Hive...

2019-05-20 20:07:48 1121

转载 实验五 NoSQL

一、NOSQL非关系型数据库,又被称为NoSQL(Not Only SQL ),意为不仅仅是SQL( Structured QueryLanguage,结构化查询语言),据维基百科介绍,NoSQL最早出现于1998 年,是由Carlo Storzzi最早开发的个轻量、开源、不兼容SQL 功能的关系型数据库,2009 年,在一次分布式开源数据库的讨论会上,再次提出了NoSQL 的概念,此时NoSQ...

2019-05-20 19:38:15 334

转载 实验四 HBase安装配置

HBase安装配置①下载压缩包(选择与自己安装的Hadoop版本的兼容版本,见后面附录)官网下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/stable/选择稳定版hbase-1.4.9-bin.tar.gz,在Windows里面下载。②将压缩包从Windows传输到Linux当前目录下SecureCRT 【File】→【Co...

2019-05-18 20:57:27 265

转载 实验二 HDFS命令和Java API

步骤:1.安装JDK→2.安装Eclipse→3.安装Maven→4. Eclipse里配置Maven (下载Windows版本,在Windows里安装使用。)1.安装配置JDK①官网下载Java开发工具安装包jdk-8u201-windows-x64.exe:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downl...

2019-05-18 20:54:06 213

转载 实验三 MapReduce 分布式计算系统

一、相关文件准备java JDK for Windowshadoop-2.6.4.tar.gz 就是安装hadoop时使用的文件Eclipse二、环境准备1.安装java并配置环境Ubuntu 下安装 JDK 与配置环境变量2.解压hadoop-2.6.4.tar.gz源文件Hadoop源文件在整个开发过程中都会用到,因为很多依赖包都出自里面,用户可按自己的喜好选择位置...

2019-05-18 20:35:50 264

转载 实验一

一、虚拟机的安装Vmware Workstation Pro 12安装步骤1、点击【下一步】开始安装2.点击【更改】,选择安装路径,点击【下一步】3、取消勾选,点击【下一步】4、点击【安装】5、点击【许可证】6、粘贴激活码文件里的激活码,点击【输入】7、点击【完成】,安装完成二、安装CentOS71、点击【创建新的虚拟机】2、点击【自定义安装】3、点击【下一步】4、点击【...

2019-05-18 20:10:12 226

原创 网络爬虫

网络爬虫的定义:(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫分类:网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web C...

2019-03-11 20:09:25 398

转载 大数据

大数据的基本特征:(1)数据量大(2)多样化(3)数据价值密度化(4)速度快,时效高(5)数据实在线的最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。大数据的价值体现在以下几个方面:1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销2) 做小而美模式的中小微企业可以利用大数据做服务转型3) 面临互...

2019-03-04 20:16:42 159 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除