- 博客(9)
- 收藏
- 关注
转载 实验七 spark
1、Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更...
2019-05-20 20:12:36
213
转载 实验六 Hive基于Hadoop的 数据仓库
一、数据仓库HiveHive:是基于hadoop的一个数据仓库二、为什么用Hive:1.操作接口是类似SQL语法的HQL2.不用写MapReduce(查询逻辑复杂,开发难度大 成本高)3.拓展功能方便,也是分布式的4.有自定义的函数可以使用(延展性)三、可拓展、延展性、容错性(因为是分布式的)、简单(HQL)、离线处理(日志)、处理大数据集四、Hive和Hadoop的关系Hive...
2019-05-20 20:07:48
1121
转载 实验五 NoSQL
一、NOSQL非关系型数据库,又被称为NoSQL(Not Only SQL ),意为不仅仅是SQL( Structured QueryLanguage,结构化查询语言),据维基百科介绍,NoSQL最早出现于1998 年,是由Carlo Storzzi最早开发的个轻量、开源、不兼容SQL 功能的关系型数据库,2009 年,在一次分布式开源数据库的讨论会上,再次提出了NoSQL 的概念,此时NoSQ...
2019-05-20 19:38:15
334
转载 实验四 HBase安装配置
HBase安装配置①下载压缩包(选择与自己安装的Hadoop版本的兼容版本,见后面附录)官网下载地址:https://mirrors.tuna.tsinghua.edu.cn/apache/hbase/stable/选择稳定版hbase-1.4.9-bin.tar.gz,在Windows里面下载。②将压缩包从Windows传输到Linux当前目录下SecureCRT 【File】→【Co...
2019-05-18 20:57:27
265
转载 实验二 HDFS命令和Java API
步骤:1.安装JDK→2.安装Eclipse→3.安装Maven→4. Eclipse里配置Maven (下载Windows版本,在Windows里安装使用。)1.安装配置JDK①官网下载Java开发工具安装包jdk-8u201-windows-x64.exe:https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downl...
2019-05-18 20:54:06
213
转载 实验三 MapReduce 分布式计算系统
一、相关文件准备java JDK for Windowshadoop-2.6.4.tar.gz 就是安装hadoop时使用的文件Eclipse二、环境准备1.安装java并配置环境Ubuntu 下安装 JDK 与配置环境变量2.解压hadoop-2.6.4.tar.gz源文件Hadoop源文件在整个开发过程中都会用到,因为很多依赖包都出自里面,用户可按自己的喜好选择位置...
2019-05-18 20:35:50
264
转载 实验一
一、虚拟机的安装Vmware Workstation Pro 12安装步骤1、点击【下一步】开始安装2.点击【更改】,选择安装路径,点击【下一步】3、取消勾选,点击【下一步】4、点击【安装】5、点击【许可证】6、粘贴激活码文件里的激活码,点击【输入】7、点击【完成】,安装完成二、安装CentOS71、点击【创建新的虚拟机】2、点击【自定义安装】3、点击【下一步】4、点击【...
2019-05-18 20:10:12
226
原创 网络爬虫
网络爬虫的定义:(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫分类:网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web C...
2019-03-11 20:09:25
398
转载 大数据
大数据的基本特征:(1)数据量大(2)多样化(3)数据价值密度化(4)速度快,时效高(5)数据实在线的最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。大数据的价值体现在以下几个方面:1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销2) 做小而美模式的中小微企业可以利用大数据做服务转型3) 面临互...
2019-03-04 20:16:42
159
4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人