自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 大数据JDK+Hadoop安装配置、单机模式配置、伪分布式、完全分布式配置总结

实验报告 JDK+Hadoop安装配置、单机模式配置、伪分布式、完全分布式配置以下操作在SecureCRT里面完成,一定要在虚拟机里面先登录。一、基础安装配置1.关闭防火墙firewall-cmd --state 显示防火墙状态running/not running(防火墙显示not running,就可以直接进行→2)systemctl stop firewalld 临时关闭防火墙,每...

2019-05-25 14:50:08 301

原创 大数据Hbase学习总结

一、1、HBase简介Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库;利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务;主要用来存储非结构化和半结构化的松散数据(列存 NoSQL 数据库)。2、HBase数据模型2.1 rowkey决定...

2019-05-23 17:00:47 887

原创 大数据Spark学习总结

RDD及其特点1、RDD是Spark的核心数据模型,但是个抽象类,全称为Resillient Distributed Dataset,即弹性分布式数据集。2、RDD在抽象上来说是一种元素集合,包含了数据。它是被分区的,分为多个分区,每个分区分布在集群中的不同节点上,从而让RDD中的数据可以被并行操作。(分布式数据集)3、RDD通常通过Hadoop上的文件,即HDFS文件或者Hive表,来进...

2019-05-23 16:37:44 1204

原创 hive安装与配置

hive安装与配置,学习与总结Hive是Hadoop项目中的一个子项目,由FaceBook向Apache基金会贡献。Hive被视为一个仓库工具,可以将结构化的数据文件映射为一张数据库表,并可以将sql语句转换为 MapReduce 任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduc...

2019-05-20 22:13:07 151

原创 大数据NOSQL,使用Redis常用命令 使用MongoDB常用命令

一、MongoDB命令帮助  在安装MongoDB后,启动服务器进程(mongod),可以通过在客户端命令mongo实现对MongoDB的管理和监控:这是MongoDB最上层的命令列表,主要是管理数据库的:数据库操作帮助、集合操作帮助、管理帮助。如果想了解数据库操作更详细的命令,可以直接使用db.help(),如下所示:二、基本命令  1、show dbs    显示当前数据库服务器...

2019-05-20 22:04:50 393

原创 Mapreduce分布式编程

一、本质MapReduce是一个基于分治思想,用于处理海量数据的分布式计算框架。 Mapreduce框架的主要程序分为三种即Master,Map和Reduce二、mapreduce解决了什么问题1.数据分布式存储-HDFS2.作业调度3.容错4.机器间通信等复杂问题三、分布式计算vs单机计算四、MapReduce执行流程1.四个阶段Input到map:①file:HDF...

2019-05-20 21:45:30 220

原创 HDFS配置

1、HDFS    HDFS(Hadoop Distributed File System)为大数据平台其它所有组件提供了最基本的存储功能。    特征:高容错、高可靠、可扩展、高吞吐率等,为大数据存储和处理提供了强大的底层存储架构。    HDFS是一个主/从(master/slave)体系结构,从最终用户的角度来看,它就像传统的文件系统,可通过目录路径对文件执行CRUD操作。由于其...

2019-05-20 21:35:40 2454

原创 对Hadoop 的认识

一、Hadoop的架构与组成?Hadoop是一个能够对大量数据进行分布式处理的软件框架,以一种可靠、高效、可伸缩的方式进行数据处理,其有许多元素 构成,以下是其组成元素:1.Hadoop Common:Hadoop体系最底层的一个模块,为Hadoop各子项目提供各种工具,如:配置文件和日志操作等。2.HDFS:分布式文件系统,提供高吞吐量的应用程序数据访问,对外部客户机而言,HDFS 就像...

2019-03-11 20:19:56 569

原创 大数据有哪些软件可以使用?

一、大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库,云计算平台,互联网,和可扩展的存储系统。大数据有四个基本特征:一、数据体量巨大(Vomule),二、数据类型多样 (Variety),三、处理...

2019-03-07 22:34:30 3583

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除