小白教程
文章平均质量分 79
跑得贼鸡儿快
这个作者很懒,什么都没留下…
展开
-
Spark Local模式环境搭建和使用
Spark Local模式环境搭建和使用Spark是一个开源的可应用于大规模数据处理的分布式计算框架,该框架可以独立安装使用,也可以和Hadoop一起安装使用。为了让Spark可以使用HDFS存取数据,本次采取和Hadoop一起安装的方式使用。Spark的部署模式主要有4种:Local(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为管理器)。本实验介绍Local模式(单机模式)+Hadoop伪分布原创 2021-03-03 21:35:55 · 1090 阅读 · 1 评论 -
Spark安装配置和基础编程
Spark安装配置和基础编程重要知识点:Spark是一个开源的可应用于大规模数据处理的分布式计算框架,该框架可以独立安装使用,也可以和Hadoop一起安装使用。为了让Spark可以使用HDFS存取数据,本实验采取和Hadoop一起安装的方式使用。Spark的部署模式主要有4种:Local(单机模式)、Standalone模式(使用Spark自带的简单集群管理器)、YARN模式(使用YARN作为集群管理器)和Mesos模式(使用Mesos作为管理器)。本实验介绍Local模式(单机模式)的Spark安装原创 2020-12-08 22:16:45 · 2082 阅读 · 2 评论 -
Kafka分布式发布-订阅消息系统编程实践
Kafka分布式发布-订阅消息系统编程实践重要知识点:Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作数据流。Kafka的目的是通过Hadoop和Spark等的并行加载机制来统一线上和离线的消息处理。实验内容与步骤:一、Kafka的安装与配置1.Kafka的下载安装在Ubuntu下打开官网:http://kafka.apache.org/downloads进行下载,建议下载稳定版本 kafka_2.11-2.1.1.tgz (亲自测试)下载完成后原创 2020-12-01 20:45:26 · 388 阅读 · 0 评论 -
Zookeeper分布式协调服务安装与使用
Zookeeper分布式协调服务安装与使用重要知识点:Zookeeper是一个分布式协调服务的开源框架,它是由Google的Chubby开源实现。Zookeeper主要用来解决分布式集群中应用系统的一致性问题和单点故障问题,例如如何避免同时操作同一数据造成脏读的一致性问题等。Zookeeper具有全局数据一致性、可靠性、顺序性、原子性以及实时性,可以说Zookeeper的其他特性都是为满足Zookeeper全局数据一致性这一特性。Zookeeper集群是一个主从集群(一般为奇数2n+1),它一般是由原创 2020-11-25 00:26:35 · 414 阅读 · 0 评论 -
Sqoop数据迁移
Sqoop数据迁移重要知识点:Sqoop是一款开源工具,主要用于在Hadoop与传统关系数据库之间进行数据的传递,可以将一个关系数据库,比如mysql、oracle等中的数据导入到Hadoop的HDFS、HBase、Hive中,也可以将Hadoop的数据导入到关系数据库中。实验内容与步骤:一、Sqoop的安装与配置1.Sqoop的下载在Ubuntu下打开官网:http://sqoop.apache.org/ 进行下载,建议下载稳定版本 sqoop-1.4.7.bin__hadoop-2.6.0.原创 2020-11-20 12:24:54 · 509 阅读 · 0 评论 -
Flume日志采集系统安装与使用
Flume日志采集系统安装与使用三、实验实现过程重要知识点:1.Flume是Cloudera提供的一个高可用的、高可靠的、分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接收方的能力。实验内容与步骤:一、Flume的安装与配置1.Flume的下载安装在Ubuntu下打开官网:http://flume.apache.org/download.html进行下载, 建议下载稳定版本apache原创 2020-11-10 19:15:20 · 1144 阅读 · 0 评论 -
Hadoop的数据仓库工具Hive安装与编程实践
Hadoop的数据仓库工具Hive安装与编程实践重要知识点:hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以原创 2020-11-04 12:51:32 · 1169 阅读 · 0 评论 -
HBase环境搭建与编程实践
HBase环境搭建与编程实践重要知识点:1.HBase是一个分布式的、面向列的开源数据库,源于Google的一篇论文《BigTable:一个结构化数据的分布式存储系统》。HBase以表的形式存储数据,表有行和列组成,列划分为若干个列族/列簇(column family)。HBase官方网站(http://hbase.apache.org/)。2.HBase的运行有三种模式:单机模式、伪分布式模式、分布式模式。单机模式:在一台计算机上安装和使用HBase,不涉及数据的分布式存储;伪分布式模式:在一台原创 2020-10-28 10:34:55 · 484 阅读 · 0 评论 -
NoSql数据库mongoDB安装与编程实践
NoSql数据库mongoDB安装与编程实践重要知识点:MongoDB 是一个是一个基于分布式文件存储的数据库,介于关系数据库和非关系数据库之间,是非关系数据库当中功能最丰富,最像关系数据库的。他支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。Mongo最大的特点是他支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。MongoDB有2种安装方式:离线安装和在线安装。在线安装一般原创 2020-10-21 12:28:52 · 443 阅读 · 1 评论 -
MapReduce经典案例实战
MapReduce经典案例实战实验实现过程重要知识点:MapReduce是一种分布式并行编程模型,是Hadoop核心子项目之一,如果已经安装了Hadoop,就不需要另外安装MapReduce。主要的理论知识点:(1)倒排索引倒排索引是文档检索系统中最常用的数据结构,被广泛应用于全文搜索引擎。倒排索引主要用来存储某个单词(或词组)在一组文档中的存储位置的映射,提供了可以根据内容来查找文档的方式,而不是根据文档来确定内容,因此称为倒排索引(Inverted Index)。带有倒排索引的文件我们称为原创 2020-10-14 14:28:49 · 16696 阅读 · 2 评论 -
MapReduce编程实践
MapReduce编程实践重要知识点:MapReduce是一种分布式并行编程模型,是Hadoop核心子项目之一,如果已经安装了Hadoop,就不需要另外安装MapReduce。主要的理论知识点包括:MapReduce概述、MapReduce的工作流程,WordCount实例分析,MapReduce的具体应用。掌握MapReduce的核心思想、编程模型、工作原理和实例分析。MapReduce的程序可以用Eclipse编译运行或使用命令行编译打包运行,本实验使用Eclipse编译运行MapReduc原创 2020-10-07 12:05:27 · 5354 阅读 · 5 评论 -
分布式文件系统HDFS Shell命令和API编程
分布式文件系统HDFS Shell命令和API编程Hadoop分布式文件系统(Hadoop Distributed File System,HDFS)是Hadoop核心组件之一,如果已经安装了Hadoop,其中就已经包含了HDFS组件,不需要另外安装。利用Shell命令与HDFS进行交互Hadoop支持很多Shell命令,其中fs是HDFS最常用的命令,利用fs可以查看HDFS文件系统的目录结构、上传和下载数据、创建文件等。注意:命令是以”./bin/hadoop dfs”开头的Shell命令方原创 2020-09-30 11:04:24 · 1106 阅读 · 0 评论 -
Hadoop环境配置与测试
Hadoop环境配置与测试前面的实验我们做好了Linux环境和Hadoop环境的准备与配置工作,因此这一实验我们在上一实验的基础上进行Hadoop环境的配置和测试。Hadoop环境搭建前的Linux环境安装与配置https://blog.csdn.net/weixin_43640161/article/details/108614907Linux下JDK软件的安装与配置https://blog.csdn.net/weixin_43640161/article/details/108619802掌原创 2020-09-23 12:27:29 · 3579 阅读 · 6 评论 -
大数据实验环境准备与配置(第四部分完结)
大数据实验环境准备与配置(第四部分完结)第四部分:Hadoop的下载与解压(1)Hadoop安装包下载下载地址:http://hadoop.apache.org/releases.html(在Ubuntu系统里面的浏览器打开)可以自己选择版本,最新版是hadoop-3.3.0.tar.gz下载完成后,可以在"Downloads"里面查看(2)解压安装包先新建文件夹bigdata,解压到该目录下。终端命令:sudo mkdir /bigdata解压安装包:终端命令:sudo ta原创 2020-09-20 20:49:28 · 1015 阅读 · 1 评论 -
大数据实验环境准备与配置(3/4)
大数据实验环境准备与配置(2/4)第三部分:Linux下Eclipse软件的安装与配置(1)在线下载并拷贝到当前用户Downloads目录下面下载地址:https://www.eclipse.org/downloads/点击 “Download Packages”选择对应的操作系统下载。这里注意!选择其他镜像选择国内的下载点,才能达到全速下载。拷贝到Downloads目录下(直接拖拽进去)(2) 解压eclipse到/opt目录下鼠标右键点击空白处,选择打开终端”Open in原创 2020-09-20 15:19:23 · 1552 阅读 · 0 评论 -
大数据实验环境准备与配置(2/4)
大数据实验环境准备与配置(2/4)第二部分:JDK软件的安装与配置(1)下载JDK软件有两种方法:在线安装以及拖拽安装包进行手动安装。在线安装比较简单,这里就只讲第二种:在Windows上下载jdk安装包,然后拖拽到Ubuntu系统里面进行安装以下是官方网站https://www.oracle.com/java/technologies/javase/javase-jdk8-downloads.html点击后会提示登录后下载,输入账户后,会自动下载。(没有账户的也可以用邮箱注册,流程很简原创 2020-09-16 12:49:53 · 954 阅读 · 0 评论 -
大数据实验环境准备与配置(1/4)
大数据实验环境准备与配置(1/4)第一部分:Hadoop环境搭建前的Linux环境安装与配置(1) 搜索 “Ubuntu”,选择官方下载。或者打开网站:https://ubuntu.com/download/desktop(2) 点击绿色的 Download按钮。(3) 这个官方网站是全速下载,这里391KB/s是因为我网络全速就这样/(ㄒoㄒ)/~~(4) iso文件下载完成后,在已经准备好的虚拟机软件VMware里面进行Ubuntu系统的安装选择 “创建新的虚拟机”(5) 选择原创 2020-09-16 11:14:01 · 2068 阅读 · 0 评论 -
微信小程序开发环境安装以及开发者账号注册
微信小程序开发环境安装以及开发者账号注册微信小程序,小程序的一种,英文名Wechat Mini Program,是一种不需要下载安装即可使用的应用,它实现了应用“触手可及”的梦想,用户扫一扫或搜一下即可打开应用。许多小伙伴肯定都想开发一款属于自己的小程序,快来跟我一起学吧。安装开发环境安装小程序开发环境,是开发小程序的第一步:登录微信小程序官方网站:https://developers.weixin.qq.com/miniprogram/dev/devtools/download.html点击对原创 2020-09-15 21:25:19 · 724 阅读 · 0 评论