![](https://img-blog.csdnimg.cn/13f9576660ce42c1a181665f0a96aa67.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据
文章平均质量分 91
Hadoop学习
全栈ing小甘
成为一个全干工程师
展开
-
Hadoop HDFS特性和基本操作(hadoop离线-03)
#HDFS入门 HDFS介绍 如何模拟实现分布式文件存储系统? 具备哪些特性。 分布式、分块存储、副本机制、元数据管理 HDFS设计目标和重要特性#HDFS操作 shell command#HDFS原理(重中之重) 工作机制--读写流程 NN DN角色职责概述总结#HDFS辅助功能 distcp 跨集群复制数据 Archive 归档文件 处理小文件 Snapshot 快照#HDFS元数据管理机制 namenode如何管理元数据 secondarynamenode职责原创 2023-02-04 00:58:39 · 603 阅读 · 2 评论 -
hadoop02--Apache Hadoop集群搭建与介绍
#Apache Hadoop搭建 hadoop集群:主从架构 分为两个集群,两个集群物理上在一起,逻辑上分离 hdfs集群 yarn集群 集群角色 集群规划 集群配置 format初始化 启停脚本 webUI页面 hadoop初体验 现象与疑惑 后续学习方向#Apache hadoop辅助功能 jobhistory服务 查看历史执行记录 文件系统垃圾桶机制 回收站原创 2023-01-31 16:13:24 · 712 阅读 · 3 评论 -
Hadoop3 Centos 7编译安装和文件配置(内附编译好的包)
hadoop编译安装和文件配置第一类 1个 hadoop-env.sh第二类 4个 core|hdfs|mapred|yarn-site.xmlsite表示的是用户定义的配置,会覆盖default中的默认配置。core-site.xml 核心模块配置hdfs-site.xml hdfs文件系统模块配置mapred-site.xml MapReduce模块配置yarn-site.xml yarn模块配置第三类 1个 workers原创 2023-01-31 14:51:48 · 618 阅读 · 0 评论 -
hadoop离线01--大数据导论、Apache Zookeeper
Zookeeper概念介绍 分布式协调服务软件 Zookeeper是分布式小文件存储系统 Zookeeper特性:全局数据一致性 Zookeeper角色 主从架构 Zookeeper集群的搭建 Zookeeper的数据模型 Zookeeper的操作 shell command Zookeeper watcher监听机制 Zookeeper典型应用场景原创 2023-01-31 00:49:20 · 788 阅读 · 12 评论 -
大数据集群环境搭建
#linux集群环境搭建 集群、分布式---->多台机器 虚拟机克隆 服务器基础环境准备 1、防火墙关闭 2、主机名hostname修改 3、hosts主机名 IP映射 4、ssh免密登录 5、扩展:跳板机、堡垒机 6、集群时间同步 7、scp 跨集群复制文件#Linux软件安装 rpm包 yum安装软件#软件安装 JDK # shell编程原创 2023-01-29 20:19:34 · 2440 阅读 · 1 评论 -
Linux基本使用和操作笔记
#linux系统概述#vmware虚拟机 虚拟网络+网络模式 Centos7系统安装 SSH免密登录 非对称加密(私钥 公钥) 文件下载 虚拟机的快照#Linux常用的基础命令 文件系统的操作 目录树 搜索操作、解压缩 管道#vi|vim编辑器 打开新建、异常处理 常用命令操作 插入模式编辑、保存退出# Linux用户与权限管理 用户、用户组及其管理 文件权限 rwx su、sudo# 系统信息 时间、日期 进程 磁盘使用情况、内存使用情况原创 2023-01-29 00:27:34 · 733 阅读 · 2 评论 -
一个简单的Maven程序,Maven常用的操作命令
首先创建一个空的Project,然后创建一个module,在new module里面选maven,上面红框里面配置坐标,分别是公司域名倒叙加项目名、模块名、版本。目录结构说明main目录用于存放主程序。 java目录用于存放源代码文件。 resources目录用于存放配置文件和资源文件。 test目录用于存放测试程序。配置Maven的核心配置文件pom.xml<?xml version="1.0" encoding="UTF-8"?><project原创 2022-04-06 01:33:46 · 737 阅读 · 6 评论 -
本地配置Maven,IDEA配置Maven
目录安装Maven核心程序解压Maven的核心程序配置环境变量查看Maven版本信息验证安装是否正确Maven的本地仓库的配置(1)Maven默认的本地仓库(2)Maven的核心配置文件位置(3)本地仓库地址更改到E:\RepMaven(4)配置阿里云镜像在Idea中配置Maven安装Maven核心程序解压Maven的核心程序将apache-maven-3.2.2-bin.zip解压到一个非中文无空格的目录下。(需要的私信我)配置环境变量(..原创 2022-04-05 02:06:25 · 518 阅读 · 5 评论 -
为什么使用Waven?Waven是什么?
为什么要使用Maven?1、第三方Jar包添加在今天的JavaEE开发领域,有大量的第三方框架和工具可以供我们使用。要使用这些jar包最简单的方法就是复制粘贴到WEB-INF目录下的lib目录下。但是这会导致每次创建一个新的工程就需要将jar包重复复制到lib目录下,从而造成工作区中存在大量重复的文件。而使用Maven后每个jar包只在本地仓库中保存一份,需要jar包的工程只需要维护一个文本形式的jar包的引用——我们称之为“坐标”。不仅极大的节约了存储空间,更避免了重复文件太多而造成的混乱。原创 2022-04-04 01:25:54 · 573 阅读 · 11 评论 -
访问HDFS的常用接口,常用命令操作
目录HDFS常用命令接口常用命令操作(0)启动Hadoop集群(方便后续的测试)(1)-help:输出这个命令参数(2)-ls: 显示目录信息(3)-mkdir:在HDFS上创建目录(4)-moveFromLocal:从本地剪切粘贴到HDFS(5)-appendToFile:追加一个文件到已经存在的文件末尾(6)-cat:显示文件内容(7)-chgrp 、-chmod、-chown:Linux文件系统中的用法一样,修改文件所属权限(8)-copyFromL.原创 2022-04-02 18:41:08 · 1386 阅读 · 9 评论 -
分布式文件系统(HDFS产生背景及定义 HDFS优缺点 HDFS体系架构 HDFS文件块大小)
HDFS产生背景及定义 HDFS优缺点 HDFS体系架构 HDFS文件块大小原创 2022-04-01 20:09:20 · 1741 阅读 · 16 评论 -
伪分布式安装部署(运行MapReduce程序)
启动HDFS并运行MapReduce程序1. 配置集群(a)配置:hadoop-env.shLinux系统中获取JDK的安装路径:[ytsky@ hadoop101 ~]# echo $JAVA_HOME /opt/module/jdk1.8.0_202原创 2022-04-01 00:56:14 · 992 阅读 · 12 评论 -
Hadoop本地运行模式(Grep案例和WordCount 案例)
Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。这里先介绍本地运行模式运行官方Grep案例提供一些文本文件, grep可以从中找到想要匹配的文本运行官方WordCount 案例这例子是对文件中某些单词进行统计数。原创 2022-03-28 23:38:50 · 4088 阅读 · 10 评论 -
Hadoop依赖的技术基础
目录Hadoop依赖的技术基础3.1 Java编程基础·Java语言基础· Java类和对象的基本概念· Java面象对象编程的核心概念(封装、继承、重写、重载、抽象、接口、多态)·集合框架(List、Set、Queue、HashMap)· Java的I/O流技术· Java常用API3.2 Web可视化技术基础3.3 关系数据库基础3.4 Linux基础Hadoop依赖的技术基础3.1 Java编程基础Hadoop...原创 2022-03-19 02:17:34 · 344 阅读 · 1 评论 -
虚拟机安装(安装(克隆)虚拟机 配置网络 安装Centos7 配置(修改)虚拟机的静态IP 修改网卡的配置文件 测试网络是否互通外部工具 连接linux系统 设置服务器时间 修改主机名)
目录安装(克隆)虚拟机 配置网络安装Centos7配置(修改)虚拟机的静态IP 修改网卡的配置文件测试网络是否互通外部工具连接linux系统设置服务器时间修改主机名修改地址映射修改/etc/hosts文件,添加ip地址和主机名的映射关闭防火墙禁用SELINUX创建SSH免密登录(root用户)创建ytsky用户在/opt目录下创建目录安装(克隆)虚拟机 配置网络VM安装成功后,一定要确定这两个虚拟网卡要存在,才证明你的虚拟机安装成功虚拟机安原创 2022-03-19 02:17:57 · 7202 阅读 · 8 评论 -
虚拟机安装配置JDK和Hadoop
目录安装JDK1. 卸载现有JDK2. 将已下载的1.8JDK上传到opt目录下面的software目录下面。3. 在Linux系统下的opt目录中查看软件包是否导入成功4. 解压JDK到/opt/module目录下5. 配置JDK环境变量6. 测试JDK是否安装成功jdk环境变量配置的另外一种方式:安装Hadoop1.Hadoop下载地址2. 用SecureCRT/Moba等工具将hadoop-2.7.2.tar.gz上传到opt目录下面的software目..原创 2022-03-19 02:12:21 · 3383 阅读 · 4 评论 -
Hadoop简介和体系架构
目录2.1 Hadoop简介2.1.1 Hadoop由来2.1.2 Hadoop发展历程2.1.3 Hadoop生态系统2.2 Hadoop的体系架构2.2.1 分布式文件系统HDFS2.2.2 分布式计算框架MapReduce2.2.3 分布式资源调度系统YARN2. 2. 4三大发行版本2.1 Hadoop简介自从大数据的概念被提出后,出现了很多相关技术,其中对大数据发展最有影响力的就是开源分布式计算平台Hadoop,它就像软件发展史上的Win...原创 2022-03-17 21:02:53 · 7073 阅读 · 14 评论 -
大数据概述
目录前言1.1 大数据概念及价值1.1.1大数据的特征(特点)(1)规模性(Volume)(2)多样性(Variety)(3)高速性(Velocity)(4)价值性(Value)1.2 大数据数据源1.3 大数据技术应用场景1.4 大数据处理流程及技术收集数据数据预处理与存储数据处理与分析数据可视化与应用环节1.5 大数据与云计算的关系1.6 大数据与人工智能的关系前言现在的社会是一个科技与信息高速发展的社会,人们之间的交流越来..原创 2022-03-17 17:29:11 · 10285 阅读 · 8 评论