自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 mr相关代码

jobmainpackage com.naixue.sort;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.NullWritable;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

2022-04-02 04:35:29 279

原创 面试题整理

一、输入网址浏览器做了什么二、三次握手三、hadoop高可用原理四、进程和线程的区别以及通信方式五、zk选举机制六、hive和HBASE的区别七、kafka为什么快八、flume介绍九、mapreduce运行原理十、mapreduce shuffle过程十一、mysql语句的执行过程十二、mysql多表查询十三、mysql索引与创建十四、B+树...

2021-12-20 21:32:27 785

原创 zookeeperApi操作

import org.apache.zookeeper.CreateMode;import org.apache.zookeeper.ZooDefs;import org.apache.zookeeper.ZooKeeper;import org.apache.zookeeper.data.ACL;import org.apache.zookeeper.data.Stat;import java.text.SimpleDateFormat;import java.util.Date;impo

2021-07-03 20:03:17 144 1

原创 HBase

HBase数据库介绍HBase 是 BigTable 的开源 java 版本。 建立在 HDFS 之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的NoSQL 数据库系统。NoSQL的两种解释,更精确的是后者NoSQL = NO SQLNoSQL = Not Only SQLNoSQL:HBase, Redis, MongoDBRDBMS:MySQL,Oracle,SQL Server,DB2以下几点是HBase 这个 NoSQL 数据库的要点:1、它仅能通过主键(row key)和主

2021-06-21 10:26:22 109

原创 Hive简介

什么是 HiveHive 由 Facebook 实现并开源,是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据 映射 为一张数据库表,并提供HQL(Hive SQL)查询功能,底层数据是存储在 HDFS 上。Hive 的本质是将 SQL 语句转换为 MapReduce 任务运行,使不熟悉 MapReduce 的用户很方便地利 用 HQL 处理和计算 HDFS 上的结构化的数据,适用于离线的批量数据计算。数据仓库之父比尔·恩门(Bill Inmon)在 1991 年出版的“Building t

2021-06-20 10:50:07 1958

原创 MapReduce中Shuffle原理剖析和资源调度 框架YARN详解

MapReduce中Shuffle原理详解1、概述 1、MapReduce 中,map 阶段处理的数据如何传递给 reduce 阶段,是 MapReduce 框架中最关键的一个流程,这个流程就叫 Shuffle;2、Shuffle: 数据汇洗 就是将 maptask 输出的处理结果数据,分发给reducetask。2、主要流程Shuffle 是 MR 处理流程中的一个过程,它的每一个处理步骤是分散在各个 map task 和 reducetask 节点上完成的,整体来看,分为4个操作:1

2021-06-20 09:40:44 253

原创 mapreduce

mapreduce介绍hadoop 的四大组件:HDFS:分布式存储系统MapReduce:分布式计算系统YARN:资源调度系统Common:以上三大组件的底层支撑组件,主要提供基础工具包和 RPC 框架等MapReduce是一个分布式运算程序的编程框架,是用户开发“基于 Hadoop 的数据应用” 的核心框架 。MapReduce核心功能是将用户编写的业务逻辑代码和自带默认组件整合成一个完整的分布 式运算程 序,并发运行在一个 Hadoop 集群上。为什么需要mapreduce为什

2021-06-20 09:21:39 123

原创 Zookeeper总结

一、zookeeper介绍ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby一个开源的实现。它提供了简单原始的功能,分布式应用可以基于它实现更高级的服务比如分布式同步,配置管理,集群管理,命名管理,队列管理。它被设计为易于编程,使用文 件系统目录树作为数据模型。服务端跑在 java上,提供 java 和 C 的客户端 API,众所周知,协调服务非常容易出错,但是却很难恢复正常,例如,协调服务很容易处于 竞态以至于出现死锁。我们设计 ZooKe

2021-06-19 09:06:37 184

原创 如何更好地学习HDFS

一、HDFS设计思想要把存入到集群中的数据均匀的分散的存储到整个集群中。核心设计思想!1 分散存储一个大的文件想要进行存储,必须要借助分布式文件存储系统这个分布式存储系统怎么存文件:把大的文件进行切分,“分而治之”,然后存储,最小单位为:块,大小:128M;2 冗余存储整个HDFS集群是存储在多个不是特别可靠的服务器上面,所以要保住数据的安全性,策略:副本冗余冗余的数量可以在hdfs-site.xml 修改dfs.replicaton。二、HDFS架构主从架构1、name

2021-06-03 11:32:51 72

原创 map的分类和常见的情况

java为数据结构中的映射定义了一个接口Java.util.Map;它有四个实现类,分别是HashMap,Hashtable,LinkedhashMap,TreeMap。Map主要用于存储键值对,根据键得到值,因此不允许键重复,但允许值重复。Hashmap是一个最常用的Map,它根据键的HashCode值存储数据,根据键可以直接获取它的值,具有很快的访问速度,遍历时,取得·数据的顺序是完全随机的。HashMap最多只允许一条记录的键为Null,允许多条记录的值为Null,HashMap不支持线程的同步,

2021-04-25 10:36:46 266

原创 Linux压缩打包

1、gzip压缩:gzip ma.txt2、gzip解压缩:gzip -d ma.txt.gz 或者 gunzip ma.txt.gz3、bzip2压缩:bzip2 ma.dat4、bzip2解压缩:bzip2 -d ma.dat.bz2 或者 bunzip2 ma.dat.bz25、打包:tar -cvf ma.txt.tar ma.txt6、追加打包:tar -rvf ma.txt.tar ma.dat 表示将ma.dat文件追加到ma.txt.tar当中7、解包:tar -xv

2021-03-18 22:22:58 99

原创 Linux网络管理

查看主机名:cat /etc/hostname (centos6)修改主机名:1、临时修改:hostname newname2、永久生效:vim /etc/hostname3、删除主机名:hostnamect1 set-hostnameDNS管理:vim/etc/NetworkManager/NetworkManager.conf增加配置:dns=nonevim/etc/resolv,conf增加以下内容:#主DNSnameserver备dnsnam...

2021-03-17 11:16:44 133

原创 Linux编辑器vim相关概念

一:模式转换vi 编辑器 有三种模式1 编辑模式 插入模式2 命令模式 编辑模式3 底行模式 命令行模式vim是vi的增强版模式转换的核心操作:1、vi temp.txt进入到命令模式2、如果要更改文件内容,先使用a,i,o进入到插入模式3、移动光标到要更改的位置,进行编辑4‘先按键ESC回退到命令模式5、在进入到底行模式6、再使用命令来保存退出 保存:w 退出:q7、q!:强制退出二:常用快捷键a:光标后一位开始插入 A:再该行...

2021-03-16 22:14:11 54

原创 2021-03-14

Linux命令大全linux命令格式:命令 [命令选项] [命令参数] 三者之间用空格隔开[命令选项]分为长格式 '--'和短格式'-'Linux的命令提示符:#:管理员用户 $:普通用户帮助文档:man 命令 或者 命令 --help帮助链接:http://man.linuxde.net //http://www..net/linux/ https://jaywc.jlove.github.io.linux-command/命令分类:文件管理:1.c...

2021-03-15 22:59:07 51

原创 2021-03-03

windows常用命令提示符打开"运行"对话框(Win+R),输入cmd,打开控制台命令窗口...1获取帮助command/?2 中断命令执行3 目录操作cd:显示当前目录cd..返回上一级目录md c:\目录名:在c盘下建立新目录dir:显示目录的内容tree:显示目录结构ren:文件或者目录重命名rd;删除目录copy:拷贝文件move:移动文件del:删除文件...

2021-03-03 08:47:22 62

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除