自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 收藏
  • 关注

原创 linux shell day3

###RPM 包 - (Fedora, Redhat及类似系统)rpm -ivh package.rpm ##安装一个rpm包rpm -ivh --nodeeps package.rpm ##安装一个rpm包而忽略依赖关系警告rpm -U package.rpm ##更新一个rpm包但不改变其配置文件rpm -F package.rpm ##更新一个确定已经安装的rpm包rpm -e package_name.rpm ##删除一个rpm包rpm -qa ##显示系统中所有已经安装的rpm包rp

2021-08-30 22:02:08 120

原创 linux shell day2

###系统信息arch --显示机器的处理器架构(1)uname -m --显示机器的处理器架构(2)uname -r --显示正在使用的内核版本dmidecode -q --显示硬件系统部件 - (SMBIOS / DMI)hdparm -i /dev/hda --罗列一个磁盘的架构特性hdparm -tT /dev/sda --在磁盘上执行测试性读取操作cat /proc/cpuinfo --显示CPU info的信息cat /proc/interrupts --显示中断cat /pr

2021-08-27 09:49:12 108

原创 Spark读写ES

1.创建spark对象并配置读取es的连接信息//创建spark上下文对象 val spark = SparkSession .builder() .appName("test") .config("spark.port.maxretries", "128") .config("spark.sql.parquet.writelegacyFormat", true) .config("es.index.auto.create", "true

2021-08-26 16:56:41 699

原创 linux shell day1

1.查看当前linux信息$ cat /proc/version --查看当前操作系统版本信息$ cat /uname -a --查看版本当前操作系统内核信息$ cat /etc/redhat-release --查看版本当前操作系统发行版信息$ dmidecode -t memory | grep Size: | grep -v "No Module Installed" --查看物理机总共插了多少内存条以及物理内存2.查看防火墙状态$ systemc

2021-08-26 16:45:02 190

转载 OLTP与OLAP是什么?

原文地址 https://blog.csdn.net/kepa520/article/details/81479933OLTP与OLAP的介绍数据处理大致可以分成两大类:联机事务处理OLTP(on-line transaction processing)、联机分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的主要应用,主要是基本的、日...

2019-10-05 09:05:42 827

原创 hadoop的简介及前期配置

shell脚本基础增强1拓展vi编辑器里面:跳到最后一行:G(shift+g)跳到第一行: gg跳到本行首个字符: shift + 6跳到本行最后一个字符: shift + 4显示行号: :set nu查找起始字符串: /“字符串”linux 命令行中:跳到最左边: Ctrl + a跳到最右边: Ctrl + e磁盘大小 df -h内存大小 f...

2019-10-03 11:11:17 133

原创 hadoop集群搭建_3_zookeeper的安装

Zookeeper1 Zookeeper 的概述Zookeeper 是一个开源的分布式协调服务框架 ,主要用来解决分布式集群中应用系统的一致性问题和数据管理问题[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KazTf9SP-1570071949029)(assets/1-分布式文件系统.png)]####2:Zookeeper的特点Zookeep...

2019-10-03 11:06:24 183

原创 hadoop集群搭建_2

1:三台机器安装jdk####1.1 查看自带的openjdk并卸载rpm -qa | grep javarpm -e java-1.6.0-openjdk-1.6.0.41-1.13.13.1.el6_8.x86_64 tzdata-java-2016j-1.el6.noarch java-1.7.0-openjdk-1.7.0.131-2.6.9.0.el6_8.x86_64 --nod...

2019-10-03 11:05:10 89

原创 hadoop集群环境搭建

集群环境搭建1:注意事项#### 1.1 windows系统确认所有的关于VmWare的服务都已经启动[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Dgofo3wD-1570071675794)(assets/1557933410192.png)]####1.2 确认好VmWare生成的网关地址[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来...

2019-10-03 11:03:45 4359

原创 Apache Sqoop

Apache Sqoopsqoop 安装验证bin/sqoop list-databases \--connect jdbc:mysql://localhost:3306/ \--username root --password hadoop注意事项:命令携带参数必须出现在一行中,若换行就意味着自动提交执行,可通过\表示未结束。全量导入数据到hdfsmysql的地址尽量...

2019-07-27 11:18:58 89

原创 Azkaban

Azkabanazkaban是由领英退出的一款开源免费的工作流调度器软件特点功能强大 可以调度几乎所有软件的执行(command)配置简单 job配置文件提供了web页面使用java语言开发 源码清晰可见 可以进行二次开发架构web服务器 :对外提供web服务 用户在页面上进行项目的相关管理executor服务器:负责具体的工作流的调度提交。数据库:用于保存...

2019-07-27 11:18:26 297

原创 flume

离线day-day1101-Flume–软件概述Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的软件。引水渠sourcechannelsink02- Flume–运行机制&运行结构图[外链图片转存失败(img-H1Aovbdm-1564197326019)(assert/flume1.png)]Flume系统中核心...

2019-07-27 11:17:51 681 1

原创 hive

数据仓库-Hive1. 数据仓库1.1. 基本概念英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。可以理解为:面...

2019-07-27 11:17:05 162

原创 使用beeline工具连接Hive

###使用beeline工具连接Hive####第一步:修改hadoop的hdfs-site.xml文件在该文件中添加以下内容,开启HDFS的REST接口功能:<property> <name>dfs.webhdfs.enabled</name> <value>true</value></property&g...

2019-07-27 11:13:53 740

原创 hive

数据仓库-Hive1. 数据仓库1.1. 基本概念英文名称为Data Warehouse,可简写为DW或DWH。数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。数据仓库是存数据的,企业的各种数据往里面存,主要目的是为了分析有效数据,后续会基于它产出供分析挖掘的数据,或者数据应用需要的数据,如企业的分析性报告和各类报表等。可以理解为:面...

2019-07-27 11:12:21 179

原创 yarn

yarn资源调度1.yarn的介绍:​ yarn是hadoop集群当中的资源管理系统模块,从hadoop2.0开始引入yarn模块,yarn可为各类计算框架提供资源的管理和调度,主要用于管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及调度运行在yarn上面的各种任务。yarn核心出发点是为了分离资源管理与作业监控,实现分离的做法是拥有一个全局的资源管理...

2019-07-27 11:07:30 142

原创 mapreduce

##1. 自定义InputFormat合并小文件1.1 需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案1.2 分析小文件的优化无非以下几种方式:1、 在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS2、 在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并3、 在mapr...

2019-07-27 11:06:53 205

原创 mapreduce

##1 .MapReduce的运行机制详解###1.1:MapTask 工作机制整个Map阶段流程大体如上图所示。简单概述:inputFile通过split被逻辑切分为多个split文件,通过Record按行读取内容给map(用户自己实现的)进行处理,数据被map处理结束之后交给OutputCollector收集器,对其结果key进行分区(默认使用hash分区),然后写入buffer,每...

2019-07-27 11:06:14 179

原创 mapreduce

MapReduce 排序和序列化序列化 (Serialization) 是指把结构化对象转化为字节流反序列化 (Deserialization) 是序列化的逆过程. 把字节流转为结构化对象. 当要在进程间传递对象或持久化对象的时候, 就需要序列化对象成字节流, 反之当要将接收到或从磁盘读取的字节流转换为对象, 就要进行反序列化Java 的序列化 (Serializable) 是一个重量级序...

2019-07-27 11:01:51 183

原创 mapreduce

Hadoop-Mapreduce1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即...

2019-07-27 11:01:18 86

原创 mapreduce

Hadoop-Mapreduce1. MapReduce 介绍MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖关系。Reduce负责“合”,即...

2019-07-27 10:54:59 311

原创 hdfs分布式文件系统

Hadoop 核心-HDFS1. HDFS概述###1.1 介绍在现代的企业环境中,单机容量往往无法存储大量数据,需要跨机器存储。统一管理分布在集群上的文件系统称为分布式文件系统 。​ HDFS(Hadoop Distributed File System)是 Apache Hadoop 项目的一个子项目. Hadoop 非常适于存储大型数据 (比如 TB 和 PB), 其就...

2019-07-27 10:53:22 314

原创 Hadoop介绍

##Hadoop###1、 Hadoop的介绍Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。2003年、2004年谷歌发表的两篇论文为该问题提供了可行的解决方案。——分布式文件系统(GFS),可用于处理海量网页的存储——分布式...

2019-07-27 10:52:01 113

原创 Zookeeper的安装

1. zookeeper的数据模型ZooKeeper 的数据模型,在结构上和标准文件系统的非常相似,拥有一个层次的命名空间,都是采用树形层次结构.[外链图片转存失败(img-D8cKa8QC-1564195651611)(assets/wps27.png)]ZooKeeper 树中的每个节点被称为—个Znode。和文件系统的目录树一样,ZooKeeper 树中的每个节点可以拥有子节点...

2019-07-27 10:51:02 120

原创 hadoop 初级

1、大数据导论大数据概念大数据导入、大数据存储、大数据计算、数据分析、数据挖掘、机器学习大数据特点数量大速度快种类多价值密度低大数据能干啥银行(数仓、数据治理、数据接口)运营商电商(海量数据存储、智能推荐、离线计算、实时计算、反爬虫)金融物联网快手抖音(视频推荐)新闻客户端(新闻推荐)手机终端APP信息采集(通讯录、通话记录、app列表、设备地理位置...

2019-07-27 10:48:51 211

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除