自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 应届生必看-------------走进scala语言基础

1.为什么要学习scala因为我们之前学的hadoop生态圈都是处理离线计算的spark是一个在线计算的框架它的底层是scala语言实现所以得先了解scala语言scala语言的优点1. 在线计算2. 基于Java语言,开发效率高,运行效率快2.scala语言的介绍scala语言是一门多范式的编程语言,即面向对象也是函数式编程面向对象:万物皆对象、封装、实例对象、类、继承函数式...

2019-07-05 20:32:07 264 1

原创 hive的分区表和分桶表的初步认识

静态分区表单分区必须在表定义时指定对应partition字段单分区建表语句上传数据双分区双分区创建语句增加分区alter table fei add partition(dt=10,hour=40);也就是说添加分区的时候不能直接添加,而是需要将原来的分区也要包含其中,完成相应的排序删除分区alter table tablename drop partition (se...

2019-06-20 21:17:41 332

原创 hive数据库的讲解、安装及简单命令的操作

走进hive数据库(数据仓库工具)hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行,优点是学习成本低,可以通过类sql语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析;注意:Hive其实就是对Hdfs和MapRe...

2019-06-19 21:44:06 391

原创 zookeeper的集群搭建和概念以及操作zookeeperApi

zookeeper的介绍ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,是Google的Chubby一个开源的实现,是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。简单来说:分布式协调服务zookeeper集群搭建上传zookeeper包(官网上都有)解压: tar -xf z...

2019-06-18 21:36:53 174

转载 MapRedcue的初始和工作原理和eclipse代码实现

MapReduce的认识MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算,概念“Map(映射)”和“Reduce (归约)”,是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性,它极大地方便了编程人员在不会分布式并行编程地情况下,将自己的程序运行在分布式系统上,当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,...

2019-06-16 16:46:11 406

原创 配置Hadopp的伪分布集群操作和完全分布式操作

首先配置Hadopp集群操作之前得先配置jdk,因为Hadoop依赖于java一 jdk的安装https://download.csdn.net/download/qq_36698956/10731785 官网下载使用命令rz把压缩包导到linux系统中,rz命令得下载 -----yum install lrsz -y 或者使用工具xftp6也行解压 tar -zxv...

2019-06-12 20:54:32 399 1

原创 SecondaryNamenode二次节点持久化

SecondaryNamenodeSecondaryNamenode是一个二次节点,相当于公司的副总主节点掌握一批元数据为了保证数据的安全—将内存中的数据存放在磁盘中在此介绍下硬盘 内存大 便宜 还慢内存 内存小 贵 还快问题当我们的集群因断电等特殊原因使得一些数据丢失怎么解决首先说下为什么主节点不能做持久化的原因可以做:需求小、占用内存小、不影响计算xia...

2019-06-11 20:53:23 232

原创 Hadoop的介绍以及大数据的理解

什么是HadoopApache Hadoop软件库是一个框架,允许使用简单的编程模型跨计算机集群分布式处理大型数据集。它旨在从单个服务器扩展到数千台计算机,每台计算机都提供本地计算和存储。该库本身不是依靠硬件来提供高可用性,而是设计用于检测和处理应用层的故障,从而在计算机集群之上提供高可用性服务,每个计算机都可能容易出现故障。在这更要说明一下hadoop更是一个生态圈和spark一样;Had...

2019-06-10 20:36:59 413 1

原创 shell脚本笔记

shell脚本变量本地变量就是 变量属性=变量值 注意等号两边不能有空格局部变量 local----------只能应用于函数环境变量 export用它修饰的特殊变量 $$ 获取进程的id     $# 获取参数     $* 获取某一个位置的参数($1,$2)     $? 输出上一条指令的执行状态     $BASHPID 打印当前进程的实行Id位置变...

2019-06-10 15:00:10 132 1

原创 elasticsearch高亮查询

package com.zhangxiangzhou.cms.redis;import java.util.ArrayList;import java.util.List;import org.elasticsearch.action.search.SearchResponse;import org.elasticsearch.index.query.QueryBuilder;impor...

2019-06-10 09:31:23 2369 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除