自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 收藏
  • 关注

原创 Hive添加列、修改列(调整位置)、删除列操作等

Hive添加列、修改列(调整位置)、删除列操作等张行之 2020-09-11 18:35:51 5433 收藏 18分类专栏: 大数据 文章标签: 数据库 hive alter版权大数据专栏收录该内容84 篇文章4 订阅订阅专栏1.添加1列或多列添加1列alter table table_name add columns(user_id bigint comment ‘用户ID’);添加多列alter table table_name add columns(name st

2021-10-13 15:46:17 2556

转载 Linux命令-top

top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。下面详细介绍它的使用方法。top是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序为止.比较准确的说,top命令提供了实时的对系统处理器的状态监视.它将显示系统中CPU最“敏感”的任务列表.该命令可以按CPU使用.内存使用和执行时间对任务进行排序;而且该命令的很多特性都可以通过交互式命令或者在个人定制文件中进行设定.1.命令格

2021-08-19 09:22:16 337

原创 hive常用参数调优

limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。有一个配置属性可以开启,避免这种情况—对数据源进行抽样。hive.limit.optimize.enable=true — 开启对数据源进行采样的功能 hive.limit.row.max.size — 设置最小的采样容量 hive.limit.optimize.limit.file — 设置最大的采样样本数缺点:有可能部分数据永远不会被处理到JOIN优化1)将大表放后头Hive假定查询中最后的一个.

2021-08-12 10:01:44 389

转载 hive基础知识

本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一、DDL语句(数据定义语句):对数据库的操作:包含创建、修改数据库对数据表的操作:分为内部表及外部表,分区表和分桶表二、DQL语句(数据查询语句):单表查询、关联查询hive函数:包含聚合函数,条件函数,日期函数,字符串函数等行转列及列转行:lateral view 与 explode 以及 reflect窗口函数与分析函数其他一些窗口函数文章首发于公众号【五分钟学大数据】,大数据领域原创技术号,每

2021-08-12 09:55:48 396

原创 大数据学习:Scala 语言特点,Scala与Java的区别?

Scala 是一种有趣的语言。它一方面吸收继承了多种语言中的优秀特性,一方面又没有抛弃Java这个强大的平台,它运行在Java虚拟机 (Java Virtual Machine)之上,轻松实现和丰富的Java类库互联互通。它既支持面向对象的编程方式,又支持函数式编程。它写出的程序像动态语言一样简洁,但事实上它确是严格意义上的静态语言。Scala六大特征:(1)java和scala可以混编。(...

2019-07-17 21:02:50 3274

原创 Scala中什么是偏应用函数

/*偏应用函数某些情况下,方法中参数非常多,调用这个方法非常频繁,每次调用只有固定的某个参数变化,其他都不变,可以定义偏应用来实现*/def showLog(date:Date,log:String): Unit ={println(s"date is $date ,log is $log")}val date = new Date()showLog(date,log =...

2019-07-16 20:12:12 186

原创 numpy基本的使用方法

一,导入numpy模块import numpy as np1二,创建一个2行3列的矩阵array = np.array([[1, 2, 3], [1, 2, 3]])输出维度print(‘number of dim:’, array.ndim)输出行数和列数print(‘shape :’, array.shape)输出元素个数print(‘size:’, array.size)...

2019-07-15 20:52:44 180

原创 大数据学习:python中的标识符命名规则

标示符:就是程序员定义的变量名、函数名注意:标识符可以由字母、下划线、和数字组成;不能以数字开头;不能与关键字重名。关键字:就是在 Python 内部已经使用的标识符;具有特殊的功能和含义;开发者 不允许定义和关键字相同的名字的标示符。以下命名规则都要符合标识符的命名规则。由字母、数字、下划线组成,不能以数字开头。区分大小写不能与关键字重名1、命名规则可以被视为一种惯例,并无绝对...

2019-07-13 10:49:40 604

原创 大数据学习:Hive分桶

Hive分桶通俗点来说就是将表(或者分区,也就是hdfs上的目录而真正的数据是存储在该目录下的文件)中文件分成几个文件去存储。比如表buck(目录,里面存放了某个文件如sz.data)文件中本来是1000000条数据,由于在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便,所以我们可以分4个文件去存储。1、Hive 分区表在Hive Sele...

2019-06-29 16:27:57 212

原创 大数据学习:Hive的安装

Hivehive三种方式区别和搭建Hive中metastore(元数据存储)的三种方式:a)内嵌Derby方式b)Local方式c)Remote方式1.本地模式(derby)这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" h...

2019-06-29 16:26:01 106

原创 大数据学习:什么是Hive

什么是Hive?Hive : 数据仓库。Hive:解释器,编译器,优化器等。Hive 运行时,元数据存储在关系型数据库里面。 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQ...

2019-06-29 16:23:36 199

原创 大数据学习:storm的容错保障机制

集群容错:1.Nimbus挂掉如果失去了Nimbus节点,Worker也会继续执行;如果workerye消亡,Supervisor会重启worker。但是如果没有Nimbus,worker不会被安排到其他主机节点,客户端也无法提交新的任务。2.zookeeper挂掉zookeeper有主从结构,挂掉无影响。3.Supervisor失败真正执行进程的是worker,所以Supervis...

2019-06-26 07:55:05 115

原创 大数据学习:storm的概念

Storm的作者是Nathan Marz,Nathan Marz在BackType公司工作的时候有了Storm的点子并独自一人实现了Storm。在2011年Twitter准备收购BackType之际,Nathan Marz为了提高Twitter对BackType的估值,在一篇博客里向外界介绍了Storm。Twitter对这项技术非常感兴趣,因此在Twitter收购BackType的时候Storm发...

2019-06-24 22:17:09 301

原创 大数据学习:Elasticsearch简介

Elasticsearch简介Elasticsearch是什么Elasticsearch是一个基于Apache Lucene™的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先...

2019-06-21 19:37:21 249

原创 大数据学习:zookeeper选主的流程

详述zookeeper选主的流程Leader选举Leader选举是保证分布式数据一致性的关键所在。当Zookeeper集群中的一台服务器出现以下两种情况之一时,需要进入Leader选举。(1) 服务器初始化启动。(2) 服务器运行期间无法和Leader保持连接。下面就两种情况进行分析讲解。服务器启动时期的Leader选举在集群初始化阶段,当有一台服务器Server1启动时,该Se...

2019-06-20 20:51:46 122

原创 大数据学习第十三天:redis五种数据类型操作,重点是string类型和hash类型

redis五种数据类型操作,重点是string类型和hash类型答:redis的常用命令:​ redis-cli 是Redis自带的基于命令行的客户端​ 连接Redis :redis-cli -h 127.0.0.1 -p 6379​ 测试连接是否正常 :redis-cli PING​ incr key 给key的值+1​ get key 获取key对应的value​ keys ...

2019-06-20 20:49:09 140

原创 大数据学习第八天

mapreduce的计算原理1. mapreduce 简介mapreduce源自google的一篇文章,将海量数据处理的过程拆分为map和reduce。mapreduce 成为了最早的分布式计算框架,这样即使不懂的分布式计算框架的内部运行机制的用户,也可以利用分布式的计算框架实现分布式的计算,并在hadoop上面运行。2. 设计思想hadoop 文件系统 ,提供了一个分布式的文件系统,但是...

2019-06-13 21:56:45 104

原创 大数据学习第七天

HDFS核心概念1 Blocks物理磁盘中有块的概念,磁盘的物理Block是磁盘操作最小的单元,读写操作均以Block为最小单元,一般为512 Byte。文件系统在物理Block之上抽象了另一层概念,文件系统Block物理磁盘Block的整数倍。通常为几KB。Hadoop提供的df、fsck这类运维工具都是在文件系统的Block级别上进行操作。HDFS的Block块比一般单机文件系统大得多,...

2019-06-13 21:22:28 217

原创 大数据学习第六天

归并算法指的是将两个顺序序列合并成一个顺序序列的方法。倒排索引 (英语:Inverted index),倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(invert...

2019-06-11 21:49:16 121

原创 大数据学习第五天

高并发与负载均衡一、Linux中的init.d目录1./etc/init.d 是 /etc/rc.d/init.d 的软链接(soft link)。可以通过 ll 命令查看。都是用来放服务脚本的,当Linux启动时,会寻找这些目录...

2019-06-11 21:39:50 200

原创 大数据学习第四天

学习主题:shellscript编程(类似与javascript:解释器是:浏览器)首先说一下什么是Kernel:Kernel(内核),内核就是Linux的核心,用户的所有操作,都是由Kernel来完成的,但是用户却又不是直接对 Kernel做所有的操作,为什么呢?因为用户与Kernel之间,并不能直接的沟通,用户不可以直接的发送指令给Kernel ,这个时候就需要Shell了,Shell把你...

2019-06-09 21:47:52 72

原创 # 大数据day03

linux下源码安装软件1.编译安装​ 配置文件:Makefile​ 编译,安装命令:make​ 案例:编译安装nginx​ 下载源码​ tar xf 解压​ README​ ./configure:创建Makefile​ make:编译​ make install clean 等​ 注意:​ 编译环境​ 软件依赖​ 配置项​ 1,下载源码包​ 2...

2019-06-05 20:56:58 65

原创 大数据学习第二天

正则表达式1.定义:正则表达式是描述字符排列和匹配模式的一种语法规则。​ 正则表达式主要用于字符串的模式分割、匹配、查找及替换。​ 正则表达式主要为了模糊匹配。2.匹配操作符​ \ 转义字符​ . 匹配任意单个字符​ ...

2019-06-04 21:00:03 61

原创 大数据学习第一天

大数据训练大纲(第01天)学习目标:安装大数据环境虚拟机、linux安装网络环境理解大数据的概念学习linux的简单命令学习linux文件系统什么是快照?操作虚拟机时候,想保存当前状态为以后操作失误快速那时保存的系统状态,想当于对系统的版本管理,每个节点之间可以互相切换6.什么是克隆?**​ 可以选择快照和当前状态,可选择链接克隆和完整克隆...

2019-06-03 22:04:50 311

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除