wujixian123456
码龄6年
关注
提问 私信
  • 博客:11,632
    11,632
    总访问量
  • 23
    原创
  • 1,963,503
    排名
  • 0
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-06-03
博客简介:

wujixian123456的博客

查看详细资料
个人成就
  • 获得6次点赞
  • 内容获得0次评论
  • 获得21次收藏
创作历程
  • 4篇
    2021年
  • 20篇
    2019年
成就勋章
TA的专栏
  • HIVE数据仓库
    3篇
  • Linux
    1篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive添加列、修改列(调整位置)、删除列操作等

Hive添加列、修改列(调整位置)、删除列操作等张行之 2020-09-11 18:35:51 5433 收藏 18分类专栏: 大数据 文章标签: 数据库 hive alter版权大数据专栏收录该内容84 篇文章4 订阅订阅专栏1.添加1列或多列添加1列alter table table_name add columns(user_id bigint comment ‘用户ID’);添加多列alter table table_name add columns(name st
原创
发布博客 2021.10.13 ·
2731 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

Linux命令-top

top命令是Linux下常用的性能分析工具,能够实时显示系统中各个进程的资源占用状况,类似于Windows的任务管理器。下面详细介绍它的使用方法。top是一个动态显示过程,即可以通过用户按键来不断刷新当前状态.如果在前台执行该命令,它将独占前台,直到用户终止该程序为止.比较准确的说,top命令提供了实时的对系统处理器的状态监视.它将显示系统中CPU最“敏感”的任务列表.该命令可以按CPU使用.内存使用和执行时间对任务进行排序;而且该命令的很多特性都可以通过交互式命令或者在个人定制文件中进行设定.1.命令格
转载
发布博客 2021.08.19 ·
415 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive常用参数调优

limit限制调整一般情况下,Limit语句还是需要执行整个查询语句,然后再返回部分结果。有一个配置属性可以开启,避免这种情况—对数据源进行抽样。hive.limit.optimize.enable=true — 开启对数据源进行采样的功能 hive.limit.row.max.size — 设置最小的采样容量 hive.limit.optimize.limit.file — 设置最大的采样样本数缺点:有可能部分数据永远不会被处理到JOIN优化1)将大表放后头Hive假定查询中最后的一个.
原创
发布博客 2021.08.12 ·
472 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

hive基础知识

本文基本涵盖了Hive日常使用的所有SQL,因为SQL太多,所以将SQL进行了如下分类: 一、DDL语句(数据定义语句):对数据库的操作:包含创建、修改数据库对数据表的操作:分为内部表及外部表,分区表和分桶表二、DQL语句(数据查询语句):单表查询、关联查询hive函数:包含聚合函数,条件函数,日期函数,字符串函数等行转列及列转行:lateral view 与 explode 以及 reflect窗口函数与分析函数其他一些窗口函数文章首发于公众号【五分钟学大数据】,大数据领域原创技术号,每
转载
发布博客 2021.08.12 ·
448 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据学习:Scala 语言特点,Scala与Java的区别?

Scala 是一种有趣的语言。它一方面吸收继承了多种语言中的优秀特性,一方面又没有抛弃Java这个强大的平台,它运行在Java虚拟机 (Java Virtual Machine)之上,轻松实现和丰富的Java类库互联互通。它既支持面向对象的编程方式,又支持函数式编程。它写出的程序像动态语言一样简洁,但事实上它确是严格意义上的静态语言。Scala六大特征:(1)java和scala可以混编。(...
原创
发布博客 2019.07.17 ·
3399 阅读 ·
2 点赞 ·
0 评论 ·
14 收藏

Scala中什么是偏应用函数

/*偏应用函数某些情况下,方法中参数非常多,调用这个方法非常频繁,每次调用只有固定的某个参数变化,其他都不变,可以定义偏应用来实现*/def showLog(date:Date,log:String): Unit ={println(s"date is $date ,log is $log")}val date = new Date()showLog(date,log =...
原创
发布博客 2019.07.16 ·
212 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

numpy基本的使用方法

一,导入numpy模块import numpy as np1二,创建一个2行3列的矩阵array = np.array([[1, 2, 3], [1, 2, 3]])输出维度print(‘number of dim:’, array.ndim)输出行数和列数print(‘shape :’, array.shape)输出元素个数print(‘size:’, array.size)...
原创
发布博客 2019.07.15 ·
209 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

大数据学习:python中的标识符命名规则

标示符:就是程序员定义的变量名、函数名注意:标识符可以由字母、下划线、和数字组成;不能以数字开头;不能与关键字重名。关键字:就是在 Python 内部已经使用的标识符;具有特殊的功能和含义;开发者 不允许定义和关键字相同的名字的标示符。以下命名规则都要符合标识符的命名规则。由字母、数字、下划线组成,不能以数字开头。区分大小写不能与关键字重名1、命名规则可以被视为一种惯例,并无绝对...
原创
发布博客 2019.07.13 ·
676 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

大数据学习:Hive分桶

Hive分桶通俗点来说就是将表(或者分区,也就是hdfs上的目录而真正的数据是存储在该目录下的文件)中文件分成几个文件去存储。比如表buck(目录,里面存放了某个文件如sz.data)文件中本来是1000000条数据,由于在处理大规模数据集时,在开发和修改查询的阶段,如果能在数据集的一小部分数据上试运行查询,会带来很多方便,所以我们可以分4个文件去存储。1、Hive 分区表在Hive Sele...
原创
发布博客 2019.06.29 ·
245 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据学习:Hive的安装

Hivehive三种方式区别和搭建Hive中metastore(元数据存储)的三种方式:a)内嵌Derby方式b)Local方式c)Remote方式1.本地模式(derby)这种方式是最简单的存储方式,只需要在hive-site.xml做如下配置便可<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" h...
原创
发布博客 2019.06.29 ·
148 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据学习:什么是Hive

什么是Hive?Hive : 数据仓库。Hive:解释器,编译器,优化器等。Hive 运行时,元数据存储在关系型数据库里面。 Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQ...
原创
发布博客 2019.06.29 ·
238 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

大数据学习:storm的容错保障机制

集群容错:1.Nimbus挂掉如果失去了Nimbus节点,Worker也会继续执行;如果workerye消亡,Supervisor会重启worker。但是如果没有Nimbus,worker不会被安排到其他主机节点,客户端也无法提交新的任务。2.zookeeper挂掉zookeeper有主从结构,挂掉无影响。3.Supervisor失败真正执行进程的是worker,所以Supervis...
原创
发布博客 2019.06.26 ·
144 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

大数据学习:storm的概念

Storm的作者是Nathan Marz,Nathan Marz在BackType公司工作的时候有了Storm的点子并独自一人实现了Storm。在2011年Twitter准备收购BackType之际,Nathan Marz为了提高Twitter对BackType的估值,在一篇博客里向外界介绍了Storm。Twitter对这项技术非常感兴趣,因此在Twitter收购BackType的时候Storm发...
原创
发布博客 2019.06.24 ·
336 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据学习:Elasticsearch简介

Elasticsearch简介Elasticsearch是什么Elasticsearch是一个基于Apache Lucene™的开源搜索引擎,无论在开源还是专有领域,Lucene可以被认为是迄今为止最先...
原创
发布博客 2019.06.21 ·
273 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据学习:zookeeper选主的流程

详述zookeeper选主的流程Leader选举Leader选举是保证分布式数据一致性的关键所在。当Zookeeper集群中的一台服务器出现以下两种情况之一时,需要进入Leader选举。(1) 服务器初始化启动。(2) 服务器运行期间无法和Leader保持连接。下面就两种情况进行分析讲解。服务器启动时期的Leader选举在集群初始化阶段,当有一台服务器Server1启动时,该Se...
原创
发布博客 2019.06.20 ·
144 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据学习第十三天:redis五种数据类型操作,重点是string类型和hash类型

redis五种数据类型操作,重点是string类型和hash类型答:redis的常用命令:​ redis-cli 是Redis自带的基于命令行的客户端​ 连接Redis :redis-cli -h 127.0.0.1 -p 6379​ 测试连接是否正常 :redis-cli PING​ incr key 给key的值+1​ get key 获取key对应的value​ keys ...
原创
发布博客 2019.06.20 ·
165 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据学习第八天

mapreduce的计算原理1. mapreduce 简介mapreduce源自google的一篇文章,将海量数据处理的过程拆分为map和reduce。mapreduce 成为了最早的分布式计算框架,这样即使不懂的分布式计算框架的内部运行机制的用户,也可以利用分布式的计算框架实现分布式的计算,并在hadoop上面运行。2. 设计思想hadoop 文件系统 ,提供了一个分布式的文件系统,但是...
原创
发布博客 2019.06.13 ·
124 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据学习第七天

HDFS核心概念1 Blocks物理磁盘中有块的概念,磁盘的物理Block是磁盘操作最小的单元,读写操作均以Block为最小单元,一般为512 Byte。文件系统在物理Block之上抽象了另一层概念,文件系统Block物理磁盘Block的整数倍。通常为几KB。Hadoop提供的df、fsck这类运维工具都是在文件系统的Block级别上进行操作。HDFS的Block块比一般单机文件系统大得多,...
原创
发布博客 2019.06.13 ·
255 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据学习第六天

归并算法指的是将两个顺序序列合并成一个顺序序列的方法。倒排索引 (英语:Inverted index),倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(inverted index)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(invert...
原创
发布博客 2019.06.11 ·
143 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

大数据学习第五天

高并发与负载均衡一、Linux中的init.d目录1./etc/init.d 是 /etc/rc.d/init.d 的软链接(soft link)。可以通过 ll 命令查看。都是用来放服务脚本的,当Linux启动时,会寻找这些目录...
原创
发布博客 2019.06.11 ·
233 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多