自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (1)
  • 收藏
  • 关注

原创 hivesql优化

1. 业务处理优化原则Hive对复杂SQL没有关系形数据库表现好,业务过程可使用临时表使用过程更清晰简单;关联条件尽可能避免使用函数、正则表达式。使用MAPJOIN()会将较小的表 加载到内存中,使连结过程在Map阶段完成分区避免数据倾斜问题。jobs数比较多的作业运行效率相对比较低。可选择tez方式加快小数据量的查询速度。不要求全局有序时使用Distribute By + S...

2018-06-14 20:43:29 2356

原创 linux 统计目录大小

du -ah --max-depth=1 a表示显示目录下所有的文件和文件夹(不含子目录),h表示以人类能看懂的方式,max-depth表示目录的深度。du -sh 查看当前目录总共占的容量。而不单独列出各子项占用的容量du -lh --max-depth=1 查看当前目录下一级子文件和子目录占用的磁盘容量。...

2018-06-14 20:15:51 9049

原创 linux 文件转码iconv

iconv --list :列出iconv支持的编码列表iconv -f 原编码 -t 新编码 filename -o newfile -f : from 来源编码 -t : to 转换后新编码 -c: 忽略无效字符 -s: –silent,忽略警告 -o file : 可选,没有的话直接转换当前文件, 使用-o 保留源文件。...

2018-06-14 09:49:19 2467

原创 oracle 字符串操作

TRIM()函数去掉最后一个字符select TRIM('市' from region_desc) from dual;

2018-06-13 15:35:53 482

原创 大数据处理架构Hadoop

1.概述 1. 概述Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性: • 高可靠性 • 高效性 • 高可扩展性 • 高容错性 • 成本低 • 运行在Linux平台上 • 支持多种编程语言 2. Hadoop不同版本...

2018-06-11 13:09:41 2277

原创 Python基本语法元素

1.程序设计基本方法 1. 计算机与程序设计2 . 编译和解释3.程序的基本编写方法4.计算机编程单元小结2.Python开发环境配置1. Python语言概述2.Python语言windows系统开发环境 3.Pyt...

2018-06-10 19:08:41 390

原创 大数据概述

1. 大数据时代2. 大数据概念和影响科学研究的四范式;大数据时代是数据驱动,发现问题,解决问题。 抽样分析经常把算法的精度放的非常高; 全样分析不存在误差被放大的情况; 很多时候数据就在一瞬间有价值, 如果没有快速分析结果的话,他的价值就消失了。 3. 大数据应用4. 大数据的关键技术...

2018-06-10 14:43:47 285

zookeeper-3.4.5-cdh5.14.2.tar.gz

下载 hadoop zookeeper-3.4.5-cdh5.14.2.tar.gz

2021-07-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除