- 博客(7)
- 资源 (1)
- 收藏
- 关注
原创 hivesql优化
1. 业务处理优化原则Hive对复杂SQL没有关系形数据库表现好,业务过程可使用临时表使用过程更清晰简单;关联条件尽可能避免使用函数、正则表达式。使用MAPJOIN()会将较小的表 加载到内存中,使连结过程在Map阶段完成分区避免数据倾斜问题。jobs数比较多的作业运行效率相对比较低。可选择tez方式加快小数据量的查询速度。不要求全局有序时使用Distribute By + S...
2018-06-14 20:43:29 2356
原创 linux 统计目录大小
du -ah --max-depth=1 a表示显示目录下所有的文件和文件夹(不含子目录),h表示以人类能看懂的方式,max-depth表示目录的深度。du -sh 查看当前目录总共占的容量。而不单独列出各子项占用的容量du -lh --max-depth=1 查看当前目录下一级子文件和子目录占用的磁盘容量。...
2018-06-14 20:15:51 9049
原创 linux 文件转码iconv
iconv --list :列出iconv支持的编码列表iconv -f 原编码 -t 新编码 filename -o newfile -f : from 来源编码 -t : to 转换后新编码 -c: 忽略无效字符 -s: –silent,忽略警告 -o file : 可选,没有的话直接转换当前文件, 使用-o 保留源文件。...
2018-06-14 09:49:19 2467
原创 oracle 字符串操作
TRIM()函数去掉最后一个字符select TRIM('市' from region_desc) from dual;
2018-06-13 15:35:53 482
原创 大数据处理架构Hadoop
1.概述 1. 概述Hadoop是一个能够对大量数据进行分布式处理的软件框架,并且是以一种可靠、高效、可伸缩的方式进行处理的,它具有以下几个方面的特性: • 高可靠性 • 高效性 • 高可扩展性 • 高容错性 • 成本低 • 运行在Linux平台上 • 支持多种编程语言 2. Hadoop不同版本...
2018-06-11 13:09:41 2277
原创 Python基本语法元素
1.程序设计基本方法 1. 计算机与程序设计2 . 编译和解释3.程序的基本编写方法4.计算机编程单元小结2.Python开发环境配置1. Python语言概述2.Python语言windows系统开发环境 3.Pyt...
2018-06-10 19:08:41 390
原创 大数据概述
1. 大数据时代2. 大数据概念和影响科学研究的四范式;大数据时代是数据驱动,发现问题,解决问题。 抽样分析经常把算法的精度放的非常高; 全样分析不存在误差被放大的情况; 很多时候数据就在一瞬间有价值, 如果没有快速分析结果的话,他的价值就消失了。 3. 大数据应用4. 大数据的关键技术...
2018-06-10 14:43:47 285
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人