- 博客(22)
- 资源 (6)
- 收藏
- 关注
原创 hive优化
http://shiyanjun.cn/archives/588.html http://www.cnblogs.com/xd502djj/p/3799432.html https://www.2cto.com/net/201708/668075.html http://dacoolbaby.iteye.com/blog/1879002 基本原则:...
2017-10-17 11:05:26 122
原创 ETL
1. What is a logical data mapping and what does it mean to the ETL team?什么是逻辑数据映射?它对ETL项目组的作用是什么?答:逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的...
2016-09-29 14:36:50 148
原创 Hadoop 统计一个目录的文件大小
Hadoop 统计一个目录的文件大小 hive的查询注意事项以及优化总结 . http://www.cnblogs.com/xd502djj/p/3799432.htmlHadoop Hive基础sql语法http://www.cnblogs.com/HondaHsu/p/4346354.htmlmap和reduce 个数的设定 (Hive优化)经典http://b...
2016-02-03 13:38:55 1087
原创 hive优化之-控制hive任务中的map数和reduce数
1. 通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2. 举例: a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个...
2016-02-01 15:55:37 107
原创 数据库设计
题目:一个简单的论坛系统,以数据库储存如下数据: 用户名,email,主页,电话,联系地址,发帖标题,发帖内容,回复标题,回复内容。 每天论坛访问量300万左右,更新帖子10万左右。 请给出数据库表结构设计,并结合范式简要说明设计思路。 下面是我的试答,大家尽管拍砖啊!试答:首先经常变动的数据不能和相对稳定的数据放在同一张表。本题中用户名、emial、主页、电话、联系地址属于相对稳定数据(用户不会...
2015-08-26 14:08:45 157
原创 处理Excel,填充空白区域
在企业应用开发中经常是业务人员提供Excel的数据源,而开发人员将Excel数据导入到数据库中,然后在数据库中进行处理。在Excel中为了表示一种层次和所属关系,很多时候会产生很多空白的单元格。比如一个CRM数据,里面有销售团队、销售员和客户数据,销售员属于某个销售团队,客户属于某个具体的销售,于是业务人员会提供这样的数据:销售团队销售员客户G1S1C1 ...
2015-06-12 09:26:23 324
原创 from insert select where
from dim.dim_wms_store a insert overwrite table test_20150609 select * where store_id=2 insert overwrite table test_201506092 select * where store_id=5 ----------------------------------------...
2015-06-09 17:47:15 345
原创 各仓仓容
1、库存数据取自WMS系统,数据已剔除三级分类:京东服务、购机送费、远程服务、游戏软件、京东贺卡、教育软件、礼盒礼券、礼品卡券、京东礼券、合约虚拟商品、大闸蟹、京东卡、上门服务、杀毒软件、运营商周边、选号入网、4G网络、“0”元购机、办套餐2、仓容使用率<100%,亮绿灯;100<=仓容使用率<=130%,亮黄灯;仓容使用率>130%,亮红灯;3、中小件库房实用面...
2015-06-05 09:31:28 218
原创 仓储订单生产节点监控
订单:客户订单 | 单量:客户订单的单量 | 出库单量:客户订单的打包单量 | 财务预算日均单量:当月财务预算总单量/当月天数 今日单量:截至此时,WMS今日的接收单量 | 今日产量:截至此时,库房今日的打包单量 | 昨日单量:截至昨日23:59,WMS昨日的接收单量 昨日产量:截至昨日23:59,库房昨日的打包单量 | 昨日此时单量:截至昨日此时,WMS昨日的接收单量 | 昨日此时产...
2015-06-05 09:28:42 224
原创 hive建表
DROP TABLE IF EXISTS app_wms_data_clean_bs_pack;CREATE EXTERNAL TABLE app_wms_data_clean_bs_pack( stat_date string comment '统计日期', GOODS_NO string COMM...
2015-05-07 09:55:14 112
原创 百度地图坐标获取
http://blog.sina.com.cn/s/blog_4ffbe80f01018w5o.html google:打开google地图-->查找目的地-->右键:此位置居中-->地址栏键入javascript:void(prompt('',gApplication.getMap().getCenter()));回车如果上述方法没有显示、报错‘ prompt is...
2015-04-02 13:09:05 257
原创 hive分享
开发常用日期处理函数 No.1 sysdate(int)语法:sysdate(整数数字)返回值:string类型的日期说明:返回系统当前日期加上括号中的整数数字对应的日期,如sysdate(-1)返回昨天的日期‘2015-01-27’,sysdate(0)返回今天‘2015-01-28’,sysdate(1)返回明天‘2015-01-29’,以此类推。举例:输入:Se...
2015-01-30 14:29:22 206
原创 hive 表连接
http://shiyanjun.cn/archives/588.html 生成一个MR Job多表连接,如果多个表中每个表都使用同一个列进行连接(出现在JOIN子句中),则只会生成一个MR Job,例如:1SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key...
2015-01-27 14:38:41 158
原创 订单打印日志
任务ID:153513开始执行,执行命令:workspace/ods_etl/fdm_chat_analysis_order_new_chain.py 2015-01-22 03:37:57 INFO hive -e "use fdm;use fdm; set hive.ppd.remove.duplicatefilters=false; set mapred.job.priority=NORMA...
2015-01-27 10:09:41 463 1
原创 数据 140g, 按照字段time 降序排列 选出最大的前50个
数据 140g, 按照字段time 降序排列 选出最大的前50个。使用 一般方法 select * from table order by time desc limit 50. 执行了1小时6分钟完全算出。任务数1个 map数 1783 reduce 1而 select * from (select * from table distribute by time sort ...
2015-01-26 14:00:51 154
原创 历史拉链表
http://www.dataguru.cn/portal.php?mod=view&aid=3272在数据仓库的数据模型设计过程中,经常会遇到这样的需求:1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查...
2014-12-24 14:11:35 309
原创 LINUX
rz 文件上传sz 文件 下载clear 清屏cd .. – 回到上级目录rm[-r]-f[][文件名] 删除文件,加[-r]可以删除文件夹下所有子文件,如rm -rf [abc]删除abc文件夹及文件夹下的所有文件cp –p abc.txt /mydir/abc_d.txt 拷贝mv 移动touch 创建文件mkdir 创建目录exit 退出cat abc...
2014-12-24 10:01:20 87
原创 mysql分表的3种方法
一,先说一下为什么要分表当一张的数据达到几百万时,你查询一次所花的时间会变多,如果有联合查询的话,我想有可能会死在那儿了。分表的目的就在于此,减小数据库的负担,缩短查询时间。根据个人经验,mysql执行一个sql的过程如下:1,接收到sql;2,把sql放到排队队列中 ;3,执行sql;4,返回执行结果。在这个执行过程中最花时间在什么地方呢?第一,是排队等待的时间,第二,sql...
2014-11-09 19:17:27 90
原创 MySQL_DBA整理
前言 几乎所有的资料整理都在Linux系统、mySQL5.0.27版本和MyISAM存储引擎环境下试验和总结的,以及参考前人经验与MySQL官网资料进行总结的。关于MySQL 的安装与升级,我相信很多MySQL_DBA都比我厉害,MySQL官网与其他网站上应该有很多相关资料: 关于安装写一条简单的命令与一些必要的说明: 1. 源码安装的脚本...
2014-11-09 18:41:06 119
原创 MySQL分库分表的一些技巧
分表是分散数据库压力的好方法。 分表,最直白的意思,就是将一个表结构分为多个表,然后,可以再同一个库里,也可以放到不同的库。 当然,首先要知道什么情况下,才需要分表。个人觉得单表记录条数达到百万到千万级别时就要使用分表了。 1,分表的分类 1>纵向分表 将本来可以在同一个表的内容,人为划分为多个表。(所谓的本来,是指按照关系型数据库的第三范式要求,是应该在同一个表的。) 分...
2014-11-09 17:44:21 200
原创 mysql 分库分表
分表是分散数据库压力的好方法。分表,最直白的意思,就是将一个表结构分为多个表,然后,可以再同一个库里,也可以放到不同的库。当然,首先要知道什么情况下,才需要分表。个人觉得单表记录条数达到百万到千万级别时就要使用分表了。1,分表的分类1>纵向分表将本来可以在同一个表的内容,人为划分为多个表。(所谓的本来,是指按照关系型数据库的第三范式要求,是应该在同一个表的。)分表理由:根据...
2014-11-09 17:30:41 91
原创 oracle本地索引和全局索引区别
表可以按range,hash,list分区,表分区后,其上的索引和普通表上的索引有所不同,oracle对于分区表上的索引分为2类,即局部索引和全局索引,下面分别对这2种索引的特点和局限性做个总结。 局部索引local index 1. 局部索引一定是分区索引,分区键等同于表的分区键,分区数等同于表的分区说,一句话,局部索引的分区机制和表的分区机制一样。 2. ...
2014-11-09 17:18:47 654
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人