自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 资源 (6)
  • 收藏
  • 关注

原创 hive优化

http://shiyanjun.cn/archives/588.html  http://www.cnblogs.com/xd502djj/p/3799432.html https://www.2cto.com/net/201708/668075.html http://dacoolbaby.iteye.com/blog/1879002  基本原则:...

2017-10-17 11:05:26 120

原创 ETL

 1. What is a logical data mapping and what does it mean to the ETL team?什么是逻辑数据映射?它对ETL项目组的作用是什么?答:逻辑数据映射(Logical Data Map)用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档,通常以表格或Excel的...

2016-09-29 14:36:50 144

原创 Hadoop 统计一个目录的文件大小

Hadoop 统计一个目录的文件大小 hive的查询注意事项以及优化总结 . http://www.cnblogs.com/xd502djj/p/3799432.htmlHadoop Hive基础sql语法http://www.cnblogs.com/HondaHsu/p/4346354.htmlmap和reduce 个数的设定 (Hive优化)经典http://b...

2016-02-03 13:38:55 1083

原创 hive优化之-控制hive任务中的map数和reduce数

1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到,该参数不能自定义修改);2.    举例: a)    假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个...

2016-02-01 15:55:37 103

原创 数据库设计

题目:一个简单的论坛系统,以数据库储存如下数据: 用户名,email,主页,电话,联系地址,发帖标题,发帖内容,回复标题,回复内容。 每天论坛访问量300万左右,更新帖子10万左右。 请给出数据库表结构设计,并结合范式简要说明设计思路。 下面是我的试答,大家尽管拍砖啊!试答:首先经常变动的数据不能和相对稳定的数据放在同一张表。本题中用户名、emial、主页、电话、联系地址属于相对稳定数据(用户不会...

2015-08-26 14:08:45 152

原创 处理Excel,填充空白区域

在企业应用开发中经常是业务人员提供Excel的数据源,而开发人员将Excel数据导入到数据库中,然后在数据库中进行处理。在Excel中为了表示一种层次和所属关系,很多时候会产生很多空白的单元格。比如一个CRM数据,里面有销售团队、销售员和客户数据,销售员属于某个销售团队,客户属于某个具体的销售,于是业务人员会提供这样的数据:销售团队销售员客户G1S1C1 ...

2015-06-12 09:26:23 316

原创 from insert select where

from dim.dim_wms_store a insert overwrite table test_20150609 select * where store_id=2 insert overwrite table test_201506092 select * where store_id=5  ----------------------------------------...

2015-06-09 17:47:15 344

原创 各仓仓容

1、库存数据取自WMS系统,数据已剔除三级分类:京东服务、购机送费、远程服务、游戏软件、京东贺卡、教育软件、礼盒礼券、礼品卡券、京东礼券、合约虚拟商品、大闸蟹、京东卡、上门服务、杀毒软件、运营商周边、选号入网、4G网络、“0”元购机、办套餐2、仓容使用率<100%,亮绿灯;100<=仓容使用率<=130%,亮黄灯;仓容使用率>130%,亮红灯;3、中小件库房实用面...

2015-06-05 09:31:28 215

原创 仓储订单生产节点监控

订单:客户订单 | 单量:客户订单的单量 | 出库单量:客户订单的打包单量 | 财务预算日均单量:当月财务预算总单量/当月天数 今日单量:截至此时,WMS今日的接收单量 | 今日产量:截至此时,库房今日的打包单量 | 昨日单量:截至昨日23:59,WMS昨日的接收单量 昨日产量:截至昨日23:59,库房昨日的打包单量 | 昨日此时单量:截至昨日此时,WMS昨日的接收单量 | 昨日此时产...

2015-06-05 09:28:42 218

原创 hive建表

DROP TABLE IF EXISTS app_wms_data_clean_bs_pack;CREATE EXTERNAL TABLE app_wms_data_clean_bs_pack(  stat_date                    string      comment     '统计日期',  GOODS_NO             string COMM...

2015-05-07 09:55:14 109

原创 百度地图坐标获取

http://blog.sina.com.cn/s/blog_4ffbe80f01018w5o.html google:打开google地图-->查找目的地-->右键:此位置居中-->地址栏键入javascript:void(prompt('',gApplication.getMap().getCenter()));回车如果上述方法没有显示、报错‘ prompt is...

2015-04-02 13:09:05 254

原创 hive分享

开发常用日期处理函数 No.1 sysdate(int)语法:sysdate(整数数字)返回值:string类型的日期说明:返回系统当前日期加上括号中的整数数字对应的日期,如sysdate(-1)返回昨天的日期‘2015-01-27’,sysdate(0)返回今天‘2015-01-28’,sysdate(1)返回明天‘2015-01-29’,以此类推。举例:输入:Se...

2015-01-30 14:29:22 199

原创 hive 表连接

http://shiyanjun.cn/archives/588.html 生成一个MR Job多表连接,如果多个表中每个表都使用同一个列进行连接(出现在JOIN子句中),则只会生成一个MR Job,例如:1SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key...

2015-01-27 14:38:41 154

原创 订单打印日志

任务ID:153513开始执行,执行命令:workspace/ods_etl/fdm_chat_analysis_order_new_chain.py 2015-01-22 03:37:57 INFO hive -e "use fdm;use fdm; set hive.ppd.remove.duplicatefilters=false; set mapred.job.priority=NORMA...

2015-01-27 10:09:41 461 1

原创 数据 140g, 按照字段time 降序排列 选出最大的前50个

数据 140g, 按照字段time 降序排列 选出最大的前50个。使用 一般方法 select * from table order by time desc limit 50.  执行了1小时6分钟完全算出。任务数1个  map数  1783 reduce 1而 select * from (select * from table distribute by time sort ...

2015-01-26 14:00:51 146

原创 历史拉链表

http://www.dataguru.cn/portal.php?mod=view&aid=3272在数据仓库的数据模型设计过程中,经常会遇到这样的需求:1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址,产品的描述信息,订单的状态等等;3. 需要查看某一个时间点或者时间段的历史快照信息,比如,查看某一个订单在历史某一个时间点的状态, 比如,查...

2014-12-24 14:11:35 303

原创 LINUX

rz 文件上传sz 文件 下载clear 清屏cd .. – 回到上级目录rm[-r]-f[][文件名] 删除文件,加[-r]可以删除文件夹下所有子文件,如rm -rf [abc]删除abc文件夹及文件夹下的所有文件cp –p abc.txt /mydir/abc_d.txt 拷贝mv 移动touch 创建文件mkdir 创建目录exit 退出cat abc...

2014-12-24 10:01:20 82

原创 mysql分表的3种方法

一,先说一下为什么要分表当一张的数据达到几百万时,你查询一次所花的时间会变多,如果有联合查询的话,我想有可能会死在那儿了。分表的目的就在于此,减小数据库的负担,缩短查询时间。根据个人经验,mysql执行一个sql的过程如下:1,接收到sql;2,把sql放到排队队列中 ;3,执行sql;4,返回执行结果。在这个执行过程中最花时间在什么地方呢?第一,是排队等待的时间,第二,sql...

2014-11-09 19:17:27 83

原创 MySQL_DBA整理

前言 几乎所有的资料整理都在Linux系统、mySQL5.0.27版本和MyISAM存储引擎环境下试验和总结的,以及参考前人经验与MySQL官网资料进行总结的。关于MySQL 的安装与升级,我相信很多MySQL_DBA都比我厉害,MySQL官网与其他网站上应该有很多相关资料: 关于安装写一条简单的命令与一些必要的说明: 1. 源码安装的脚本...

2014-11-09 18:41:06 114

原创 MySQL分库分表的一些技巧

分表是分散数据库压力的好方法。 分表,最直白的意思,就是将一个表结构分为多个表,然后,可以再同一个库里,也可以放到不同的库。 当然,首先要知道什么情况下,才需要分表。个人觉得单表记录条数达到百万到千万级别时就要使用分表了。 1,分表的分类 1>纵向分表 将本来可以在同一个表的内容,人为划分为多个表。(所谓的本来,是指按照关系型数据库的第三范式要求,是应该在同一个表的。) 分...

2014-11-09 17:44:21 196

原创 mysql 分库分表

分表是分散数据库压力的好方法。分表,最直白的意思,就是将一个表结构分为多个表,然后,可以再同一个库里,也可以放到不同的库。当然,首先要知道什么情况下,才需要分表。个人觉得单表记录条数达到百万到千万级别时就要使用分表了。1,分表的分类1>纵向分表将本来可以在同一个表的内容,人为划分为多个表。(所谓的本来,是指按照关系型数据库的第三范式要求,是应该在同一个表的。)分表理由:根据...

2014-11-09 17:30:41 87

原创 oracle本地索引和全局索引区别

表可以按range,hash,list分区,表分区后,其上的索引和普通表上的索引有所不同,oracle对于分区表上的索引分为2类,即局部索引和全局索引,下面分别对这2种索引的特点和局限性做个总结。 局部索引local index 1. 局部索引一定是分区索引,分区键等同于表的分区键,分区数等同于表的分区说,一句话,局部索引的分区机制和表的分区机制一样。 2. ...

2014-11-09 17:18:47 643

PMP经典试题整理

资源不错,想考pmp的建议下载,里面包含了出错率比较高的题

2012-11-03

ssh2权限管理源码项目

帮助初学者理解ssh权限开发。本人强力推荐

2011-06-24

实用Jquery特效

实用Jquery特效初学者最爱。强力推荐下载。

2011-06-24

从零开始学习jQuery

从零开始学习jQuery。完全满足初学者。感觉不错强力推荐

2011-06-24

当当网项目练习不看后悔终生

这个项目包含了java开发用到的所有知识点,如:hibernate+struts+jsp。你能把他看懂网站项目不是问题

2010-07-11

达内Corejava笔记

达内最好的老师整理的笔记,它包含了java中的所有重要知识点,不看你就后悔去吧!

2010-07-11

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除