wspiderw-CSDN博客

原创 hive优化

http://shiyanjun.cn/archives/588.html http://www.cnblogs.com/xd502djj/p/3799432.html https://www.2cto.com/net/201708/668075.html http://dacoolbaby.iteye.com/blog/1879002 基本原则：...

2017-10-17 11:05:26 122

原创 ETL

1. What is a logical data mapping and what does it mean to the ETL team?什么是逻辑数据映射？它对ETL项目组的作用是什么？答：逻辑数据映射（Logical Data Map）用来描述源系统的数据定义、目标数据仓库的模型以及将源系统的数据转换到数据仓库中需要做操作和处理方式的说明文档，通常以表格或Excel的...

2016-09-29 14:36:50 148

原创 Hadoop 统计一个目录的文件大小

Hadoop 统计一个目录的文件大小 hive的查询注意事项以及优化总结 . http://www.cnblogs.com/xd502djj/p/3799432.htmlHadoop Hive基础sql语法http://www.cnblogs.com/HondaHsu/p/4346354.htmlmap和reduce 个数的设定（Hive优化）经典http://b...

2016-02-03 13:38:55 1087

原创 hive优化之-控制hive任务中的map数和reduce数

1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set dfs.block.size;命令查看到，该参数不能自定义修改)；2. 举例： a) 假设input目录下有1个文件a,大小为780M,那么hadoop会将该文件a分隔成7个...

2016-02-01 15:55:37 107

原创数据库设计

题目：一个简单的论坛系统，以数据库储存如下数据：用户名，email，主页，电话，联系地址，发帖标题，发帖内容，回复标题，回复内容。每天论坛访问量300万左右，更新帖子10万左右。请给出数据库表结构设计，并结合范式简要说明设计思路。下面是我的试答，大家尽管拍砖啊！试答：首先经常变动的数据不能和相对稳定的数据放在同一张表。本题中用户名、emial、主页、电话、联系地址属于相对稳定数据（用户不会...

2015-08-26 14:08:45 157

原创处理Excel，填充空白区域

在企业应用开发中经常是业务人员提供Excel的数据源，而开发人员将Excel数据导入到数据库中，然后在数据库中进行处理。在Excel中为了表示一种层次和所属关系，很多时候会产生很多空白的单元格。比如一个CRM数据，里面有销售团队、销售员和客户数据，销售员属于某个销售团队，客户属于某个具体的销售，于是业务人员会提供这样的数据：销售团队销售员客户G1S1C1 ...

2015-06-12 09:26:23 324

原创 from insert select where

from dim.dim_wms_store a insert overwrite table test_20150609 select * where store_id=2 insert overwrite table test_201506092 select * where store_id=5 ----------------------------------------...

2015-06-09 17:47:15 345

原创各仓仓容

1、库存数据取自WMS系统,数据已剔除三级分类：京东服务、购机送费、远程服务、游戏软件、京东贺卡、教育软件、礼盒礼券、礼品卡券、京东礼券、合约虚拟商品、大闸蟹、京东卡、上门服务、杀毒软件、运营商周边、选号入网、4G网络、“0”元购机、办套餐2、仓容使用率<100%,亮绿灯；100<=仓容使用率<=130%,亮黄灯；仓容使用率>130%,亮红灯；3、中小件库房实用面...

2015-06-05 09:31:28 218

原创仓储订单生产节点监控

2015-06-05 09:28:42 224

原创 hive建表

DROP TABLE IF EXISTS app_wms_data_clean_bs_pack;CREATE EXTERNAL TABLE app_wms_data_clean_bs_pack( stat_date string comment '统计日期', GOODS_NO string COMM...

2015-05-07 09:55:14 112

原创百度地图坐标获取

http://blog.sina.com.cn/s/blog_4ffbe80f01018w5o.html google：打开google地图-->查找目的地-->右键：此位置居中-->地址栏键入javascript:void(prompt('',gApplication.getMap().getCenter()));回车如果上述方法没有显示、报错‘ prompt is...

2015-04-02 13:09:05 257

原创 hive分享

开发常用日期处理函数 No.1 sysdate(int)语法：sysdate(整数数字)返回值：string类型的日期说明：返回系统当前日期加上括号中的整数数字对应的日期，如sysdate(-1)返回昨天的日期‘2015-01-27’，sysdate(0)返回今天‘2015-01-28’，sysdate(1)返回明天‘2015-01-29’，以此类推。举例：输入：Se...

2015-01-30 14:29:22 206

原创 hive 表连接

http://shiyanjun.cn/archives/588.html 生成一个MR Job多表连接，如果多个表中每个表都使用同一个列进行连接（出现在JOIN子句中），则只会生成一个MR Job，例如：1SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key...

2015-01-27 14:38:41 158

任务ID：153513开始执行，执行命令：workspace/ods_etl/fdm_chat_analysis_order_new_chain.py 2015-01-22 03:37:57 INFO hive -e "use fdm;use fdm; set hive.ppd.remove.duplicatefilters=false; set mapred.job.priority=NORMA...

2015-01-27 10:09:41 463 1

原创数据 140g, 按照字段time 降序排列选出最大的前50个

数据 140g, 按照字段time 降序排列选出最大的前50个。使用一般方法 select * from table order by time desc limit 50. 执行了1小时6分钟完全算出。任务数1个 map数 1783 reduce 1而 select * from (select * from table distribute by time sort ...

2015-01-26 14:00:51 154

原创历史拉链表

http://www.dataguru.cn/portal.php?mod=view&aid=3272在数据仓库的数据模型设计过程中，经常会遇到这样的需求：1. 数据量比较大;2. 表中的部分字段会被update,如用户的地址，产品的描述信息，订单的状态等等;3. 需要查看某一个时间点或者时间段的历史快照信息，比如，查看某一个订单在历史某一个时间点的状态，比如，查...

2014-12-24 14:11:35 309

原创 LINUX

rz 文件上传sz 文件下载clear 清屏cd .. – 回到上级目录rm[-r]-f[][文件名] 删除文件，加[-r]可以删除文件夹下所有子文件，如rm -rf [abc]删除abc文件夹及文件夹下的所有文件cp –p abc.txt /mydir/abc_d.txt 拷贝mv 移动touch 创建文件mkdir 创建目录exit 退出cat abc...

2014-12-24 10:01:20 87

原创 mysql分表的3种方法

一，先说一下为什么要分表当一张的数据达到几百万时，你查询一次所花的时间会变多，如果有联合查询的话，我想有可能会死在那儿了。分表的目的就在于此，减小数据库的负担，缩短查询时间。根据个人经验，mysql执行一个sql的过程如下：1,接收到sql;2,把sql放到排队队列中 ;3,执行sql;4,返回执行结果。在这个执行过程中最花时间在什么地方呢？第一，是排队等待的时间，第二，sql...

2014-11-09 19:17:27 90

原创 MySQL_DBA整理

前言几乎所有的资料整理都在Linux系统、mySQL5.0.27版本和MyISAM存储引擎环境下试验和总结的，以及参考前人经验与MySQL官网资料进行总结的。关于MySQL 的安装与升级，我相信很多MySQL_DBA都比我厉害，MySQL官网与其他网站上应该有很多相关资料：关于安装写一条简单的命令与一些必要的说明： 1. 源码安装的脚本...

2014-11-09 18:41:06 119

原创 MySQL分库分表的一些技巧

分表是分散数据库压力的好方法。分表，最直白的意思，就是将一个表结构分为多个表，然后，可以再同一个库里，也可以放到不同的库。当然，首先要知道什么情况下，才需要分表。个人觉得单表记录条数达到百万到千万级别时就要使用分表了。 1，分表的分类 1>纵向分表将本来可以在同一个表的内容，人为划分为多个表。（所谓的本来，是指按照关系型数据库的第三范式要求，是应该在同一个表的。）分...

2014-11-09 17:44:21 200

原创 mysql 分库分表

分表是分散数据库压力的好方法。分表，最直白的意思，就是将一个表结构分为多个表，然后，可以再同一个库里，也可以放到不同的库。当然，首先要知道什么情况下，才需要分表。个人觉得单表记录条数达到百万到千万级别时就要使用分表了。1，分表的分类1>纵向分表将本来可以在同一个表的内容，人为划分为多个表。（所谓的本来，是指按照关系型数据库的第三范式要求，是应该在同一个表的。）分表理由：根据...

2014-11-09 17:30:41 91

原创 oracle本地索引和全局索引区别

表可以按range，hash，list分区，表分区后，其上的索引和普通表上的索引有所不同，oracle对于分区表上的索引分为2类，即局部索引和全局索引，下面分别对这2种索引的特点和局限性做个总结。局部索引local index 1. 局部索引一定是分区索引，分区键等同于表的分区键，分区数等同于表的分区说，一句话，局部索引的分区机制和表的分区机制一样。 2. ...

2014-11-09 17:18:47 654

PMP经典试题整理

资源不错，想考pmp的建议下载，里面包含了出错率比较高的题

2012-11-03

ssh2权限管理源码项目

帮助初学者理解ssh权限开发。本人强力推荐

2011-06-24

实用Jquery特效

实用Jquery特效初学者最爱。强力推荐下载。