oracle 管道表(pipelined table)函数与普通表函数简单对比 看资料说管道表函数在返回结果时不是一次性返回全部结果,因此对于某些对响应比较看重的报表程序而言比较友好。而普通表函数要在所有结果都到齐后才一次性返回结果。下面就做一个实验来验证:首先创建一个自定义的集合类型create type test_obj as object(id number,name varchar2(10));用自定义的集合类型创建一个table类型creat...
Erwin利用name mapping配置实现物理模型指定列格式 需求背景,要用给定的词根表将逻辑模型从中文翻译成物理模型的英文,方便后续的建表。物理模型的列格式要求是 A_B_C,因此需要利用erwin的 tools-names-model naming options-name mapping来生成指定的格式erwin版本 7.3.11需要设置两个属性Entity to Table : %Decl(test,_)%=(test,%Look...
python的yield、标准输入输出的使用练习 需求背景是将一个test.txt文档内容转化为html文件需要用到sys.argv,yield,re.sub,标准输入输出用法test.txt内容 Welcome to World Wide Spam, Inc.These are the corporate web pages of *World Wide Spam*, Inc. We hopeyou find your sta...
Oracle中关于8k表空间与16k表空间IO性能对比 Oracle中,当执行FTS时,会触发多块读。而在这个情况下,如果单个oracle块越大装载的数据就越多。由此,对比一下8k与16k的性能差别。--设置db_16k_cache_sizealter system set db_16k_cache_size=100M;--创建16k表空间create tablespace tb1 datafile'/u01/app/oracle/...
hive中与oracle一些看上去类似但结果不同的写法总结 1、hive中的date_format与oracle的to_date两个函数都用来将给定字符串转换成指定格式,date_format最终转换成字符串,to_date转成日期。另外to_date中用来指定转换格式的模板yyyymmdd,大写小均可以得到的结果也是一致的select to_date('2019-01-01','yyyy-mm-dd'), to_date('2019-01-01',...
将collect_set改成既排重又排序 collect_set无法满足业务需要,只排重不排序。为了实现又排重又排序,重写了collect_set的底层源码。其实就是把底层的LinkHashSet改成TreeSet。涉及到的类org.apache.hadoop.hive.ql.udf.generic.GenericUDAFCollectSet;org.apache.hadoop.hive.ql.udf.generic.Generi...
hive中关于cube的使用 在hive中也可以使用cube或者roll up的语法示例select rang_age,PRODUCT_TYPE_CH,y,count(*),grouping__idfrom temp_1 twhere t.validate_date_rank=1and PRODUCT_TYPE_CH='意外伤害保险'and rang_age='20-30岁'group by ran...
hive SMB join 验证实验 关于hive的SMB join 有一些成立的前提条件首先: 两张表是分桶的,在创建表的时候需要指定:CREATETABLE(……) CLUSTERED BY (col_1) SORTED BY (col_1) INTO buckets_Nums BUCKETS其次:两张表分桶的列必须是JOIN KEY最后:需要设置一些bucket相关的参数set hive.auto.conve...
查看mapreduce程序每个 map task 或者 reduce task 执行时间 以hadoop2.7.5为例有一个mapreduce.jobhistory.webapp.address参数,这个参数配置在 mapred-site.xml文件中<property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop02:19888</va...
数据仓库系统的数据质量如何保证-简略总结 主要验证的是 完整性,准确性,唯一性,有效性,一致性,时间性 Ods层主要考察完整、有效、时间性 DW层主要考察完整、一致、有效、准确 App层主要考察准确性 问题反映流程 数据核查人员-数据清洗人员-数据开发人员-修复、测试、上线-添加至数据问题库-数据核查人员 数据治理三阶段 被动问题治理阶段 主动...
Spark on Yarn 搭建及填坑过程 准备 hadoop-2.7.5 spark-2.0.0 scala-2.11.8.tar(Linux环境spark运行所需)及scala-2.11.8.msi(win开发环境所需)这两个要一致 搭建(由于是在个人电脑上作为练习,因此涉及内存大小的地方要根据电脑内存合理设置) hadoop搭建(略) 这块按照其他搭建过程能运行起来就行,下边几个参数需要添加到yarn-site.xm...
Hive的Transform功能(转载) Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的uid数,通常用如下的SQLSELECT date, count(uid)FROM xxxGROUP BY date但是,如果我想在reduce阶段对每天的uid形成一个列表,进行排序并输出,这在Hive中没有现成的功能。那么,可以自写脚本...
dfs.datanode.data.dir(2.x)/dfs.data.dir(1.x)的作用 从官网找到这么一段Determines where on the local filesystem an DFS data node should store its blocks. If this is a comma-delimited list of directories, then data will be stored in all named directories, t...
TaskTracker/ApplacationMaster在配置有多个 mapred.local.dir/yarn.nodemanager.local-dirs时的选择策略 Task 在运行的过程中中间结果是需要写本地文件 系 统 的,hadoop中就有配置选项 mapred.local.dir(1.X)/yarn.nodemanager.local-dirs (2.X)来配置这个本地文件的写入点,可以有多个写入点,通常如果每个slave上有多个磁 盘 ,分别挂载在 /disk{1..3} 的话,就可以将之配置为:<property> <na...
转载MapReduce: 提高MapReduce性能的七点建议 Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。 在医学领域,没有什么...
转载:HDFS参数配置 配置项 优化原理 推荐值 dfs.namenode.handler.count NameNode中用于处理RPC调用的线程数,默认为10。对于较大的集群和配置较好的服务器,可适当增加这个数值来提升NameNode RPC服务的并发度。 64 dfs.datanod...
Hive on Spark 互相匹配的版本对照表 Hive Version Spark Version 3.0.x 2.3.0 2.3.x 2.0.0 2.2.x 1.6.0 2.1.x 1.6.0 2.0.x 1.5.0 1.2.x 1.3.1 1.1.x 1.2.0
Hive开窗 练习的时候发现hive也支持开窗函数三个字段的意思:用户名,月份,访问次数 A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-0...
Mapper读取多行的思路 map方法默认是一行一行读取文件数据,如果想要改写成一次读多行,自定义思路如下TextInputFormat–》LineRecordReader–》SplitLineReader–》LineReader 转自:https://blog.csdn.net/tanggao1314/article/details/51307642...
Mapper的四个方法 (1) protected void setup(Context context)一般用来加载一些初始化的工作,每个job执行一次protected void setup(Context context) throws IOException,InterruptedException { blacklist=new TreeSet<String>();...