就想叫筷子
码龄6年
关注
提问 私信
  • 博客:61,469
    61,469
    总访问量
  • 26
    原创
  • 824,572
    排名
  • 10
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:新西兰
  • 加入CSDN时间: 2018-12-09
博客简介:

筷子的博客

查看详细资料
个人成就
  • 获得15次点赞
  • 内容获得13次评论
  • 获得73次收藏
创作历程
  • 3篇
    2020年
  • 27篇
    2019年
  • 3篇
    2018年
成就勋章
TA的专栏
  • python
    1篇
  • Oracle优化
    9篇
  • JAVA基础
  • Hadoop
    12篇
  • Oracle基础
    11篇
  • Hive
    7篇
  • spark
    2篇
  • 数据仓库
    3篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

oracle 管道表(pipelined table)函数与普通表函数简单对比

看资料说管道表函数在返回结果时不是一次性返回全部结果,因此对于某些对响应比较看重的报表程序而言比较友好。而普通表函数要在所有结果都到齐后才一次性返回结果。下面就做一个实验来验证:首先创建一个自定义的集合类型create type test_obj as object(id number,name varchar2(10));用自定义的集合类型创建一个table类型creat...
原创
发布博客 2020.03.14 ·
869 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

Erwin利用name mapping配置实现物理模型指定列格式

需求背景,要用给定的词根表将逻辑模型从中文翻译成物理模型的英文,方便后续的建表。物理模型的列格式要求是 A_B_C,因此需要利用erwin的 tools-names-model naming options-name mapping来生成指定的格式erwin版本 7.3.11需要设置两个属性Entity to Table : %Decl(test,_)%=(test,%Look...
原创
发布博客 2020.03.09 ·
941 阅读 ·
0 点赞 ·
3 评论 ·
2 收藏

python的yield、标准输入输出的使用练习

需求背景是将一个test.txt文档内容转化为html文件需要用到sys.argv,yield,re.sub,标准输入输出用法test.txt内容 Welcome to World Wide Spam, Inc.These are the corporate web pages of *World Wide Spam*, Inc. We hopeyou find your sta...
原创
发布博客 2020.03.09 ·
469 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Oracle中关于8k表空间与16k表空间IO性能对比

Oracle中,当执行FTS时,会触发多块读。而在这个情况下,如果单个oracle块越大装载的数据就越多。由此,对比一下8k与16k的性能差别。--设置db_16k_cache_sizealter system set db_16k_cache_size=100M;--创建16k表空间create tablespace tb1 datafile'/u01/app/oracle/...
原创
发布博客 2019.06.19 ·
1622 阅读 ·
1 点赞 ·
1 评论 ·
0 收藏

hive中与oracle一些看上去类似但结果不同的写法总结

1、hive中的date_format与oracle的to_date两个函数都用来将给定字符串转换成指定格式,date_format最终转换成字符串,to_date转成日期。另外to_date中用来指定转换格式的模板yyyymmdd,大写小均可以得到的结果也是一致的select to_date('2019-01-01','yyyy-mm-dd'), to_date('2019-01-01',...
原创
发布博客 2019.04.22 ·
2421 阅读 ·
1 点赞 ·
1 评论 ·
10 收藏

将collect_set改成既排重又排序

collect_set无法满足业务需要,只排重不排序。为了实现又排重又排序,重写了collect_set的底层源码。其实就是把底层的LinkHashSet改成TreeSet。涉及到的类org.apache.hadoop.hive.ql.udf.generic.GenericUDAFCollectSet;org.apache.hadoop.hive.ql.udf.generic.Generi...
原创
发布博客 2019.04.16 ·
6464 阅读 ·
1 点赞 ·
2 评论 ·
6 收藏

hive中关于cube的使用

在hive中也可以使用cube或者roll up的语法示例select rang_age,PRODUCT_TYPE_CH,y,count(*),grouping__idfrom temp_1 twhere t.validate_date_rank=1and PRODUCT_TYPE_CH='意外伤害保险'and rang_age='20-30岁'group by ran...
原创
发布博客 2019.03.25 ·
6005 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

hive SMB join 验证实验

关于hive的SMB join 有一些成立的前提条件首先: 两张表是分桶的,在创建表的时候需要指定:CREATETABLE(……) CLUSTERED BY (col_1) SORTED BY (col_1) INTO buckets_Nums BUCKETS其次:两张表分桶的列必须是JOIN KEY最后:需要设置一些bucket相关的参数set hive.auto.conve...
原创
发布博客 2019.03.12 ·
3501 阅读 ·
1 点赞 ·
0 评论 ·
12 收藏

查看mapreduce程序每个 map task 或者 reduce task 执行时间

 以hadoop2.7.5为例有一个mapreduce.jobhistory.webapp.address参数,这个参数配置在 mapred-site.xml文件中<property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop02:19888</va...
原创
发布博客 2019.02.21 ·
3545 阅读 ·
0 点赞 ·
0 评论 ·
5 收藏

数据仓库系统的数据质量如何保证-简略总结

主要验证的是 完整性,准确性,唯一性,有效性,一致性,时间性      Ods层主要考察完整、有效、时间性     DW层主要考察完整、一致、有效、准确     App层主要考察准确性  问题反映流程     数据核查人员-数据清洗人员-数据开发人员-修复、测试、上线-添加至数据问题库-数据核查人员 数据治理三阶段     被动问题治理阶段     主动...
原创
发布博客 2019.02.17 ·
5694 阅读 ·
2 点赞 ·
0 评论 ·
10 收藏

Spark on Yarn 搭建及填坑过程

准备 hadoop-2.7.5 spark-2.0.0 scala-2.11.8.tar(Linux环境spark运行所需)及scala-2.11.8.msi(win开发环境所需)这两个要一致 搭建(由于是在个人电脑上作为练习,因此涉及内存大小的地方要根据电脑内存合理设置) hadoop搭建(略) 这块按照其他搭建过程能运行起来就行,下边几个参数需要添加到yarn-site.xm...
原创
发布博客 2019.02.15 ·
216 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive的Transform功能(转载)

Hive的TRANSFORM关键字提供了在SQL中调用自写脚本的功能,适合实现Hive中没有的功能又不想写UDF的情况。例如,按日期统计每天出现的uid数,通常用如下的SQLSELECT date, count(uid)FROM xxxGROUP BY date但是,如果我想在reduce阶段对每天的uid形成一个列表,进行排序并输出,这在Hive中没有现成的功能。那么,可以自写脚本...
转载
发布博客 2019.02.12 ·
3362 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

dfs.datanode.data.dir(2.x)/dfs.data.dir(1.x)的作用

 从官网找到这么一段Determines where on the local filesystem an DFS data node should store its blocks. If this is a comma-delimited list of directories, then data will be stored in all named directories, t...
原创
发布博客 2019.01.29 ·
1029 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

TaskTracker/ApplacationMaster在配置有多个 mapred.local.dir/yarn.nodemanager.local-dirs时的选择策略

Task 在运行的过程中中间结果是需要写本地文件 系 统 的,hadoop中就有配置选项 mapred.local.dir(1.X)/yarn.nodemanager.local-dirs (2.X)来配置这个本地文件的写入点,可以有多个写入点,通常如果每个slave上有多个磁 盘 ,分别挂载在 /disk{1..3}  的话,就可以将之配置为:<property>  <na...
原创
发布博客 2019.01.29 ·
592 阅读 ·
0 点赞 ·
4 评论 ·
0 收藏

转载MapReduce: 提高MapReduce性能的七点建议

Cloudera提供给客户的服务内容之一就是调整和优化MapReduce job执行性能。MapReduce和HDFS组成一个复杂的分布式系统,并且它们运行着各式各样用户的代码,这样导致没有一个快速有效的规则来实现优化代码性能的目的。在我看来,调整cluster或job的运行更像一个医生对待病人一样,找出关键的“症状”,对于不同的症状有不同的诊断和处理方式。         在医学领域,没有什么...
转载
发布博客 2019.01.29 ·
197 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

转载:HDFS参数配置

配置项 优化原理 推荐值 dfs.namenode.handler.count NameNode中用于处理RPC调用的线程数,默认为10。对于较大的集群和配置较好的服务器,可适当增加这个数值来提升NameNode RPC服务的并发度。 64 dfs.datanod...
转载
发布博客 2019.01.29 ·
660 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hive on Spark 互相匹配的版本对照表

Hive Version Spark Version 3.0.x 2.3.0 2.3.x 2.0.0 2.2.x 1.6.0 2.1.x 1.6.0 2.0.x 1.5.0 1.2.x 1.3.1 1.1.x 1.2.0
转载
发布博客 2019.01.22 ·
5800 阅读 ·
1 点赞 ·
0 评论 ·
6 收藏

Hive开窗

练习的时候发现hive也支持开窗函数三个字段的意思:用户名,月份,访问次数 A,2015-01,5A,2015-01,15B,2015-01,5A,2015-01,8B,2015-01,25A,2015-01,5A,2015-02,4A,2015-02,6B,2015-02,10B,2015-02,5A,2015-03,16A,2015-03,22B,2015-0...
原创
发布博客 2019.01.18 ·
215 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Mapper读取多行的思路

map方法默认是一行一行读取文件数据,如果想要改写成一次读多行,自定义思路如下TextInputFormat–》LineRecordReader–》SplitLineReader–》LineReader 转自:https://blog.csdn.net/tanggao1314/article/details/51307642...
转载
发布博客 2019.01.17 ·
578 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Mapper的四个方法

(1) protected void setup(Context context)一般用来加载一些初始化的工作,每个job执行一次protected void setup(Context context) throws IOException,InterruptedException { blacklist=new TreeSet<String>();...
原创
发布博客 2019.01.17 ·
2573 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多