flicker_ever-CSDN博客

原创 PostgreSQL Join更新操作

需求：主表中部分责任人名字是工号，需要join员工表，把主表中工号更新为人名update mian_table as a set responsible_person = b.employee_name from dim_pub_employee as b where a.responsible_person = b.employee_num and a.responsible_person like '10%'注意：set后面的主表字段不要加别名...

2021-12-22 15:59:13 647 1

原创 Hive return code 1 from org.apache.hadoop.hive.ql.exec.mr.MapredLocalTask一种解决办法

尝试在sql执行前加配置参数，以下几种配置参数考虑选择set hive.auto.convert.join=false;set hive.ignore.mapjoin.hint=false;set hive.vectorized.execution.enabled = false;补充一下hive jvm exceeded的一些问题：设置以下参数set hive.map.aggr=false;因为key分布均匀的话，使用此参数可能会导致hive OOM。...

2021-12-17 14:09:34 1180

原创 SQL实现自定义周

需求业务要求把周五到周四算一周，跨年周按照年截断，各自为独立的一周思路找出日期所在的1月1日那天为星期几，记录为变量a由于周五到周四算一周，所以用7减去5，得到2偏移量offset = ( a + 2 ) % 7要计算的 wk = ( (date - 当年元旦) + offset ) / 7 + 1PostgreSQL如下left(biz_date,4)||'WK'||right('0'||((extract(doy from biz_date::date) - 1 + (3 + ex

2021-11-25 11:50:19 1640

原创 Hive Error in configuring object Caused by: java.lang.reflect.InvocationTargetException

报错日志在一次Hive任务中出现报错，查看yarn日志如下，由于网上没有搜到解决办法，所以自己在官方issue中找到解决办法并记录下2021-07-31 14:23:11,467 WARN [main] org.apache.hadoop.mapred.YarnChild: Exception running child : java.lang.RuntimeException: Error in configuring object at org.apache.hadoop.util.Reflect

2021-08-13 10:38:26 1614

原创 PostgreSQL与前端交互，创建函数返回表

需求：由于要求PostgreSQL表内的数据需要根据前端传递的参数过滤后再聚合出结果，考虑到前端工作量，所以决定由前端传递过滤条件，后端创建存储过程来直接返回计算后的表，因为PG9.5没有存储过程功能，故用函数来代替；目标：这里就不说公司真实的需求了，就计算一个产品达标率吧，要求分别按照客户、产品、年月周日维度计算一次注意点有时候前端传的参数只有开始日期和结束日期（这两个必传），其他参数不传，这时候要把不传的参数从wehre条件中去除掉有时候一个参数会传递多个值，比如产品参数会传产品1、产品2…传

2021-03-24 15:51:50 594

原创 HDFS循环创建文件夹

需求：要求连续建立60个分区文件夹，如果原本就存在该文件夹就跳过，不存在就建立#!/bin/bashdate1=$(date -d '-1 day' '+%Y%m%d')for((i=0;i<=59;i++));do ds=`date -d "-$i day $date1" +%Y%m%d` hadoop fs -test -e /user/hive/warehouse/table_name/ds=$ds if [ $? -eq 1 ] ; then hadoo

2021-03-24 15:05:52 297

原创 Hive Output column number expected to be 0 when isRepeating

报错日志：日志上的报错为return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask遇见这个报错就表示需要进yarn看log了yarn日志：yarn日志报错为Output column number expected to be 0 when isRepeating查询hive的官方jira，有对此报错的临时解决方案：set hive.vectorized.execution.enabled = false;注意，设置会导致h

2020-11-26 16:18:44 2601 1

原创数据中台的产生原因及概述

数据中台的产生原因及概述中台概念来源于阿里(提出"大中台,小前台"的概念)，其产生的核心思想是“共享”和“复用”。产生原因随着企业业务的不断发展，公司内部积累了大量的业务数据，而企业缺乏治理这些数据资产的有效手段。由于企业的业务系统众多，数据存储分散，大量的业务数据都分散在各个部门中，部门间信息不互通，数据不共享，仅仅在有业务需求的场景中才会产生部分的数据共享，难以对全局的数据实现挖掘分析。企业掌握的大量数据难以实现其真正的价值，在如今的大数据时代，各个业务部门的数据应当打通并结合外部数据实现整体的

2020-07-22 13:43:54 1275

原创 object apache is not a member of package org

报错信息idea版本：2020.1.1maven版本：3.6.3思考我的maven仓库配置正确，仓库中也有对应的spark的资源，鉴于本人的idea版本和maven版本都比较新，怀疑是maven有问题；初步决定先把maven降版本使用，如果还不行就重装idea；解决现用的maven 3.6.3停用，由于本人之前使用3.6.0版本也出过问题，所以最后选用maven 3.6.2，运行程序，报错消失注意修改maven环境变量，如果降maven版本还不行的话，可以考虑重新安装idea...

2020-06-03 09:47:12 1841 1

原创 Error:scalac: Scala compiler JARs not found

报错信息问题本人设置的maven仓库地址在D盘，这里IDE自动的去maven默认的仓库地址去找jar包了由于本人是新装的IDE和maven，在写完代码后再去欢迎使用Markdown编辑器你好！这是你第一次使用 Markdown编辑器所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你

2020-06-03 09:28:59 5847

weixin_46784562的博客