自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 问答 (1)
  • 收藏
  • 关注

原创 学习笔记—sql中常用的连接方式-left join、left anti join、inner join

sql中常用的连接方式1、left joinleft join 是sql 中使用频率最高的一种连接方式,但是也是比较容易出错的一种连接方式,最常见的出错方式便是因为关联条件出现多对多产生笛卡尔积,此外使用left join原则上并不会导致主表查询数据量缺失,但是如果在最后where条件中加入了join表后的一些字段和条件,就会导致主表数据缺失(此种在where里面加入join后限制条件的方式则等同于inner join)。select a.district_2, b.

2020-12-13 21:49:59 29338

原创 记录Maven导入scala插件scala-maven-plugin报错java.rmi.ServerException: RemoteException occurred in server解决方案

第一:将jdk版本从1.8改为JDK17:但这个办法一般可能很多人不愿意用,因为目前企业级项目多数还是用1.8开发;

2024-06-14 00:25:30 367 4

原创 pandas中DataFrame常见操作

pandas中常见操作,过滤、分组聚合

2022-11-01 00:32:37 650 1

原创 hive-Fetch抓取

hive中fetch抓取模式的概念设置及三种模式的区别

2022-05-01 18:55:33 1689

原创 hive-本地模式设置

前言当在hive上提交mapreduce任务时,常见的管理引擎有yarn与local,默认使用集群模式yarn进行执行。当执行任务计算的文件大小与文件数相对较小时,可以开启本地模式进行执行,效率相对集群模式会更高。查看当前hive的本地模式情况查看本地模式是否开启:set hive.exec.mode.local.auto;查看启用本地模式允许的最大输入文件数:set hive.exec.mode.local.auto.input.files.max;查看启用本地模式允许的最大文件大小:set

2022-05-01 18:21:53 4387 1

原创 sql常见面试题目积累

1、求用户连续登陆最大天数select a.device_id, max(cnt)from( select device_id, date_new, count(1) as cnt from( select a.device_id,

2021-04-07 10:05:42 146

原创 学习笔记—sql中如何使用短代码进行多维度聚合-不用union all

1、场景描述在进行多维度的数据查询时,有时候需要将维度按较细的颗粒度拆分,同时也需要按照较粗的颗粒度聚合,比如我们查询分城市的dau,同时也想知道所有城市的dau,通常来说多数人会这么写:select city_name, count(distinct uid) as daufrom xgchen_dw.dws_xgc_app_uid_topicwhere dp = '2021-04-05'group by

2021-04-07 09:51:46 727

原创 学习笔记—使用python画帕累托分布图

##模块导入import numpy as np import pandas as pdimport matplotlib.pyplot as pltplt.rcParams["font.family"] = 'Arial Unicode MS'##防止在matplotlib中中文不显示##数据准备df = pd.read_csv('/Users/chenxiaogang/Desktop/data.csv',encoding = 'gb2312')data = pd.Series(df['s

2021-03-20 16:59:18 2635 2

原创 学记笔记—sql中基础函数的使用

1、时间函数--当前系统时间:2020-12-13 22:21:43select getdate();--2020-12-13 22:21:43select substr(getdate(),1,10);--2020-12-13select dateadd(getdate(),10,'dd');--2020-12-23 22:39:02 加10天select dateadd(getdate(),-10,'dd');--2020-12-03 22:40:18 减10天select datedif

2020-12-13 23:28:11 242

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除