自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 anaconda的重装

(38条消息) anaconda安装-超详细版_plasma-deeplearning的博客-CSDN博客_anaconda安装(38条消息) Anaconda的重装与卸载(完全清数据的那种),以及更改环境配置_hellopbc的博客-CSDN博客_重装anaconda(38条消息) 如何彻底卸载Anaconda?_Lord_Bao的博客-CSDN博客_卸载anaconda...

2022-04-06 20:58:16 6725

原创 sql优化方法

1,注意检查Hive表的分区字段,并尽量多地使用2,注明需要使用的列,而不是直接用 * 来获取所有列3,尽量提前做过滤,减少后续处理的数据量4,过滤条件写到子查询中,不要在外部写一个整体的大where条件5,关注字段类型虽然存在数据类型自动转换,但可能有坑。如date分区,大部分日期分区是字符串类型,不要吝啬引号:date='20190923'6,注意别名使用sql复杂时子查询别名要详尽有区分度不要使用关键词作为别名,如inner,outer,join等别名不要重复,可能

2021-09-23 16:38:54 118

原创 数仓知识总结

1.OLTP和OLAP的区别联机事务处理OLTP(on-line transaction processing) 主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。OLTP的特点一般有:1.实时性要求高。我记得之前上大学的时候,银行异地汇款,要隔天才能到账,而现在是分分钟到账的节奏,说明现在银行的实时处理能力大大增强。2.数据量不是很大,生产库上的数据量一般不会太大,而且会及时做相应的数据处理与转移。3.交易一般是确定的,比如银行存取款的金额肯

2021-09-02 17:03:19 211

原创 行列转换问题

Hive典型应用场景之行列转换_zryowen123的博客-CSDN博客

2021-08-29 00:08:56 275

原创 概率统计智商题

2021-08-26 21:43:14 751

原创 面试题总结

1.给定一个包含非负整数的数组,你的任务是统计其中可以组成三角形三条边的三元组个数。示例 1:输入: [2,2,3,4]输出: 3解释:有效的组合是:2,3,4 (使用第一个 2)2,3,4 (使用第二个 2)2,2,32.table xcol: num(bigint)求中位数3.小明喜欢打王者荣耀,每一局胜率固定是50%,如果连赢两局就不玩了,如果没有连赢两局,就一直玩直到连赢两局。求玩的局数的期望 E4.有25匹马,速度都不同,但每匹马的速度都是定值。现.

2021-08-23 19:28:03 101

原创 sql问题

1.coalesce,nvlcoalesce(expression_1, expression_2, ...,expression_n)依次参考各参数表达式,遇到非null值即停止并返回该值。如果所有的表达式都是空值,最终将返回一个空值。nvl(expr1,expr2)2.split,substrsplit('abcdef', 'c') 结果:["ab", "def"]split('abcdef', 'c')[0] 结果:absubstr(string,...

2021-08-23 17:42:21 157

原创 笔试题总结

1.卡特兰数https://zhuanlan.zhihu.com/p/9761908n 个元素进栈序列为:1,2,3,4,...,n,则有多少种出栈序列。因此,合法的出栈序列的数量为3.关于精准率,召回率,f1-score,准确率,roc曲线,aucTPR真阳性率:真实正例中被预测对了的比率,FPR假阳性率:真实负例中被错误的预测成为了正例的比率4.两个随机变量x,y,服从联合概率分布p(x,y), 以下等式成立的有5.线性判别分析LDA是监督模型。6.统计网...

2021-08-21 00:18:47 123

原创 连续登陆问题

题目:有一张用户签到表【temp】,标记每天用户是否签到(说明:该表包含所有用户所有工作日的出勤记录) ,包含三个字段:日期【date】,用户id【uid】,用户当天是否签到【sign:0否1是】问题1:请计算截至当前每个用户已经连续签到的天数思路:计算最近一次未签到的日期,再用当前日期减去那个日期select uid, datediff('2020-10-01',day_max) as day_cntfrom( select uid,

2021-08-03 16:47:39 110

原创 聚类算法总结

2021-08-02 19:24:52 291

原创 计算某日新增用户,及其次日、3日、3日内的留存率

计算某日新增用户,及其次日、3日、7日的留存率user_id用户event_time时间login表名select count(user_id) as '新增用户',count(l1.user_id)/count(t.user_id) as '次日留存',count(l2.user_id)/count(t.user_id) as '3日留存',count(l3.user_id)/count(t.user_id) as '7日留存'from(select user_id, ...

2020-11-22 12:11:24 1363 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除