- 博客(18)
- 收藏
- 关注
原创 SQL应用随笔2——浅谈SQL性能优化_语法篇
在短短几年的数据分析师生涯中,个人的SQL代码能力经过了多轮的迭代,从简单查询简单聚合,到复杂嵌套查询及各种窗口函数,再到能写出兼顾性能和代码美观的数百行超长SQL,中间有一些心得,借此灵感系统性的写一篇关于SQL语法优化的文章。本文仅针对SQL查询语句展开,详写如何通过优化SQL查询语句来实现性能提升,以实现大数据量的查询,尽可能写得清晰,也能直接上手就用。
2023-11-09 21:26:38 105 1
原创 Python学习笔记9——基于iris数据集的决策树分类算法实战
本文以iris数据集为例,利用Python的决策树分类算法对鸢尾花进行分类实战,主要环节是数据预处理、模型训练及效果评估。预处理主要是对数据集进行拆分,得到训练数据和测试数据模型训练是利用拆分得到的训练集来训练模型;效果评估主要用到了准确率、精确率、召回率、F1值、混淆矩阵的指标,还用到了学习曲线进行过拟合、欠拟合评估,以及用到ROC曲线结合AUC值分析的方法。为了便于新手入门,大部分过程都写得比较细,希望能够对读者在学习和应用机器学习算法时有所帮助,若有不对的地方也请评论指正~
2023-06-03 19:16:51 2203 1
原创 Python应用随笔3——pyspark读写数据库
本文围绕Zeppelin中使用pyspark读写MySQL、PG(PostgreSQL)/GP(Greenplum)展开
2022-09-01 22:27:56 2004
原创 SQL应用随笔1——各环境sql函数/语法差异
本文以实际使用场景为例,对比sql语句在Spark、Hive、Impala、Postgre/Greenplum、MySQL中的异同
2021-12-17 18:06:02 1765
原创 ClickHouse应用随笔2——活跃用户留存统计(前方高能~~)
前言众所周知,产品数据监控体系中,用户留存是一个非常重要的指标,细化到业务场景中,留存其实可以拆解出来多个类别:包括新增用户留存、活跃用户留存、付费用户留存、回流用户留存、新增付费用户留存、回流付费用户留存等等,以下主要针对活跃用户留存设计ClickHouse查询语句。表结构及查询需求表结构timeuser_idJanuary 1, 2021, 08:33 AM112233abcJanuary 1, 2021, 09:00 AM221133bacJanuary 1
2021-04-04 22:45:38 4470 10
原创 ClickHouse应用随笔1——按两个非数值型字段分别去重查询
这里写自定义目录标题前言表结构及查询需求ClickHouse中的方法前言平时 SQL 用得少,最近刚好需要在 Metabase 上用与 SQL 差不多的 ClickHouse 语句搭数据仪表盘,于是遇到了以下问题,在查询时,需要按两个字段分别去重的查询,而非单纯的做联合去重,如先按字段 A 去重后,再查看 B 字段的非重复项数量(A 和 B 都是非数值型的)。如果是 SQL 语句,我们很容易能想到利用 ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COL
2021-03-31 16:06:31 1840 2
原创 利用Python下载并解压压缩文件
Python实战篇——利用Python下载并解压压缩文件前言应用背景工具包准备压缩文件下载压缩文件解压拓展总结前言挺久没整理自己的学习笔记了,今天就理一下如何通过Python下载并自动解压在线打包好的压缩包吧~应用背景公司的产品日志(log)是每天自动在服务器上打包好的,在当天能下载前一天的日志,在日常工作中的数据分析经常需要通过处理日志文件来产出结果。而在需要同时处理多个产品日志,且几乎每天都要到浏览器粘贴个链接来下载日志,还得到文件夹中手动解压……的情况下,让我越来越忍受不了这种又费时间又费精力
2020-11-16 00:39:26 3995 1
原创 简单粗暴的利用Python判断网页是否为404
在优化自己代码时想到了这个问题,百度了一下,发现了各种高大上的操作,唯一的缺点就是篇幅过长。灵光一闪,requests包读取网页成功时会返回参数“200”,读取失败时会返回“404”,那直接判断这个返回值不就完事了。。import requestsr = requests.get('url') # 输入相应链接if str(r) == '<Response [404]>': print('404 Not Found')要同时判断多个链接的话构建个简单for循环即可,当然这个简单粗.
2020-07-06 11:23:40 1709
原创 Python学习笔记8——Series与DataFrame中的层次化索引
目录前言数据准备DataFrame层次化索引总结前言层次化索引又叫多级索引,是指单个轴上的数据有两个或以上的索引。以二级索引为例,在Series中表现为一个元素由两个索引值共同确定;在DataFrame中表现为一个元素由两个行索引和两个列索引(即4个索引)共同确定。本文主要展示DataFrame中层次化索引的应用。数据准备DataFrame层次化索引总结...
2020-05-11 22:06:31 2041
原创 Python学习笔记7——数据清洗之多表合并
目录工具包准备纵向合并数据准备横向合并数据准备工具包准备纵向合并数据准备初始数据为包含3个工作簿的Excel工作表,3个工作簿的列标签都一致。横向合并数据准备...
2020-05-07 00:36:39 820
原创 Python学习笔记6——数据清洗之增删改查
目录数据准备增增加列增加行删删除行删除列改修改表元素修改列标签修改行标签查单条件查询多条件查询附录代码数据准备工具包导入及工作路径设置:数据导入:为了方便读者实操,这里附上原表:jingdian1.csv增增加列增加列的方法有多种,这里列举两种。增加“评级”列,level大于等于90的设为“高”,小于90设为“低”:上面的插入方法相当于先按给定条件创建了一个数组,再将数组插...
2020-05-05 11:08:00 565
原创 SQL学习笔记2——内、外连接查询
目录数据准备内连接外连接左外连接右外连接全外连接数据准备使用之前的一份爬虫获取的数据,分成了两个表并各自删除部分行做连接练习。使用jupyter notebook将Excel表导入到MySQL中,导入方法可以参考我写的这一篇:Python学习笔记5——MySQL数据库文件读写&保存这里简单摆出两个表的信息,t1表为10个景点简要信息,t2表包含一部分t1表景点详细信息,共100条记录...
2020-05-01 12:49:46 293
原创 Python学习笔记5——MySQL数据库文件读写&保存
目录环境准备安装 mysql-connector-python工具包导入数据库文件读写数据库文件保存环境准备安装 mysql-connector-python首先电脑得装有MySQL数据库,Python和MySQL数据库之间的连接要使用到 pymysql 或 mysql-connector-python 模块,两者用法相近。使用 pymysql 来连接MySQL会出现警告,故本文使用 my...
2020-04-29 13:10:41 1262
原创 Python学习笔记4——csv/excel文件读写&保存
工具包准备和设置检查相关工具包导入:默认路径检查:自定义路径:csv文件读写和保存这里用我之前爬虫获取到的数据做展示:这里省略了编码格式,默认编码为“utf-8”,可查看数据表详细信息,包括字段信息、内存使用情况等:若想读取前100行数据,也可以添加参数“nrows”,如下:根据需求还可以自行改变字段类型,这里简单展示:可以看到经纬度两个字段已经变成了字符串格式,...
2020-04-28 14:37:59 571
原创 Python学习笔记3——Pandas序列和数据框
序列Series相关方法Series函数说明通过列表创建Series通过字典创建Series通过一维数组创建Series访问和检查序列数据框Dataframe相关方法DataFrame函数说明通过列表创建DataFrame通过字典创建DataFrame通过二维数组创建DataFrame序列Series相关方法Series函数说明Pandas.Series(data,index,dtype,...
2020-04-27 15:07:10 920
原创 Python学习笔记2——Numpy数组的排序和搜索
函数说明sort函数sort函数能将数组中的数据从小到大进行排序argsort函数argsort函数会从小到大返回对应元素的索引值一维数组先构建一个一维数组 a(元素随机输入)用sort函数进行排序,默认升序需要降序排列的可以用下面方法利用argsort函数则可以返回数组a中元素从小到大排列的索引值二维数组构建一个二维数组 t(元素随机输入)使用sort函数进行排序,默认...
2020-04-26 16:20:07 836
原创 Python学习笔记1——Numpy数组构建&访问
创建数组普通一、二维数组 .array()迭代器 .arange()创建等差数组 .linspace()指定行列数生成0 .zeros()检查、访问数组创建数组普通一、二维数组 .array()迭代器 .arange()普通环境可以通过for循环构建迭代器,如下:使用numpy的话就是:三个参数中前两个参数为范围(前闭后开区间),第三个参数为步长,如上的1.5代表在区间内每间隔1...
2020-04-25 16:21:07 405
原创 SQL学习笔记1——表结构转换查询
1、纵表转横表建表--先调用自建的数据库再建表use ljhcreate table sc(sname char(20),course char(20),score int)--随机插入几个记录insert into scvalues('张三','语文',98),('张三','数学',89),('张三','英语',91),('李四','语文',88),('李四','数学...
2020-04-24 11:14:40 377
【202012】中国音数协游戏工委&中国游戏产业研究院年中国游戏产业报告_36页.pdf
2023-11-16
【202009】游戏类别洞察报告:读懂受众,做更好的手游-facebook_88页.pdf
2023-11-16
【202009】巨量算数&OHAYOO-小创意 大世界——休闲游戏开发者指南_47页.pdf
2023-11-16
【202009】J.P. 摩根-全球-游戏行业-游戏行业更新:与媒体和互联网的触摸_29页.pdf
2023-11-16
【201910】上海新闻出版局年上海电子竞技产业发展评估报告(摘要版PDF)_24页.pdf
2023-11-16
【201911】GameSkyfall-Facebook小游戏年中报告(英文)_35页.pdf
2023-11-16
【20211111】月酝知风之电子信息行业:数字化转型提速,SaaS行业发展加快-平安证券_19页.pdf
2023-11-22
【20221128】中国计算机和软件行业:核心电商SaaS企业,高盈利水平展现高竞争力-海通国际_26页.pdf
2023-11-22
【20201019】科技行业先锋系列报150:中国有赞,全渠道全场景电商SaaS龙头-中信证券_26页.pdf
2023-11-22
【20200821】科技行业全球SaaS云计算系列报告25:从亚马逊AWS看中国IaaS云计算巨头的投资价值-中信证券_24页
2023-11-22
【20200922】科技行业云计算和数据产业链系列报告31:BIGC,开放型电商SaaS服务商,大客驱动成长-中信证券_20页
2023-11-22
【20200429】互联网行业专题研究:微信等巨头发力商业生态,第三方SaaS服务商受益-广发证券_33页.pdf
2023-11-22
【20190705】计算机行业科创板系列二十五:光云科技,阿里系电商SaaS龙头-天风证券_14页.pdf
2023-11-22
【20200430】计算机行业一张图系列:光云科技,电商SaaS新军-中信证券_47页.pdf
2023-11-22
【202212】Mob研究院年中国企业级SaaS系列研究报告(数字营销篇)_31页.pdf
2023-11-22
【202212】2022年企业级SaaS数字化营销获客白皮书-MobTech袤博&天眼查&卫瓴科技出品_48页.pdf
2023-11-22
【20210423】游戏行业专题:融合式创新与垂类赛道突围机遇,出海在“场域、方式、主体”三维度完成提升-广发证券_86页
2023-11-16
【20210331】游戏行业深度报告:在科技与流量变迁中演进的游戏行业-太平洋证券_53页.pdf
2023-11-16
【20200914】瑞信-亚太地区-互联网服务业-中国网络游戏行业:四大趋势继续推动增长_34页.pdf
2023-11-16
【20191118】瑞信-亚太地区-投资策略-马来西亚市场策略:潜在的游戏改变者_44页.pdf
2023-11-16
【20191021】巴克莱-美股-互联网行业-美国互联网:游戏的未来是现在_80页.pdf
2023-11-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人