- 博客(20)
- 收藏
- 关注
原创 Python学习笔记9——基于iris数据集的决策树分类算法实战
本文以iris数据集为例,利用Python的决策树分类算法对鸢尾花进行分类实战,主要环节是数据预处理、模型训练及效果评估。预处理主要是对数据集进行拆分,得到训练数据和测试数据模型训练是利用拆分得到的训练集来训练模型;效果评估主要用到了准确率、精确率、召回率、F1值、混淆矩阵的指标,还用到了学习曲线进行过拟合、欠拟合评估,以及用到ROC曲线结合AUC值分析的方法。为了便于新手入门,大部分过程都写得比较细,希望能够对读者在学习和应用机器学习算法时有所帮助,若有不对的地方也请评论指正~
2023-06-03 19:16:51 5290 3
原创 SQL应用随笔2——浅谈SQL性能优化_语法篇
在短短几年的数据分析师生涯中,个人的SQL代码能力经过了多轮的迭代,从简单查询简单聚合,到复杂嵌套查询及各种窗口函数,再到能写出兼顾性能和代码美观的数百行超长SQL,中间有一些心得,借此灵感系统性的写一篇关于SQL语法优化的文章。本文仅针对SQL查询语句展开,详写如何通过优化SQL查询语句来实现性能提升,以实现大数据量的查询,尽可能写得清晰,也能直接上手就用。
2023-11-09 21:26:38 178 1
原创 Python应用随笔3——pyspark读写数据库
本文围绕Zeppelin中使用pyspark读写MySQL、PG(PostgreSQL)/GP(Greenplum)展开
2022-09-01 22:27:56 2263
原创 SQL应用随笔1——各环境sql函数/语法差异
本文以实际使用场景为例,对比sql语句在Spark、Hive、Impala、Postgre/Greenplum、MySQL中的异同
2021-12-17 18:06:02 1866
原创 ClickHouse应用随笔2——活跃用户留存统计(前方高能~~)
前言众所周知,产品数据监控体系中,用户留存是一个非常重要的指标,细化到业务场景中,留存其实可以拆解出来多个类别:包括新增用户留存、活跃用户留存、付费用户留存、回流用户留存、新增付费用户留存、回流付费用户留存等等,以下主要针对活跃用户留存设计ClickHouse查询语句。表结构及查询需求表结构timeuser_idJanuary 1, 2021, 08:33 AM112233abcJanuary 1, 2021, 09:00 AM221133bacJanuary 1
2021-04-04 22:45:38 4703 10
原创 ClickHouse应用随笔1——按两个非数值型字段分别去重查询
这里写自定义目录标题前言表结构及查询需求ClickHouse中的方法前言平时 SQL 用得少,最近刚好需要在 Metabase 上用与 SQL 差不多的 ClickHouse 语句搭数据仪表盘,于是遇到了以下问题,在查询时,需要按两个字段分别去重的查询,而非单纯的做联合去重,如先按字段 A 去重后,再查看 B 字段的非重复项数量(A 和 B 都是非数值型的)。如果是 SQL 语句,我们很容易能想到利用 ROW_NUMBER() OVER(PARTITION BY COLUMN ORDER BY COL
2021-03-31 16:06:31 1978 2
原创 利用Python下载并解压压缩文件
Python实战篇——利用Python下载并解压压缩文件前言应用背景工具包准备压缩文件下载压缩文件解压拓展总结前言挺久没整理自己的学习笔记了,今天就理一下如何通过Python下载并自动解压在线打包好的压缩包吧~应用背景公司的产品日志(log)是每天自动在服务器上打包好的,在当天能下载前一天的日志,在日常工作中的数据分析经常需要通过处理日志文件来产出结果。而在需要同时处理多个产品日志,且几乎每天都要到浏览器粘贴个链接来下载日志,还得到文件夹中手动解压……的情况下,让我越来越忍受不了这种又费时间又费精力
2020-11-16 00:39:26 4465 1
原创 简单粗暴的利用Python判断网页是否为404
在优化自己代码时想到了这个问题,百度了一下,发现了各种高大上的操作,唯一的缺点就是篇幅过长。灵光一闪,requests包读取网页成功时会返回参数“200”,读取失败时会返回“404”,那直接判断这个返回值不就完事了。。import requestsr = requests.get('url') # 输入相应链接if str(r) == '<Response [404]>': print('404 Not Found')要同时判断多个链接的话构建个简单for循环即可,当然这个简单粗.
2020-07-06 11:23:40 1791
原创 Python学习笔记8——Series与DataFrame中的层次化索引
目录前言数据准备DataFrame层次化索引总结前言层次化索引又叫多级索引,是指单个轴上的数据有两个或以上的索引。以二级索引为例,在Series中表现为一个元素由两个索引值共同确定;在DataFrame中表现为一个元素由两个行索引和两个列索引(即4个索引)共同确定。本文主要展示DataFrame中层次化索引的应用。数据准备DataFrame层次化索引总结...
2020-05-11 22:06:31 2351
原创 Python学习笔记7——数据清洗之多表合并
目录工具包准备纵向合并数据准备横向合并数据准备工具包准备纵向合并数据准备初始数据为包含3个工作簿的Excel工作表,3个工作簿的列标签都一致。横向合并数据准备...
2020-05-07 00:36:39 979
原创 Python学习笔记6——数据清洗之增删改查
目录数据准备增增加列增加行删删除行删除列改修改表元素修改列标签修改行标签查单条件查询多条件查询附录代码数据准备工具包导入及工作路径设置:数据导入:为了方便读者实操,这里附上原表:jingdian1.csv增增加列增加列的方法有多种,这里列举两种。增加“评级”列,level大于等于90的设为“高”,小于90设为“低”:上面的插入方法相当于先按给定条件创建了一个数组,再将数组插...
2020-05-05 11:08:00 902
原创 SQL学习笔记2——内、外连接查询
目录数据准备内连接外连接左外连接右外连接全外连接数据准备使用之前的一份爬虫获取的数据,分成了两个表并各自删除部分行做连接练习。使用jupyter notebook将Excel表导入到MySQL中,导入方法可以参考我写的这一篇:Python学习笔记5——MySQL数据库文件读写&保存这里简单摆出两个表的信息,t1表为10个景点简要信息,t2表包含一部分t1表景点详细信息,共100条记录...
2020-05-01 12:49:46 465
原创 Python学习笔记5——MySQL数据库文件读写&保存
目录环境准备安装 mysql-connector-python工具包导入数据库文件读写数据库文件保存环境准备安装 mysql-connector-python首先电脑得装有MySQL数据库,Python和MySQL数据库之间的连接要使用到 pymysql 或 mysql-connector-python 模块,两者用法相近。使用 pymysql 来连接MySQL会出现警告,故本文使用 my...
2020-04-29 13:10:41 1485
原创 Python学习笔记4——csv/excel文件读写&保存
工具包准备和设置检查相关工具包导入:默认路径检查:自定义路径:csv文件读写和保存这里用我之前爬虫获取到的数据做展示:这里省略了编码格式,默认编码为“utf-8”,可查看数据表详细信息,包括字段信息、内存使用情况等:若想读取前100行数据,也可以添加参数“nrows”,如下:根据需求还可以自行改变字段类型,这里简单展示:可以看到经纬度两个字段已经变成了字符串格式,...
2020-04-28 14:37:59 791
原创 Python学习笔记3——Pandas序列和数据框
序列Series相关方法Series函数说明通过列表创建Series通过字典创建Series通过一维数组创建Series访问和检查序列数据框Dataframe相关方法DataFrame函数说明通过列表创建DataFrame通过字典创建DataFrame通过二维数组创建DataFrame序列Series相关方法Series函数说明Pandas.Series(data,index,dtype,...
2020-04-27 15:07:10 1052
原创 Python学习笔记2——Numpy数组的排序和搜索
函数说明sort函数sort函数能将数组中的数据从小到大进行排序argsort函数argsort函数会从小到大返回对应元素的索引值一维数组先构建一个一维数组 a(元素随机输入)用sort函数进行排序,默认升序需要降序排列的可以用下面方法利用argsort函数则可以返回数组a中元素从小到大排列的索引值二维数组构建一个二维数组 t(元素随机输入)使用sort函数进行排序,默认...
2020-04-26 16:20:07 945
原创 Python学习笔记1——Numpy数组构建&访问
创建数组普通一、二维数组 .array()迭代器 .arange()创建等差数组 .linspace()指定行列数生成0 .zeros()检查、访问数组创建数组普通一、二维数组 .array()迭代器 .arange()普通环境可以通过for循环构建迭代器,如下:使用numpy的话就是:三个参数中前两个参数为范围(前闭后开区间),第三个参数为步长,如上的1.5代表在区间内每间隔1...
2020-04-25 16:21:07 551
原创 SQL学习笔记1——表结构转换查询
1、纵表转横表建表--先调用自建的数据库再建表use ljhcreate table sc(sname char(20),course char(20),score int)--随机插入几个记录insert into scvalues('张三','语文',98),('张三','数学',89),('张三','英语',91),('李四','语文',88),('李四','数学...
2020-04-24 11:14:40 424
【20230904】汽车行业报告:人形机器人关节执行器,国产替代正当时-国海证券_79页.pdf
2024-07-28
【20230906】汽车行业:把握智能电动下半场,投资安徽汽车产业链-国元证券_92页.pdf
2024-07-28
【20230907】可转债打新系列:博俊转债,汽车零部件产品领先供应商-民生证券_15页.pdf
2024-07-28
【20230809】汽车行业琰究海外零部件巨头系列三:海拉,全球车灯龙头,前瞻、深耕、领先-华西证券_96页.pdf
2024-07-28
【20230806】汽车与零部件行业:产业趋势加速,线控转向有望实现0-1的突破-东吴证券_74页.pdf
2024-07-28
【20220724】汽车行业:算力提升、架构迭代、交互升维,智能座舱进阶“iPhone4”时刻-民生证券_108页.pdf
2024-07-28
【20220726】基本面量化专题:以汽车行业为例,另类数据+行业逻辑,赋能基本面量化-中信证券_22页.pdf
2024-07-28
【20220822】汽车行业智能电动汽车赛道深度七:比亚迪快速成长,产业链偕行共进-天风证券_42页.pdf
2024-07-28
【20220617】中信证券385页智能汽车&自动驾驶产业专题报告-中信证券_385页.pdf
2024-07-28
【20220705】100页PPT:从特斯拉看汽车智能化趋势-国泰君安_100页.pdf
2024-07-28
【20220419】2021年汽车行业数字营销洞察-QuestMobile_48页.pdf
2024-07-28
【20220411】汽车行业月酝知风:特斯拉VS比亚迪,供应链和产能成关键-平安证券_25页.pdf
2024-07-28
【20220407】汽车与零部件行业统筹发展和安全专题研究:加快智能座舱及智能驾驶核心零部件的布局-东方证券_35页.pdf
2024-07-28
【2023】2023年年度中国汽车保值率排行榜-汽车之家研究院&天天拍车_28页.pdf
2024-07-28
【2022】2022年全球电动汽车展望:确保电力未来的供应(中)-IEA_221页.pdf
2024-07-28
【2021】2021年数字化汽车报告- 洞察全球移动出行市场(首篇)-PWC_44页.pdf
2024-07-28
【20240615】汽车行业长期投资逻辑专题研究:出海、分红及拓成长空间的公司,具备长线长投机会-东方证券_40页.pdf
2024-07-28
【20230909】汽车工业行业电动两轮车:格局优化,走向全球-华泰证券_113页.pdf
2024-07-28
【20230808】乘用车座椅行业深度:汽车显性消费属性重要配置,23年产品升级趋势加速-中泰证券_46页.pdf
2024-07-28
【20230731】汽车行业:走进机器人,图拆特斯拉Optimus-浙商证券_118页.pdf
2024-07-28
【20230110】汽车行业2023年度策略:与时偕行,行者常至-天风证券_103页.pdf
2024-07-28
【20221212】高端装备行业之船舶工业汽车运输船专题:乘时乘势,中短期确定性强,把握汽车运输船周期机遇_24页.pdf
2024-07-28
【20230324】基本面量化之汽车及零部件行业:汽车折扣率系列,3月折扣增加但相对温和,消费者或仍在观望_21页.pdf
2024-07-28
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人