- 博客(133)
- 收藏
- 关注
原创 Python数据分组计算利器:Transform函数
本文介绍了Transform函数的语法和使用说明,该函数可以对数据进行高效的分组计算,并且按照原来的Dataframe格式输出。
2023-03-13 15:13:11
411
原创 AB测试——流程介绍(设计实验)
本文继续介绍假设建立和实验设计部分,包括实验对象、样本量计算(显著性水平、统计功效及最小可检测效应)、实验周期。
2023-03-10 17:42:00
457
1
原创 【机器学习】集成学习投票法:投票回归器(VotingRegressor) & 投票分类器(VotingClassifier)
本文介绍 VotingRegressor 和VoteClassifier的工作原理,并使用鸢尾花和糖尿病数据集作为示例,分别展示如何使用投票分类器解决分类/回归任务。
2023-02-26 00:37:03
791
1
原创 Power BI 数据处理介绍(数据初始调整、合并列及查看数据结构)
Power BI数据处理基础功能介绍:初始的数据调整转换、合并及查看数据分布
2023-02-21 15:42:42
381
原创 【机器学习】Sklearn 集成学习-投票分类器(VoteClassifier)
本文介绍 sklearn 中 VoteClassifier的工作原理,并使用鸢尾花数据集作为示例,展示如何通过投票分类器提高整体模型的表现。
2023-02-17 22:47:56
546
原创 Power BI 常见数据导入错误(查询超时、找不到文件、数据类型错误、找不到表格)
介绍Power BI数据导入的4种常见错误及解决方法:查询超时、找不到文件、数据类型错误、找不到格式为表的数据
2023-02-16 10:00:00
371
原创 Power BI 存储模式介绍(导入、DirectQuery、双)
本文介绍三种存储模式是导入、DirectQuery、双重,如何设置表格的存储模式以及如何选择以提高查询性能、符合安全要求、并且减少数据延迟。
2023-02-14 15:54:31
417
原创 Python清洗合并个人支付宝微信账单数据
支付宝和微信的账单数据格式不一样,在记账的时候就很麻烦,通过Pyhon将清洗整合的步骤固定下来以节省时间。
2023-01-30 12:47:57
304
原创 Python使用groupby()+ffill()根据指定列填充缺失值
介绍了Pandas.DataFrame.fill 的用法,以及结合Groupby() 填补Dataframe缺失值的方法
2023-01-13 23:42:57
326
原创 Python验证中心极限定理
中心极限定理提出:无论总体服从什么分布,只要n充分大,那么样本均值分布就接近正态分布。样本的数量越大,取样次数越多,样本平均值的分布也就越接近于一条正态分布曲线。普遍的经验是,样本的数量必须超过30,中心极限定理才能成立。
2023-01-12 16:37:24
366
原创 零售行业交易数据分析(3)——群组/同期群分析(留存率分析)
本文介绍了群组分析(同期群分析)的方法以及Python实现过程,并继续对一家零售公司的交易数据进行用户留存分析和可视化。
2023-01-07 22:25:33
535
原创 零售行业交易数据分析(2)——RFM模型分类及可视化(Python实现)
分析一年的零售交易数据,从用户的角度,使用RFM模型对用户进行打分归类,并对结果进行可视化展示。
2022-12-30 19:33:31
784
原创 Jupyter NoteBook 美化小技巧(目录导航器、添加gif动图、编辑图片、自定义单元格风格)
介绍了6种美化Jupter notebook 的小技巧,包括导航器、添加编辑图片、插入gif动图自定义单元格风格等等。
2022-12-28 00:04:19
320
原创 零售行业交易数据分析(1)——客户终身价值(CLTV)计算和回归预测模型(Python)
本文整理了客户终身价值(CLV或者CLTV)的相关概念,并对一家英国线上零售公司的一年交易数据进行分析,计算该公司所有客户的CLV并且建立回归预测模型。
2022-12-22 02:02:39
979
原创 Power BI 11个必学官方示例数据案例(附下载链接)
在开始学习Power BI时,最大的问题就是不知道哪里找数据,或者有数据却对搭建看板毫无头绪, 不知道该从哪里下手。本文收集整理了官网上最值得学习的11个案例,包括不同行业和分析方法,方便大家按需学习。
2022-12-21 14:50:42
2039
原创 Power BI 数据导入(SQL Server、MySQL、网页数据)
介绍Power BI数据连接方法,包括SQL Server、MySQL、网页数据,以及连接器组件缺失无法连接的解决方法
2022-12-19 22:36:32
1034
原创 MYSQL四种筛选时间日期条件的方法
本文总结了日期条件筛选的四种方法:year()&month(),date_format(),like 和left()。同样的方式可以应用到时间的条件筛选题目中。
2022-12-12 11:21:14
2490
原创 MYSQL练习题:报告系统状态的连续日期
题目:报告系统状态的连续日期系统 每天 运行一个任务。每个任务都独立于先前的任务。任务的状态可以是失败或是成功。编写一个 SQL 查询 2019-01-01 到 2019-12-31 期间任务连续同状态 period_state 的起止日期(start_date 和 end_date)。即如果任务失败了,就是失败状态的起止日期,如果任务成功了,就是成功状态的起止日期。最后结果按照起始日期 start_date 排序。Failed tableSucceeded table最
2022-11-29 10:30:35
192
原创 SQL关联两个没有关系的表格,输出表格后追加一列相同的数
在计算百分比或者需要求不同时间差的时候,需要将一列不同的数和一个相同的数字计算, 比如不同产品占整体销售额的百分比,就需要无关系合并关联
2022-11-24 22:16:15
443
原创 用 Jupyter Notebook、JupyterLab打开D盘文件
用 Jupyter Notebook、JupyterLab打开D盘文件方法
2022-11-17 14:07:04
1072
1
原创 MYSQL练习题:部门工资前三高的所有员工
问题描述:SQL经典题目之一:求部门工资前三高的所有员工。题目内容包含两个表格Employee和Department 。#Employee+----+-------+--------+--------------+| Id | Name | Salary | DepartmentId |+----+-------+--------+--------------+| 1 | Joe | 85000 | 1 || 2 | Henry | 80000 | 2
2022-11-01 20:09:34
560
原创 python将数据透视表pivot_table转为DataFrame 格式
python将数据透视表pivot_table转为DataFrame 格式
2022-08-23 17:56:27
975
原创 Jupyter Notebook 插件 contrib nbextension 安装使用
contrib nbextension 插件使用说明
2022-08-10 16:50:16
748
1
原创 Python Lambda 常用使用方法汇总(结合fliter\map\reduce等函数)
Python中Lambda 表达式的7种常用方法:筛选过滤(结合filter); 修改变量字符串内容(结合MAP函数); 判断(if),累计和迭代运算(reduce), 数据清洗(replace & split)
2022-08-01 11:28:12
543
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人