冷淡的蛋黄酱-CSDN博客

原创目录—数据分析工具

2021-06-13 21:33:16 641

原创目录—数据分析逻辑

数据分析逻辑/方法论01 | 产品分析逻辑1.北极星指标2.AARRR3.RFM4.A/B-test / diff in diff01 | 产品分析逻辑1.北极星指标北极星指标2.AARRRAARRR3.RFMRFM4.A/B-test / diff in diffA/B-test / diff in diff

2021-06-10 11:54:01 160

原创用户留存分析4个模型

用户留存分析01 | 用户留存1.关于留存2.用户为什么留下来二级目录三级目录01 | 用户留存1.关于留存用户留存率是指新老用户在一定周期里，某些行为重复发生的比例。在界定这一定义之前，要先搞清楚几个问题：分析的用户是新用户还是老用户周期多长，是一周一个月还是半年研究的用户行为是什么2.用户为什么留下来《上瘾》中提供了一个上瘾模型，从触发（Trigger）、行动(Action)、多样酬赏(Variable Rewards)和投入(Investment)，四个因素组成一个让用户上瘾的

2021-08-17 13:06:22 2625

原创 GMV下滑归因分析-基于pest模型

2021-08-10 00:22:53 3561

原创数据分析-描述数据方法

环比分析方法01 | 数据波动1.折线图2.箱线图01 | 数据波动1.折线图通过折线图对比两日的走势，对比同一个维度下的数据，找到突增点进行细节分析。2.箱线图通过箱线图可以看到数据的波动情况（也可以看标准差），通过中位数，上四分位数，下四分位数可以找到数值的极差，以此来衡量不同时间数据的波动情况。...

2021-07-14 14:58:57 2777

原创机器学习常用模型

常用模型01 | 前言1.选择算法02 | sklearn基础算法1.KNN01 | 前言1.选择算法在选择算法之前，要考虑两个问题。一是使用模型的目的是什么（分类or预测）；二是需要使用的数据是什么样的。需要预测变量的值，可以使用监督学习算法，反之使用非监督；如果是分类的问题，可以使用分类模型；如果是求解连续型数值，则应该使用回归模型。02 | sklearn基础算法1.KNN1.定义最近邻 (k-Nearest Neighbors， KNN) 算法是一种分类算法，应用场景有字符识别、

2021-07-12 23:29:10 539 2

原创 BCG矩阵—波士顿矩阵

2021-06-29 12:30:44 11272

原创 plotly图库

plotly1.面积图1.面积图# 导入plotly库与离线库import plotly as pyimport plotly.graph_objs as goimport numpy as nppyplt = py.offline.plot# 随机生成np.array,先设置两个随机种子random_state1 = np.random.RandomState(0)random_state2 = np.random.RandomState(2)# 随机生成100个数num1

2021-06-28 18:28:56 103

原创统计学基础：基于python

统计学01 | 绪论1.基础概念① 统计总体、总体单位和样本② 总体参数与样本统计量③ 变量2.统计调查-抽样调查① 简单随机抽样② 分层抽样③ 系统抽样④ 整群抽样⑤ 多阶段抽样3.统计实验4.统计误差① 登记性误差② 代表性误差（抽取的样本代表性不够）---------------------------------------------------------------------------02 | 描述统计1.集中趋势统计① 平均值② 众数③ 中位数2.离散程度统计① 极差② 四分位差③ 平均

2021-06-28 17:50:48 1044 1

原创 kaggle常用操作

kaggle01 | data load1.载入数据2.read_csv3.columns解释器01 | data load1.载入数据方法1：Add data - Search对应的数据名称方法2：upload上传数据，上传之前要先填写data名称，否则会卡住2.read_csvimport pandas as pddf = pd.read_csv(r'../input/tesla-stock-data-from-2010-to-2020/TSLA.csv')df[:10]3.c

2021-06-25 12:34:52 626 1

原创小马bi-常用功能集合

小马bi常用功能01 | 门户1.新建门户2.修改 / 删除门户信息02 | 可视化数据来源1.数据获取03 | 可视化1.新建表格2.表格排版3.多维度对比（hue）4.次轴5.削峰处理(数值扁平化)6.数据归一化7.columns筛选8.辅助线01 | 门户1.新建门户小马bi地址：http://xiaoma.oa.com/进入web端主页面之后，会有新建门户的图标，点击后填写信息即可2.修改 / 删除门户信息点击门户界面的基本信息，进入对应修改即可。删除亦同理要注意：删除的门户

2021-06-24 17:12:21 1383 1

原创 python正则表达式

2021-06-23 22:13:11 383 1

原创统计学中常用的数据分析方法汇总

2021-06-22 21:13:36 3974 1

原创 pyg2plot绘图

pyg2plot01 | 简介02 | bar图01 | 简介G2是蚂蚁金服开源一个基于图形语法，面向数据分析的统计图表引擎。后来又在其基础上，封装出业务上常用的统计图表库——G2Plot。PyG2Plot是G2Plot 在 Python3 上的封装。pyg2plot与pyecharts类似，结果都是通过render( ) 的方式导出的。这次试用的环境是pycharm，通过下载模块来试用pyg2plot中的Plot功能。参考源代码：https://g2plot.antv.vision/zh/do

2021-06-22 16:09:36 695

原创 pandas聚合函数

2021-06-20 23:23:12 602 9

原创目录—sql

2021-06-15 17:12:25 225

原创 sql牛客网题（摘选）

sql题摘选01 | join1.inner join(关联四张表)01 | join1.inner join(关联四张表)有一个，部门关系表dept_emp简况如下:有一个部门经理表dept_manager简况如下:有一个薪水表salaries简况如下:现在有一个需求：获取员工其当前的薪水比其manager当前薪水还高的相关信息，第一列给出员工的emp_no，第二列给出其manager的manager_no，第三列给出该员工当前的薪水emp_salary,第四列给该员工对应的m

2021-06-15 17:06:05 140

原创 python词云图

词云图stylecloudstylecloudimport stylecloud# 要先把csv转为txtword = df['signature']word.to_csv('word.txt', sep='\t', index=False)stylecloud.gen_stylecloud(file_path = r'D:\pycharm\data\douyin\word.txt', collocations=False, font_path

2021-06-13 21:30:37 253

原创 matplotlib常用功能

matplotlibfig,axplt.rcParams[ ]fig,ax# 2,2代表2x2fig,ax = plt.subplots(nrows=2, ncols=2,figsize = (12,5))['df'].value_counts().plot(kind='pie',autopct='%1.2f%%',explode=(0.1,0),ax = ax[0,0],labels = ['男','女'])ax[0,0].set_title('title_name')ax[0,0].set_

2021-06-13 21:24:31 482

原创用户画像分析

2021-06-13 21:08:54 1708

原创 python可视化- Plotlyt图库

plotlyt01 | 关于python图库1.关于matpltlib2.plotlyt02 | plotlyt代码01 | 关于python图库1.关于matpltlibmatplotlib作为一个早期的python可视化图库，现在看来可能稍显得有些陈旧、枯燥。而且matplotlib的语法也有点冗长，调参的时候需要花费一番功夫。为了优化这个问题，github上面也出现了很多开源的图库。本次介绍的plotlyt就是其中之一。2.plotlytGithub 源代码地址：https://git

2021-06-11 14:21:37 220 3

原创 AARRR分析模型

AARRR模型1.AARRR1.Acquisition（拉新）2. Activation（促活）3.Retention（留存）4.Revenue（转化）5.Refer（推介）02 |AARRR模型与用户运营1.用户运营2.用户运营模式3.关键点4.AARRR模型与数据分析03 | 模型实操1.获取部分2.激活部分3.留存部分4.收入部分5.传播1.AARRRAARRR模型是我们做用户分析的经典模型，是一个典型的漏斗结构。它从生命周期的角度，描述了用户进入平台需经历的五个环节，最终获取商业价值。价值不仅

2021-06-10 11:39:46 6310 1

原创北极星指标

北极星指标01 | 北极星指标1.定义2.指标体系3.案例分析01 | 北极星指标1.定义北极星指标(North Star Metric) 产品现阶段最关键的指标，简单说来就是公司/团队制定的发展目标，不同阶段会有不同的目标。所有的增长动作应该围绕这个指标来展开，你要持续的去推动这个指标的数据增长。不同业务场景的指标侧重不同内容类：DAU、MAU电商类：GMV(网站成交金额)2.指标体系1.工具类、资讯类高德地图、小米运动、有道词典、今日头条、趣头条、腾讯新闻日活公式日活 =

2021-06-10 11:22:32 2114

原创数据指标体系构建

数据指标体系构建01 | 知识框架02 | 数据体系03 拆解数据体系01 | 知识框架02 | 数据体系1.数据指标的构建通过不同维度的数据，以量化的形式来表述问题建立量化体系，根据“指标设计方法”设计结果指标 + 过程指标2.数据指标构成03 拆解数据体系1.北极星指标北极星指标不同产品的北极星指标构建北极星指标如何评价指标好坏不同阶段的北极星指标滴滴不同阶段的北极星指标...

2021-06-09 13:51:25 370

原创 sql—数据清洗

数据清洗1.缺失值填充2.删除空格3.数值替换4.大小写转换5.数据类型转换6.数据分列7.重复值处理python参考python数据清清洗1.缺失值填充缺失值处理，可以使用均值、众数、线性插值等方法进行填充，这里使用均值来作为填充值填充，首先计算AVG，然后筛选数值为null的位置，使用UPDATE函数进行填充。# 计算平均值SELECT AVG(score) AS avg_score FROM score;# 使用update进行填充UPDATE score SET score=74

2021-06-08 10:11:05 890

原创 A/B-test / diff in diff

A/B-test / diff in diff01 | A/B-test1.A/B测试定义2.实验方法3.A/B-test设计流程4.案例02 | diff in diff01 | A/B-test1.A/B测试定义A / B测试（分割测试或桶测试）是一种将web或app的两个版本相互比较以确定哪个版本的性能更好的方法。本质上是一个实验，同一时间维度，将产品的两个或多个版本随机分发给用户，通过收集各群组的用户体验数据和业务数据，最后根据显著性检验分析评估出最好版本正式采用。2.实验方法随机将

2021-06-06 16:01:47 1320

原创 RFM分析模型——用户生命周期解析

2021-06-01 16:52:51 9188

原创 seaborn绘图集合

目录 1.heatmap(热力图) 2.distplot(直方图) 3.boxplot(箱线图) 4.jointplot 5.displot distplot02 | Seaborn1.heatmapcorr = df1.corr()f,ax = plt.su.

2021-05-27 11:17:47 397

原创 sql语法大全

目录01 | 聚合函数02 | 窗口函数02 | 窗口函数1.窗口函数over()语法partition by 分组(类似group by)order by 列名指定窗口范围rows between 开始位置 and 结束位置分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)2.常见窗口函数①聚合类avg()、sum()max()、min()②排名类lagleadntile.

2021-05-24 23:24:16 1004

原创数据分析-微信平台低质优化

import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snspd.set_option('display.max_columns',1000)pd.set_option('display.width',1000)pd.set_option('display.max_colwidth',1000)plt.rcParams['font.sans-serif'] = ['SimHei...

2021-05-21 23:23:40 97

python办公自动化

目录01 | 批量转换ppt为图片01 | 批量转换ppt为图片import comtypes.client# 定义文件的路径以及保存路径path = 'D:\pycharm\ppt\微信分析-最终版.ppt' save_pat = "D:\pycharm\ppt\微信分析-最终版"powerpoint = comtypes.client.CreateObject("kwpp.Application") # 使用wps的接口ppt = powerpoint.Presentatio.

2021-05-21 23:18:14 178

原创文字识别 / 自动提取收集信息功能

目录01 | 简介02 | 代码实现01 | 简介本功能目的在于提取收据/发票上的信息，用机器代替人的方式，提高工作效率。实现方式是通过cv2模块截取需要的信息，调用百度的api文字识别接口02 | 代码实现1.导入需要的库，包括百度的api接口跟cv2图像截图图库mport cv2from aip import AipOcr# 读取图片，利用imshow显示图片pic = cv2.imread(r'Y:\cut\img1.png')pic = cv2.resize(p.

2021-05-16 20:01:55 672 2

原创 pandas-数据清洗

目录01 | 数据清洗常用方法01 | 数据清洗常用方法

2021-05-10 12:23:43 1046

原创亚马逊sale ranking analysis

目录01 | 数据集02 | visual分析03 |代码04 | 可视化01 | 数据集kaggle：https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019这是一份来自kaggle的数据集，内容是亚马逊2019年书籍的销售数据。通过pd.read_csv读取数据内容，查看columns。Index([‘Name’, ‘Author’, ‘User Rating’, ‘Reviews’.

2021-05-08 10:37:19 405 1

原创 LogisticRegression-手机参数与价格关联性分析

目录01 | 数据来源02 | 分析思路03 | 代码04 | 可视化01 | 数据来源链接: https://pan.baidu.com/s/1QEYV6MpubaDgDUKHBy49Zw提取码: 7p8bkaggle:https://www.kaggle.com/iabhishekofficial/mobile-price-classification这是一个来自kagle上面的数据集。数据集收集了不同型号手机的具体参数以及价格区间。通过对数据集的分析，我们可以找出什么要素.

2021-05-07 15:42:16 1081

原创 pyecharts-Map()-全球星巴克分布图

目录01 | 数据集02 | 思路03 | 代码01 | 数据集链接: https://pan.baidu.com/s/1t-37O5f4bwEZpMLaV8m_fw提取码: msb402 | 思路①导入所需要的库,包括pyecharts的Map(),opts,常用的数据可视化以及数据预处理库② 将数据集转为集合的格式,里面一组的格式为(‘国家名称’,‘门店数’)③设置参数,另存为html④注意:map.add(‘门店数量世界分布图’,data,‘world’)中,data.

2021-04-27 23:26:39 1007 1

原创 sklearn-SVM-乳腺癌诊断分类

目录01 | SVM简介02 | 乳腺癌诊断01 | SVM简介SVM(支持向量机)算法是通过对数据的训练，利用间隔最大化找到一个最优分离超平面。下面我们用一个例子来说明。我们生成一个男女身高体重的数据，现在拿到一个新的数据（x,y），利用已知的数据能否推断出新的数据是一名男性或者是女性吗。①通过画一条直线，将已知的点分为两部分，直线以上是男生，直线以下是女生。②这个是一个二维平面，可以画直线。但是在三维的平面中，它是面。在更高的维度中，我们称之为超平面③面有若干个，最合适的被称之为.

2021-04-27 00:18:14 2519 2

原创 sql—45道练习题

目录01 | 插入表格02 | 查询’01’课程比’02’课程分数高的学生信息及课程成绩01 | 插入表格具体语法：https://pan.baidu.com/s/1FoDQsVWkjfnzkIbfoKlghg提取码: u3pv①course表②sc表③student表④teacher表02 | 查询’01’课程比’02’课程分数高的学生信息及课程成绩# 思路1：先把所有学生成绩join到一张表select * from student a right join.

2021-04-20 11:19:32 168

原创 sklearn-KMeans聚类分析-汽车分类

目录01 | 项目简介02 | KMeans算法03 | 思路04 | 代码01| 项目简介这是一份有205个数据样本的汽车数据集，其中包括汽车的名称、排放量、车身大小等相关数据。本项目目的在于通过非监督式算法，对数据集进行分类。将汽车分为几大类。02 | KMeans算法k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是，预将数据分为K组，则随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距.

2021-04-18 12:07:48 2365

原创 pyecharts常用图库

目录01 | Funnel() 漏斗模型01 | Funnel()# 1.导入需要的库和调参模块from pyecharts.charts import Funnelfrom pyecharts import options as optsbehaviour = ['浏览页面','跳转程序','授权登录','进入游戏','充值消费']user_counts = [50000,34245,23453,21456,5321]behaviour_.

2021-04-15 23:53:38 361

空空如也

空空如也