自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(60)
  • 收藏
  • 关注

原创 目录—数据分析工具

python 目录01 | python常用功能1.pandas02 | 数据可视化1.seaborn2.matplotlib3.pyecharts03 | 其他库1.词云图01 | python常用功能1.pandaspandas02 | 数据可视化1.seabornseaborn2.matplotlibmatplotlib3.pyechartspyecharts03 | 其他库1.词云图styleclound...

2021-06-13 21:33:16 171

原创 目录—数据分析逻辑

数据分析逻辑/方法论01 | 产品分析逻辑1.北极星指标2.AARRR3.RFM4.A/B-test / diff in diff01 | 产品分析逻辑1.北极星指标北极星指标2.AARRRAARRR3.RFMRFM4.A/B-test / diff in diffA/B-test / diff in diff

2021-06-10 11:54:01 147

原创 用户留存分析4个模型

用户留存分析01 | 用户留存1.关于留存2.用户为什么留下来二级目录三级目录01 | 用户留存1.关于留存用户留存率是指新老用户在一定周期里,某些行为重复发生的比例。在界定这一定义之前,要先搞清楚几个问题:分析的用户是新用户还是老用户周期多长,是一周一个月还是半年研究的用户行为是什么2.用户为什么留下来《上瘾》中提供了一个上瘾模型,从触发(Trigger)、行动(Action)、多样酬赏(Variable Rewards)和投入(Investment),四个因素组成一个让用户上瘾的

2021-08-17 13:06:22 2434

原创 GMV下滑归因分析-基于pest模型

GMV下滑归因分析01 | 课题02 | 分析维度1.客观原因2.主观原因3.外界因素03 | 分析方法1.对比分析2.RFM模型3.场-货-人模型4.pest模型01 | 课题问题:某电商APP上个月的GMV(成交总额)下降了20%,请你分析一下情况和原因。这里我们只从宏观层面简单分析下,因为没有具体的数据支撑,只能结合模型与分析思路做一个大致的头脑风暴。02 | 分析维度1.客观原因ELT工程师数据入库过程中,是否存在数据遗漏问题是否因为网络延迟问题,部分交易数据未入库sql抓取语法

2021-08-10 00:22:53 3285

原创 数据分析-描述数据方法

环比分析方法01 | 数据波动1.折线图2.箱线图01 | 数据波动1.折线图通过折线图对比两日的走势,对比同一个维度下的数据,找到突增点进行细节分析。2.箱线图通过箱线图可以看到数据的波动情况(也可以看标准差),通过中位数,上四分位数,下四分位数可以找到数值的极差,以此来衡量不同时间数据的波动情况。...

2021-07-14 14:58:57 2660

原创 机器学习常用模型

常用模型01 | 前言1.选择算法02 | sklearn基础算法1.KNN01 | 前言1.选择算法在选择算法之前,要考虑两个问题。一是使用模型的目的是什么(分类or预测);二是需要使用的数据是什么样的。需要预测变量的值,可以使用监督学习算法,反之使用非监督;如果是分类的问题,可以使用分类模型;如果是求解连续型数值,则应该使用回归模型。02 | sklearn基础算法1.KNN1.定义最近邻 (k-Nearest Neighbors, KNN) 算法是一种分类算法, 应用场景有字符识别、

2021-07-12 23:29:10 472 2

原创 BCG矩阵—波士顿矩阵

BCG矩阵01 | BCG矩阵02 | 四分象限03 | 波士顿矩阵绘制04 | 案例分析1.案例一2.案例二01 | BCG矩阵BCG矩阵是一个2 X 2的矩阵,是一个跟企业市场增长率和市场份额有关的数据分析模型。横轴是相对市场占有率(以公司业务的市场占有率除以同业最高的市场占有率而获得),纵轴是市场预期增长,再加上两轴各自的分界而成。在建立图表前,负责人员须分析企业内所有业务或产品的表现。完成后,将各业务或产品的表现标在图表内适当位置,并得出一个表现分布图。02 | 四分象限BCG矩阵是将

2021-06-29 12:30:44 11063

原创 plotly图库

plotly1.面积图1.面积图# 导入plotly库与离线库import plotly as pyimport plotly.graph_objs as goimport numpy as nppyplt = py.offline.plot# 随机生成np.array,先设置两个随机种子random_state1 = np.random.RandomState(0)random_state2 = np.random.RandomState(2)# 随机生成100个数num1

2021-06-28 18:28:56 92

原创 统计学基础:基于python

统计学01 | 绪论1.基础概念① 统计总体、总体单位和样本② 总体参数与样本统计量③ 变量2.统计调查-抽样调查① 简单随机抽样② 分层抽样③ 系统抽样④ 整群抽样⑤ 多阶段抽样3.统计实验4.统计误差① 登记性误差② 代表性误差(抽取的样本代表性不够)---------------------------------------------------------------------------02 | 描述统计1.集中趋势统计① 平均值② 众数③ 中位数2.离散程度统计① 极差② 四分位差③ 平均

2021-06-28 17:50:48 738 1

原创 kaggle常用操作

kaggle01 | data load1.载入数据2.read_csv3.columns解释器01 | data load1.载入数据方法1:Add data - Search对应的数据名称方法2:upload上传数据,上传之前要先填写data名称,否则会卡住2.read_csvimport pandas as pddf = pd.read_csv(r'../input/tesla-stock-data-from-2010-to-2020/TSLA.csv')df[:10]3.c

2021-06-25 12:34:52 610 1

原创 小马bi-常用功能集合

小马bi常用功能01 | 门户1.新建门户2.修改 / 删除门户信息02 | 可视化数据来源1.数据获取03 | 可视化1.新建表格2.表格排版3.多维度对比(hue)4.次轴5.削峰处理(数值扁平化)6.数据归一化7.columns筛选8.辅助线01 | 门户1.新建门户小马bi地址:http://xiaoma.oa.com/进入web端主页面之后,会有新建门户的图标,点击后填写信息即可2.修改 / 删除门户信息点击门户界面的基本信息,进入对应修改即可。删除亦同理要注意:删除的门户

2021-06-24 17:12:21 1089 1

原创 python正则表达式

正则表达式01 | re.findall( )02.'.'03.[a-z]04.' a[a-z] '05 | ( )括号的作用06 | [Aa]二选一07 | * 匹配一个、多个或没有08 | '|'或01 | re.findall( )import refile = ''poem = open(r'D:\poem.txt')for line in poem: file += lineprint(file)poem.close()# 寻找'wi'字节result = re.fi

2021-06-23 22:13:11 296 1

原创 统计学中常用的数据分析方法汇总

统计学分析方法01 | 描述统计1.集中趋势分析2.离中趋势分析3.相关分析4.推论统计02 | 假设检验1.参数检验2.非参数检验03 | 信度分析1.重测信度法2.复本信度法编辑3.折半信度法编辑04 | 列联表分析05 | 相关分析1.单相关2.复相关3.偏相关06 | 方差分析1.单因素方差分析2.多因素有交互方差分析3.多因素无交互方差分析4.协方差分祈07 | 回归分析1.一元线性回归分析2.多元线性回归分析3.Logistic回归分析08 | 聚类分析09 | 判别分析1.与聚类分析区别:2.

2021-06-22 21:13:36 3447 1

原创 pyg2plot绘图

pyg2plot01 | 简介02 | bar图01 | 简介G2是蚂蚁金服开源一个基于图形语法,面向数据分析的统计图表引擎。后来又在其基础上,封装出业务上常用的统计图表库——G2Plot。PyG2Plot是G2Plot 在 Python3 上的封装。pyg2plot与pyecharts类似,结果都是通过render( ) 的方式导出的。这次试用的环境是pycharm,通过下载模块来试用pyg2plot中的Plot功能。参考源代码:https://g2plot.antv.vision/zh/do

2021-06-22 16:09:36 559

原创 pandas聚合函数

聚合函数01 | 数据集02 | value_counts( )03 | groupby( ) + count ( )03 | groupby( ) + agg( )04 | groupby( ) + apply01 | 数据集1.来源kaggle:https://www.kaggle.com/harlfoxem/housesalesprediction2.简介这是一份kaggle房屋的数据集,包含21个columnsimport pandas as pddf = pd.read_cs

2021-06-20 23:23:12 510 9

原创 目录—sql

sql01 | sql语法1.基础语法02 | sql练习1.牛客网摘选2.45道练习3.sql练习50道03 | 数据清洗1.简单数据清洗01 | sql语法1.基础语法基础语法02 | sql练习1.牛客网摘选牛客网2.45道练习45道练习3.sql练习50道50道题03 | 数据清洗1.简单数据清洗数据清洗...

2021-06-15 17:12:25 78

原创 sql牛客网题(摘选)

sql题摘选01 | join1.inner join(关联四张表)01 | join1.inner join(关联四张表)有一个,部门关系表dept_emp简况如下:有一个部门经理表dept_manager简况如下:有一个薪水表salaries简况如下:现在有一个需求:获取员工其当前的薪水比其manager当前薪水还高的相关信息,第一列给出员工的emp_no,第二列给出其manager的manager_no,第三列给出该员工当前的薪水emp_salary,第四列给该员工对应的m

2021-06-15 17:06:05 94

原创 python词云图

词云图stylecloudstylecloudimport stylecloud# 要先把csv转为txtword = df['signature']word.to_csv('word.txt', sep='\t', index=False)stylecloud.gen_stylecloud(file_path = r'D:\pycharm\data\douyin\word.txt', collocations=False, font_path

2021-06-13 21:30:37 199

原创 matplotlib常用功能

matplotlibfig,axplt.rcParams[ ]fig,ax# 2,2代表2x2fig,ax = plt.subplots(nrows=2, ncols=2,figsize = (12,5))['df'].value_counts().plot(kind='pie',autopct='%1.2f%%',explode=(0.1,0),ax = ax[0,0],labels = ['男','女'])ax[0,0].set_title('title_name')ax[0,0].set_

2021-06-13 21:24:31 297

原创 用户画像分析

用户画像分析01 | 用户画像02 | 用户画像内容03 | 数据来源04 | 画像构建01 | 用户画像不同的公司、人群对用户画像的定义存在差异。有的人认为用户画像就是用户的个人信息,有的人认为用户画像是能够反映群体的统计学特性,有的人认为用户画像可以做用户研究。简单来说的话,用户画像可以定义为通过对用户各类特征进行标识,通过标识给用户贴上各类标签,再通过标签把用户分为不同的群体,以便对不同的群体分别进行产品/运营运作。02 | 用户画像内容用户画像大体上可以分为两类:User Persona

2021-06-13 21:08:54 1690

原创 python可视化- Plotlyt图库

plotlyt01 | 关于python图库1.关于matpltlib2.plotlyt02 | plotlyt代码01 | 关于python图库1.关于matpltlibmatplotlib作为一个早期的python可视化图库,现在看来可能稍显得有些陈旧、枯燥。而且matplotlib的语法也有点冗长,调参的时候需要花费一番功夫。为了优化这个问题,github上面也出现了很多开源的图库。本次介绍的plotlyt就是其中之一。2.plotlytGithub 源代码地址:https://git

2021-06-11 14:21:37 174 3

原创 AARRR分析模型

AARRR模型1.AARRR1.Acquisition(拉新)2. Activation(促活)3.Retention(留存)4.Revenue(转化)5.Refer(推介)02 |AARRR模型与用户运营1.用户运营2.用户运营模式3.关键点4.AARRR模型与数据分析03 | 模型实操1.获取部分2.激活部分3.留存部分4.收入部分5.传播1.AARRRAARRR模型是我们做用户分析的经典模型,是一个典型的漏斗结构。它从生命周期的角度,描述了用户进入平台需经历的五个环节,最终获取商业价值。价值不仅

2021-06-10 11:39:46 5876 1

原创 北极星指标

北极星指标01 | 北极星指标1.定义2.指标体系3.案例分析01 | 北极星指标1.定义北极星指标(North Star Metric) 产品现阶段最关键的指标,简单说来就是公司/团队制定的发展目标,不同阶段会有不同的目标。所有的增长动作应该围绕这个指标来展开,你要持续的去推动这个指标的数据增长。不同业务场景的指标侧重不同内容类:DAU、MAU电商类:GMV(网站成交金额)2.指标体系1.工具类、资讯类高德地图、小米运动、有道词典、今日头条、趣头条、腾讯新闻日活公式日活 =

2021-06-10 11:22:32 1859

原创 数据指标体系构建

数据指标体系构建01 | 知识框架02 | 数据体系03 拆解数据体系01 | 知识框架02 | 数据体系1.数据指标的构建通过不同维度的数据,以量化的形式来表述问题建立量化体系,根据“指标设计方法”设计结果指标 + 过程指标2.数据指标构成03 拆解数据体系1.北极星指标北极星指标不同产品的北极星指标构建北极星指标 如何评价指标好坏不同阶段的北极星指标滴滴不同阶段的北极星指标...

2021-06-09 13:51:25 301

原创 sql—数据清洗

数据清洗1.缺失值填充2.删除空格3.数值替换4.大小写转换5.数据类型转换6.数据分列7.重复值处理python参考python数据清清洗1.缺失值填充缺失值处理,可以使用均值、众数、线性插值等方法进行填充,这里使用均值来作为填充值填充,首先计算AVG,然后筛选数值为null的位置,使用UPDATE函数进行填充。# 计算平均值SELECT AVG(score) AS avg_score FROM score;# 使用update进行填充UPDATE score SET score=74

2021-06-08 10:11:05 783

原创 A/B-test / diff in diff

A/B-test / diff in diff01 | A/B-test1.A/B测试定义2.实验方法3.A/B-test设计流程4.案例02 | diff in diff01 | A/B-test1.A/B测试定义A / B测试(分割测试或桶测试)是一种将web或app的两个版本相互比较以确定哪个版本的性能更好的方法。本质上是一个实验,同一时间维度,将产品的两个或多个版本随机分发给用户,通过收集各群组的用户体验数据和业务数据,最后根据显著性检验分析评估出最好版本正式采用。2.实验方法随机将

2021-06-06 16:01:47 1260

原创 RFM分析模型——用户生命周期解析

RFM分析模型01 | RFM定义02 | RFM模型03 | 场景构建04 | tableau案例01 | RFM定义数据分析的主要任务就是通过数据驱动来优化业务,以实现帮助业务挣钱。实现方式主要是通过对数据的分析,针对性地优化业务中的各个板块的数据。近几年来,精细化运营、增长黑客成为热门的词汇,其核心就是针对用户行为分析,优化用户指标。作为分析方法论,RFM模型特别具有代表性。R(Recency)——R 代表最近购买日期与指定日期的间隔天数F(Frequency)——F客户在最近一段时间

2021-06-01 16:52:51 8927

原创 seaborn绘图集合

目录    1.heatmap(热力图)    2.distplot(直方图)    3.boxplot(箱线图)    4.jointplot    5.displot distplot02 | Seaborn1.heatmapcorr = df1.corr()f,ax = plt.su.

2021-05-27 11:17:47 220

原创 sql语法大全

目录01 | 聚合函数02 | 窗口函数02 | 窗口函数1.窗口函数over()语法partition by 分组(类似group by)order by 列名指定窗口范围rows between 开始位置 and 结束位置分析函数 over(partition by 列名 order by 列名 rows between 开始位置 and 结束位置)2.常见窗口函数①聚合类avg()、sum()max()、min()②排名类lagleadntile.

2021-05-24 23:24:16 451

原创 数据分析-微信平台低质优化

import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snspd.set_option('display.max_columns',1000)pd.set_option('display.width',1000)pd.set_option('display.max_colwidth',1000)plt.rcParams['font.sans-serif'] = ['SimHei...

2021-05-21 23:23:40 89

python办公自动化

目录01 | 批量转换ppt为图片01 | 批量转换ppt为图片import comtypes.client# 定义文件的路径以及保存路径path = 'D:\pycharm\ppt\微信分析-最终版.ppt' save_pat = "D:\pycharm\ppt\微信分析-最终版"powerpoint = comtypes.client.CreateObject("kwpp.Application") # 使用wps的接口ppt = powerpoint.Presentatio.

2021-05-21 23:18:14 161

原创 文字识别 / 自动提取收集信息功能

目录01 | 简介02 | 代码实现01 | 简介本功能目的在于提取收据/发票上的信息,用机器代替人的方式,提高工作效率。实现方式是通过cv2模块截取需要的信息,调用百度的api文字识别接口02 | 代码实现1.导入需要的库,包括百度的api接口跟cv2图像截图图库mport cv2from aip import AipOcr# 读取图片,利用imshow显示图片pic = cv2.imread(r'Y:\cut\img1.png')pic = cv2.resize(p.

2021-05-16 20:01:55 635 2

原创 pandas-数据清洗

目录01 | 数据清洗常用方法01 | 数据清洗常用方法

2021-05-10 12:23:43 813

原创 亚马逊sale ranking analysis

目录01 | 数据集02 | visual分析03 |代码04 | 可视化01 | 数据集kaggle:https://www.kaggle.com/sootersaalu/amazon-top-50-bestselling-books-2009-2019这是一份来自kaggle的数据集,内容是亚马逊2019年书籍的销售数据。通过pd.read_csv读取数据内容,查看columns。Index([‘Name’, ‘Author’, ‘User Rating’, ‘Reviews’.

2021-05-08 10:37:19 267 1

原创 LogisticRegression-手机参数与价格关联性分析

目录01 | 数据来源02 | 分析思路03 | 代码04 | 可视化01 | 数据来源链接: https://pan.baidu.com/s/1QEYV6MpubaDgDUKHBy49Zw提取码: 7p8bkaggle:https://www.kaggle.com/iabhishekofficial/mobile-price-classification这是一个来自kagle上面的数据集。数据集收集了不同型号手机的具体参数以及价格区间。通过对数据集的分析,我们可以找出什么要素.

2021-05-07 15:42:16 1059

原创 pyecharts-Map()-全球星巴克分布图

目录01 | 数据集02 | 思路03 | 代码01 | 数据集链接: https://pan.baidu.com/s/1t-37O5f4bwEZpMLaV8m_fw提取码: msb402 | 思路①导入所需要的库,包括pyecharts的Map(),opts,常用的数据可视化以及数据预处理库② 将数据集转为集合的格式,里面一组的格式为(‘国家名称’,‘门店数’)③设置参数,另存为html④注意:map.add(‘门店数量世界分布图’,data,‘world’)中,data.

2021-04-27 23:26:39 911 1

原创 sklearn-SVM-乳腺癌诊断分类

目录01 | SVM简介02 | 乳腺癌诊断01 | SVM简介SVM(支持向量机)算法是通过对数据的训练,利用间隔最大化找到一个最优分离超平面。下面我们用一个例子来说明。我们生成一个男女身高体重的数据,现在拿到一个新的数据(x,y),利用已知的数据能否推断出新的数据是一名男性或者是女性吗。①通过画一条直线,将已知的点分为两部分,直线以上是男生,直线以下是女生。②这个是一个二维平面,可以画直线。但是在三维的平面中,它是面。在更高的维度中,我们称之为超平面③面有若干个,最合适的被称之为.

2021-04-27 00:18:14 2474 2

原创 sql—45道练习题

目录01 | 插入表格02 | 查询’01’课程比’02’课程分数高的学生信息及课程成绩01 | 插入表格具体语法:https://pan.baidu.com/s/1FoDQsVWkjfnzkIbfoKlghg提取码: u3pv①course表②sc表③student表④teacher表02 | 查询’01’课程比’02’课程分数高的学生信息及课程成绩# 思路1:先把所有学生成绩join到一张表select * from student a right join.

2021-04-20 11:19:32 154

原创 sklearn-KMeans聚类分析-汽车分类

目录01 | 项目简介02 | KMeans算法03 | 思路04 | 代码01| 项目简介这是一份有205个数据样本的汽车数据集,其中包括汽车的名称、排放量、车身大小等相关数据。本项目目的在于通过非监督式算法,对数据集进行分类。将汽车分为几大类。02 | KMeans算法k均值聚类算法(k-means clustering algorithm)是一种迭代求解的聚类分析算法,其步骤是,预将数据分为K组,则随机选取K个对象作为初始的聚类中心,然后计算每个对象与各个种子聚类中心之间的距.

2021-04-18 12:07:48 2305

原创 pyecharts常用图库

目录01 | Funnel()    漏斗模型01 | Funnel()# 1.导入需要的库和调参模块from pyecharts.charts import Funnelfrom pyecharts import options as optsbehaviour = ['浏览页面','跳转程序','授权登录','进入游戏','充值消费']user_counts = [50000,34245,23453,21456,5321]behaviour_.

2021-04-15 23:53:38 257

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除