自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(43)
  • 收藏
  • 关注

原创 用户画像思维导图

2020-10-28 14:57:10 98

转载 【转载】增长黑客思维导图

2020-10-21 10:57:43 3

原创 数据挖掘-理论与算法(公开课笔记二)

目录6.1 Clustering 聚类6.1.1 Unsupervised Learning 无监督学习6.2.1 Clustering Algorithm 聚类算法6.3.1 EM Method 期望最大法6.4.1 Density/Hierarchical Based Methods 密度与层次7 Assocation Role 关联规则7.1.1 Assocation Role 关联规则7.2.1 Support&Confidence of Association Role 支持度 置信度7.

2020-08-17 15:41:09 87

原创 数据挖掘-理论与算法(公开课笔记一)

目录2 Data Preprocessing 数据预处理2.1.1 Data Cleaning 数据清洗2.2.1 Outliers & Duplicate detection 异常值与重复检测2.3.1 Type conversion & sampling 类型转换与采样2 Data Preprocessing 数据预处理2.1.1 Data Cleaning 数据清洗获取的数据可能不可用,存在缺数据、数据错误、噪音等问题,这些都会导致程序无法运行。因此在处理之前要进行清洗等操作。

2020-08-11 18:22:46 280

原创 有序/无序分类变量的统计推断

有序/无序分类变量的统计推断1 有序分类变量的统计推断——非参数检验1.1 非参数检验概述1.2 两个配对样本的非参数检验1.3 两个独立样本的非参数检验1.4 多个独立样本的非参数检验1.5 多个配对样本的非参数检验2 无序分类变量的统计推断——卡方检验2.1 卡方检验概述2.2 单样本案例:考察抽样数据的性别分布2.3 两样本案例:不同收入级别家庭的轿车拥有率比较2.4 一致性检验与配对卡方检验2.5 分层卡方检验1 有序分类变量的统计推断——非参数检验1.1 非参数检验概述如果想要检验两个正..

2020-08-04 19:22:47 569

原创 连续变量的统计推断

连续变量的统计推断1 t检验1.1 t检验概述1.2 成组设计两样本均数的比较1 t检验1.1 t检验概述在针对连续变量的统计推断方法中,最常用的有t检验和方差分析两种,其中t检验是最基本的检验方法。对于X‾\overline{X}X - μ 仅看这一个数字很难判断出这种差异究竟是大是小。为此需要找到某种方式对这一差值进行标准化。标准化的思路是将该差值除以某种表示离散程度的指标。标准化变换:其中,样本均数X‾\overline{X}X的分布规律为正态分布n(μ,σ2/N),U检验看上去虽然很好

2020-08-03 19:19:40 171

原创 分布类型的检验

分布类型的检验1 假设检验的基本思想1.1 假设检验的标准步骤1.2 假设检验的两类错误2 正态分布检验2.1 K-S 检验的原理2.2 案例3 二项分布检验3.1 二项分布检验的原理3.2 案例4 游程检验4.1 游程检验原理4.2 案例5 蒙特卡罗方法5.1 蒙特卡罗方法原理1 假设检验的基本思想1.1 假设检验的标准步骤小概率事件(发生概率很小,如P<=0.05)小概率反证法原理:对于一个小慨率事件而言,其对立面发生的可能性显然要大大高于这一小概率事件,可以认为小概率事件在一次试..

2020-08-01 15:58:00 61

原创 连续变量的统计描述与参数估计

连续变量的统计描述与参数估计1 连续变量的统计描述1.1 集中趋势的描述指标1.2 离散趋势的描述指标1.3 正态分布的描述指标2 连续变量的参数估计2.1 正态分布2.2 参数的点估计2.3 参数的区间估计3 Bootstrap方法1 连续变量的统计描述1.1 集中趋势的描述指标算数平均数中位数截尾均数1.2 离散趋势的描述指标全距/极差方差或标准差百分位数、四分位数和四分位间距百分位数Px是一种位置指标,Px将一组观察值分为两部分,理论上有x%的观察值比它小,有(100-..

2020-07-31 15:24:59 156

原创 《数据挖掘与数据化运营实战》(第13章)

《数据挖掘与数据化运营实战》(第13章)13 漏斗模型和路径分析13.1 网络日志和布点13.2 漏斗模型与路径分析的主要区别与联系13.3 漏斗模型的主要应用场景13.4 路径分析的主要应用场景13.5 路径分析的主要算法13 漏斗模型和路径分析在互联网数据化运营实践中,有一类数据分析应用是互联网行业所独有的,那就是漏斗模型和路径分析的应用。漏斗模型通常是对用户在网页浏览中一些关键节点的转化程度所进行的描述,比如从浏览到实际购买产品都需要经历三个步骤:浏览商品、将商品加入到购物车、将购物车的东..

2020-07-27 19:02:04 37

原创 《数据挖掘与数据化运营实战》(第11-12章)

《数据挖掘与数据化运营实战》(第11-12章)11 用户特征分析的典型应用和技术小窍门11.1 用户特征分析所适用的典型业务场景11.2 用户特征分析的典型分析思路和技术11.3 特征提炼后的评价体系12 运营效果分析的典型应用和技术小窍门12.1 为什么要做运营效果分析12.2 统计技术在数据化运营中最重要最常见的应用12.2.1 为什么要进行假设检验?12.2.2 假设检验的基本思想12.2.3 T检验12.2.4 方差分析12.2.5 多个样本组的非参数检验12.2.6 卡方检验12.2.7 控制..

2020-07-27 17:21:44 38

原创 《数据挖掘与数据化运营实战》(第10章)

《数据挖掘与数据化运营实战》(第10章)10 预测响应(分类)模型的典型应用和技术小窍门10.1 神经网络10.2 决策树技术10.3 逻辑回归技术10.4 多元线性回归技术10.5 模型过拟合及对策10.7 预测响应模型的应用步骤10 预测响应(分类)模型的典型应用和技术小窍门预测响应模型是数据挖掘中最常见的应用模型,最直接的涉及的精细化运营的客户分层以及随后的个性化区别对待。预测响应模型涉及的几种算法:神经网络、决策树、逻辑回归、多元线性回归。10.1 神经网络神经网络是一组互相连接的输入..

2020-07-26 18:10:57 68

原创 《数据挖掘与数据化运营实战》(第9章)

《数据挖掘与数据化运营实战》(第9章)9 聚类分析的典型应用和技术小窍门9.1 聚类分析的典型应用场景9.2 主要聚类算法的分类9.2.1 划分方法9.2.2 层次方法9.2.3 基于密度的方法9.2.4 基于网格的方法9.3 聚类分析在实践应用中的重点注意事项9.3.1 处理数据噪声和异常值9.3.2 数据标准化9.3.3 聚类变量少而精9.4 聚类分析的扩展应用9.4.1 聚类的核心指标与非聚类的业务指标相辅相成9.4.2 数据的探索和清理工具9.4.3 个性推荐的应用9.5 聚类分析的优势和缺点9..

2020-07-26 15:40:53 29

原创 《数据挖掘与数据化运营实战》(第8章)

《数据挖掘与数据化运营实战》(第8章)8 常见的数据处理技巧8.1 数据的抽取要正确反映业务需求8.2 数据抽样8.3 分析数据的规模有哪些具体的要求8.4 如何处理缺失值和异常值8.4.1 缺失值的常见处理方法8.4.2 异常值的判断和处理8.5 数据转换8.6 筛选有效的输入变量8.6.1 为什么要筛选有效的输入变量?8.6.2 筛选的思路8.6.3 R平方8.6.4 卡方检验8.6.5 IV和WOE8.6.6 部分建模算法自身的筛选功能8.6.7 降维的方法8.7 共线性问题8.7.1 如何发现共..

2020-07-25 19:08:30 60

原创 《数据挖掘与数据化运营实战》(第4-7章)

《数据挖掘与数据化运营实战》(第4-6章)4 数据化运营是跨专业、跨团队的协调与合作6 数据挖掘项目完整应用案例演示4 数据化运营是跨专业、跨团队的协调与合作在线运营团队需具有的与数据相关的基本技能要求:提出业务分析需求并且能胜任基本的数据分析提供业务经验和参考建议策划和执行精细化运营方案跟踪运营效果、反馈和总结6 数据挖掘项目完整应用案例演示项目流程:项目背景和业务分析需求的提出数据分析师参与需求讨论制定需求分析框架和分析计划抽取样本数据、熟悉数据、数据清洗和摸底按计划初步

2020-07-24 17:47:03 25

原创 《数据挖掘与数据化运营实战》(第3章)

《数据挖掘与数据化运营实战》(第3章)3 数据化运营中常见的数据分析项目类型3.1 用户特征分析及用户分层模型3.2 目标客户的预测(响应、分类)模型3.3 运营群体的活跃度定义3.4 用户路径分析3.5 交叉销售模型3.6 信息质量模型3.7 服务保障模型3.8 信用风险模型3.9 商品推荐模型3.9.1 Apriori算法3.9.2 协同过滤算法3.10 数据产品3.11 决策支持3 数据化运营中常见的数据分析项目类型3.1 用户特征分析及用户分层模型不同于过去的粗放式运营,在精细化运营的要求..

2020-07-23 17:17:10 334

原创 《数据挖掘与数据化运营实战》(第1-2章)

《数据挖掘与数据化运营实战》读书笔记1 什么是数据化运营1.1 从4P到4C再到3P3C1.2 数据化运营的主要内容1.3 数据化运营的原因及必要条件2 数据挖掘概述2.1 统计分析与数据挖掘的主要区别2.2 数据挖掘的主要成熟技术以及在数据化运营中的主要应用2.2.1 决策树2.2.2 神经网络2.2.3 回归1 什么是数据化运营1.1 从4P到4C再到3P3C4P指的是Product(产品)、Price(价格)、Place(渠道)和Promotion(促销)。Product:表示注重产品功能

2020-07-23 14:46:39 69

原创 [Machine Learning] 图片文字识别(Application Example: Photo OCR)

点Ta16 Application Example: Photo OCR(图片文字识别)16.1 Problem Description and Pipeline16.2 Sliding Windows16.3 Getting Lots of Data and Artificial Data16 Application Example: Photo OCR(图片文字识别)16.1 Problem Description and Pipeline图像文字识别应用所作的事是,从一张给定的图片中识别文字..

2020-07-22 15:53:23 42

原创 [Machine Learning] 大规模机器学习(Large Scale Machine Learning)

点Ta15 Large Scale Machine Learning(大规模机器学习)15.1 Learning With Large Dataset15.2 Stochastic Gradient Descent(随机梯度下降法)15.3 Mini-Batch Gradient Descent(小批量梯度下降)15.4 Stochastic Gradient Descent Convergence(随机梯度下降收敛)15.5 Online Learning15.6 Map Reduce and Dat..

2020-07-22 14:52:23 33

原创 [Machine Learning] 推荐系统(Recommender Systems)

点Ta14 Recommender Systems(推荐系统)14.1 Problem Formulation14.2 Content Based Recommendations14.3 Collaborative Filtering(协同过滤)14.4 Vectorization_ Low Rank Matrix Factorization(向量化:低秩矩阵分解)14.5 Implementational Detail_ Mean Normalization14 Recommender System..

2020-07-21 16:22:57 43

原创 [Machine Learning] 异常检测(Anomaly Detection)

点Ta13 Anomaly Detection(异常检测)13.1 Problem Motivation13.2 Gaussian Distribution(高斯分布)13.3 Algorithm13.4 Developing and Evaluating an Anomaly Detection System13.5 Anomaly Detection vs. Supervised Learning13.5 Choosing What Features to Use13.7 Multivariate ..

2020-07-21 14:51:32 93

原创 [Machine Learning] 降维(Dimensionality Reduction)

点Ta12 Dimensionality Reduction(降维)12.1 Motivation I_ Data Compression12 Dimensionality Reduction(降维)12.1 Motivation I_ Data Compression第二种无监督学习问题,称为降维。使用降维可以实现数据压缩,数据压缩不仅压缩数据,因而使用较少的计算机内存或磁盘空间,但它也让我们加快我们的学习算法。但首先,让我们谈论降维是什么。作为一种生动的例子,我们收集的数据集,有许多,许多特征

2020-07-20 15:23:18 43

原创 [Machine Learning] 聚类(Clustering)

点Ta11 Clustering(聚类)11.1 Unsupervised Learning Introduction11.2 K-Means Algorithm11.3 Optimization Objective11.4 Random Initialization11.5 Choosing the Number of Clusters聚类参考资料11 Clustering(聚类)11.1 Unsupervised Learning Introduction在一个典型的监督学习中,训练集是有标签..

2020-07-19 14:53:27 48

原创 [Machine Learning] 支持向量机(Support Vector Machines)

点Ta10 Support Vector Machines(支持向量机)10.1 Optimization Objective(优化目标)10 Support Vector Machines(支持向量机)10.1 Optimization Objective(优化目标)在监督学习中,许多学习算法的性能都非常类似,因此,重要的不是该选择使用学习算法 A 还是学习算法 B,而是应用这些算法时,所创建的大量数据表现情况通常依赖于你的水平。比如:你为学习算法所设计的特征量的选择,以及如何选择正则化参数,诸

2020-07-18 18:33:02 35

原创 《增长黑客实战》(第4-6章)

《增长黑客实战》(第4-6章)4 秉持数据为王4.1 数据能够解决什么4.1.1 是否一切皆可数据化衡量4.1.2 数据不能解决什么4.2 数据分析常见方法及指标4.2.1 数据分析的一般步骤4.2.2 留存率——产品早期“最重要的唯一指标”4.2.3 NPS净推荐值:衡量产品早期用户忠诚度4.2.4 魔法数字:发现用户的惊喜时刻4.2.5 同期群分析4.3 案例:如何通过大数据分析提升电销利润4.3.1 如何获取并维护客户销售线索4.3.2 如何控制成本实现收益最大化4.3.3 如何抓住转瞬即逝的商机..

2020-07-16 17:35:04 445

原创 [Machine Learning] 机器学习系统的设计(Machine Learning System Design)
原力计划

点Ta9 Machine Learning System Design(机器学习系统的设计)9.1 Prioritizing What to Work On9.2 Error Analysis9.3 Error Metrics for Skewed Classes(偏斜类的误差评估)9.4 Trading Off Precision and Recall(查准率和查全率之间的权衡)9.5 Data For Machine Learning9 Machine Learning System Design..

2020-07-15 14:47:10 62

原创 [Machine Learning] 应用机器学习的建议(Advice for Applying Machine Learning)
原力计划

点Ta8 Advice for Applying Machine Learning(应用机器学习的建议)8.1 Introduction8.2 Evaluating a Hypothesis8.3 Model Selection and Train_Validation_Test Sets8.4 Diagnosing Bias vs. Variance8.5 Regularization and Bias/Variance8.6 Learning Curves8.7 Summary8 Advice f..

2020-07-14 18:11:59 27

原创 《增长黑客实战》(第1-3章)
原力计划

《增长黑客实战》(第1-3章)1 检验商业计划1.1 伪需求1.2 快速验证商业计划1.3 产品价值和建立付费增长框架1.4 增长的三个阶段:选择最恰当时机和目标1.5 对产品增进认知2 组建增长团队3 提升协作效率3.1 AARRR流量漏斗模型3.2 如何套用流量漏斗模型,提高转化率3.3 从增长模型中挖掘机会3.3 建立团队内部协作流程1 检验商业计划1.1 伪需求对于初创公司能否存活的关键:如何快速地迭代、如何在现金流耗尽之前验证商业模式。常见的两种失败:市场占有失败产品研发失败其..

2020-07-14 14:15:44 467

原创 [Machine Learning] 神经网络的学习(Neural Networks: Learning)
原力计划

7 Neural Networks-Learning(神经网络的学习)7.1 Cost Function假设神经网络的训练样本有????个,每个包含一组输入????和一组输出信号????,????表示神经网络层数,????????表示每层的 neuron 个数(????l表示输出层神经元个数),????L代表最后一层中处理单元的个数。将神经网络的分类定义为两种情况:二类分类和多类分类,二类分类:????L = 0, ???? = 0 ???????? 1表示哪一类;????类分类:????L =

2020-07-12 14:41:51 68

原创 [Machine Learning] 神经网络:表述(Neural Networks: Representation)
原力计划

点Ta6 Neural Networks: Representation(神经网络:表述)6.1 Non-linear hypotheses(非线性假设)6.2 Neurons and the Brain(神经元和大脑)6 Neural Networks: Representation(神经网络:表述)6.1 Non-linear hypotheses(非线性假设)无论是线性回归还是逻辑回归都有这样一个缺点,即:当特征太多时,计算的负荷会非常大。假设希望训练一个模型来识别视觉对象(例如识别一张图片上

2020-07-11 13:04:43 51

原创 [Machine Learning] 正则化(Regularization)
原力计划

点Ta5 Regularization(正则化)5.1 The problem of overfitting5.2 Cost Function5.3 Regularizede linear regression(正则化线性回归)5.4 Regularized Logistic Regression(正则化的逻辑回归模型)5 Regularization(正则化)5.1 The problem of overfittingcase1:第一个模型是一个线性模型,欠拟合,不能很好地适应训练集;第..

2020-07-08 16:11:54 46

原创 [Machine Learning] 逻辑回归(Logistic Regression)
原力计划

点Ta4 Logistic Regression(逻辑回归)4.1 Classification4.2 Hypothesis Representation(假设陈述)4.3 Decision Boundary(决策边界)4.4 Cost Function(代价函数)4.5 Advanced Optimization(高级优化)4 Logistic Regression(逻辑回归)4.1 Classification在分类问题中,需要预测的变量 ???? 是离散的值,这种学习算法称为逻辑回归 (Logi

2020-07-08 11:45:04 115

原创 [Machine Learning] 多变量线性回归(Linear Regression with Multiple Variables)
原力计划

点Ta3 Linear Regression with Multiple Variables(多变量线性回归)3.1 Multiple Features(多维特征)3.2 Gradient Descent for Multiple Variables(多变量梯度下降)3.2.1 Gradient Descent in Practice I - Feature Scaling (特征缩放)3.2.2 Gradient Descent in Practice II - Learning Rate (学习率)3.

2020-07-07 13:16:17 58

原创 [Machine Learning] 单变量线性回归(Linear Regression with One Variable)
原力计划

点Ta2 Linear Regression with One Variable(单变量线性回归)2.1 Case: Housing Prices2.2 Cost Function(代价函数)2.3 Gradient Decent(梯度下降)2.3.1 Case: Cost Function of Gradient Descent2.3.2 Gradient Descent For Linear Regression(梯度下降的线性回归)2 Linear Regression with One Varia

2020-07-06 19:06:05 57

原创 [Machine Learning] 概述
原力计划

点Ta1 概述1.1 Learning Map1.2 Supervised Learning(监督学习)1.2.1 Case1: Housing price prediction1.2.2 Case2: Breast cancer (malignant,benign)1.3 Unsupervised Learning(无监督学习)1.3.1 Case: Cocktail party problem algorithm1.4 Semi-supervised Learning(半监督学习)1.5 Trans..

2020-07-06 13:10:47 50

原创 [Python] 数据结构与算法笔记(树与图)

第一部分4. 树4.1 树的定义4.2 树的实现4.2.1 嵌套列表法4.2.2 节点链接法4.3 树的应用——表达式解析几个小算法读4. 树非线性结构4.1 树的定义4.2 树的实现4.2.1 嵌套列表法myTree = [ 'a', ['b', ['d', [], []], ['e', [], []] ], ['c', ['f',[],[]], [] ]]def BinaryTree(r): return [

2020-06-11 14:15:08 73

原创 [Python] 数据结构与算法笔记(排序与查找)
原力计划

第二部分3 排序与查找3.1 顺序查找算法及分析3.2 二分查找算法及分析3.2 冒泡和选择排序算法及分析3.2.1 冒泡排序3.2.2 选择排序3.3 插入排序与谢尔排序算法及分析3.3.1 插入排序3.3.2 谢尔排序算法及分析3.4 归并排序算法及分析3.4 快速排序算法及分析几个小算法读3 排序与查找可视化资料:https://visualgo.net/zh/sorting3.1 顺序查找算法及分析无序表查找:def sequentialSearch(alist, item): p

2020-06-06 18:17:00 68

原创 [Python] 数据结构与算法笔记(基本结构和递归)
原力计划

目录1.基本结构1.1 栈1.1.1 栈的操作1.1.2 栈的应用——简单括号匹配1.1.3 栈的应用——十进制转换成二进制1.1.4 栈的应用——表达式转换1.2 队列1.2.1 队列的操作1.2.2 队列的应用——热土豆问题1.2.3 队列的应用——打印任务几个小算法读取以空格分隔的一行整数1.基本结构1.1 栈“后进先出 LIFO” 进栈和出栈的顺序正好相反e.g. 浏览器的后退,word的undo抽象数据类型“栈”是一个有次序的数据集,每个数据项仅从“栈顶”一端加入到数据集中、从数据集中

2020-06-05 16:27:56 69

原创 爬虫爬取招聘信息并进行数据分析
原力计划

目录一、结果放在最前面二、爬虫三、数据处理四、Flask与ECharts一、结果放在最前面(请忽略截图右边的蓝色正方形)使用爬虫爬取智联招聘上关于“数据分析师”岗位的信息,并应用flask和echarts技术实现数据分析结果。二、爬虫主函数(main):实现网页解析以及数据存储。def main(): kw = input("请输入你要搜索的岗位关键字:").strip() keyword = urllib.parse.quote(urllib.parse.quote(kw))

2020-05-31 15:29:44 1405 2

原创 一张图教你学会如何写数据分析报告

示例:中国电力网:2020年中国智能物联网(AIoT)研究报告前瞻经济学人:2020年中国直播带货行业市场现状和发展前景分析 直播带货成电商新动力【组图】艾瑞网:《国内主要城市疫后消费趋势分析》—基于曹操出行大数据艾瑞网:2020年中国电竞行业研究报告艾瑞网:2020年中国企业直播服务市场研究报告...

2020-05-06 14:08:23 329

原创 关于SQL易忘的十五个知识点
原力计划

主要记录SQL尤其是MySQL中,一些看了就忘,需要经常查的小知识点~快速查询1. 下划线_通配符与百分号%通配符的区别2. 匹配不区分大小写3. MySQL正则表达式4. LIKE和REGEXP的区别5. 匹配6. 文本处理函数7. 日期和时间处理函数8. 数值处理函数1. 下划线_通配符与百分号%通配符的区别下划线的用途与%一样,但是%能匹配0个字符不一样,_总是匹配一个字符,不能多也不...

2020-05-03 15:37:15 1961 1

空空如也

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除