自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(26)
  • 资源 (1)
  • 收藏
  • 关注

原创 复杂AB实验

AB测试的检验指标可以分为两大类绝对值指标、比例值指标。两者的方差计算方式不同。其中比例值根据分母不同又可分为两类分母为人次(留存率、转化率等)、分母为行为次数(曝光点击率)。分母为人次,分流单位和分析单位相同,可以用z检验;分母为行为次数,分析单位之间不独立,要用delta检验。......

2022-08-01 00:49:35 740 1

原创 概率分布及其应用

实验有两种结果,发生概率为p、1−p,如扔硬币。X为离散变量,X~Bernoulli(p),P(X=1)=p。

2022-07-31 21:22:34 714

原创 delta method 介绍

众所周知,当一个变量X服从正态分布时,其线性变换也服从正态分布。那么非线性变换呢?delta方法提出,其经过可导函数变换后得到的g(X)仍然概率趋向正态分布,并且提供了期望、方差的计算公式。单变量X变换为g(X),对g(X)g(X)≈g(θ)+g′(θ)(X−θ)g(X)−g(θ)≈g′(θ)(X−θ)→νN(0,σ2∗[g’(θ)]2)g(θ)为常数,故。...

2022-07-27 19:34:40 8596

原创 PSM总结

背景在评估实验效果时,在非随机性实验中,相关性不等于因果性,存在各种偏差。例1:进行一项调查,调查内容是去不去医院是否会影响个人健康,因此向医院里的各类人员发放问卷并得出其健康状况,最后发现去医院不利于个人健康。样本选择偏差:sample selection bias例2:评估一项污染防治政策的政策效果,选择期初污染程度基本一致的地区作为样本,并根据各地区意愿决定其是否实施该项政策,3年后政策实施地的污染指标明显低于未实施该政策的地区,结论是这项政策有效。自选择偏差:self-select

2022-06-16 16:05:21 3014

原创 SFM算法介绍

背景股票市场存在着短线、中长线、长线等不同频率的交易模式,这些交易活动决定了股票价格的变动。为了对股票价格进行预测,该文章提出了一种循环神经网络SFM,可以从股票价格的时序数据中捕捉多种频率的交易规律,从而做出短期/长期预测。知识基础傅里叶变换作用:任何周期信号都可以分解为正弦函数的累加和。分解后:用公式表示:设x[n]x[n]x[n]是一系列离散信号,将其进行傅里叶变换傅里叶逆变换:根据欧拉公式进行一系列推导,发现x[n]x[n]x[n]可以表示为一系列三角函数的和。三角函数可以看

2022-02-17 18:52:17 2008

原创 海量数据找TopK

本质一种排序问题快速排序时间复杂度最优 O(nlog(n))O(nlog(n))O(nlog(n)),最差 O(n2)O(n^2)O(n2)分析:最优情况下,每次的基准值最终都位于数组正中间,相当于每次将数组分成两半遍历;最差时每次基准值都位于数组开头/结尾,每次只是从n个变为n-1个继续遍历。题目最大堆创建最小堆储存 k 个最大数。对每一个新来的数,比较与堆顶元素的大小,大于堆顶元素,则插入。时间复杂度堆可在 log 时间内进行插入和删除...

2021-12-15 21:42:21 286

原创 数据不平衡处理方式

数据方面欠采样从多数样本中抽样,控制比例。baggingboosting首先我们会使用全部的正样本和从负例候选集中随机采样一部分负样本(这里假如是100条)去训练第一轮分类器;然后用第一轮分类器去预测负例候选集剩余的9900条数据,把9900条负例中预测为正例的样本(也就是预测错误的样本)再随机采样100条和第一轮训练的数据放到一起去训练第二轮分类器;同样的方法用第二轮分类器去预测负例候选集剩余的9800条数据,直到训练的第N轮分类器可以全部识别负例候选集,这就是使用迭代预分类的方式进行欠采

2021-12-13 01:09:22 806

原创 计算广告基础知识

关键平台考虑:我用什么赚钱?计费点:发生什么行为时收取费用广告主考虑:我要出多少钱?出价点:我按什么单位出价平台、广告主都考虑:曝光量竞价点:按什么排序常见CPC模式公式每个行为价格 = 后续价格 × 后到前转换比相当于一个倒推的过程,最后落在了考核点,对广告主来说,就是愿意用多少成本获客。eCPM=CPC×CTR×1000eCPM=CPC×CTR×1000eCPM=CPC×CTR×1000CPC=CPA×CVRCPC=CPA × CVRCPC=CPA×CVR流程广告主按照预期

2021-12-12 16:07:34 279

原创 循环神经网络知识框架

循环体现在哪里?体现在隐藏层之间的连接中。普通神经网络的隐藏层没有连接。RNN为了提取时序数据之间的关系,让 ttt 时刻的隐藏层状态受到上一时刻 ht−1h_{t-1}ht−1​ 的影响。在时间上展开:ht=f(Uht−1+Wxt+b)h_t = f(Uh_{t-1}+Wx_{t}+b)ht​=f(Uht−1​+Wxt​+b)可以看出公式中蕴含的递归关系。h0h_0h0​ 需要初始化。RNN的几种应用RNN输出什么?以 pytorchpytorchpytorch 为例,输出两个值。t

2021-12-06 23:54:51 681

原创 归并排序小结

什么是归并排序?归并排序是用递归实现的排序方法,先将数组不断二分,直至拆分成单个;再两两按大小归并。关键词是先分后合。分完后合并的顺序如下图所示归并排序的执行顺序结合代码void merge_sort(vector<int> &nums, int l, int r, vector<int> &temp){ if(l + 1>=r) return ; //递归终止条件 //分:不断 int m = (l+r)/2; merge_sor

2021-11-23 22:20:40 216

原创 BP算法公式详解

BP反向传播以下内容总结自李宏毅深度学习https://datawhalechina.github.io/leeml-notes/#/chapter14/chapter14zzz代表每一层的线性结果,aaa代表zzz激活后的结果。前向传播∂z∂w\frac{\partial{z}}{\partial{w}}∂w∂z​描述加法器输出与输入之间的关系∂z∂w=x\frac{\partial{z}}{\partial{w}}=x∂w∂z​=x反向传播∂L∂Z\frac{\partial{L}}{\p

2021-11-07 23:44:50 2702

原创 机器学习常见损失函数

平方损失函数L(yi,f(xi))=∑i=1n(yi−f(xi))2L(y_i, f(x_i))=\sum_{i=1}^{n}(y_i-f(x_i))^2L(yi​,f(xi​))=∑i=1n​(yi​−f(xi​))2适用于回归预测延伸MSE(Mean Square Error)MSE=LnMSE = \frac{L}{n}MSE=nL​绝对值损失函数L(yi,f(xi))=∣yi−f(xi)∣L(y_i, f(x_i))=|y_i-f(x_i)|L(yi​,f(xi​))=∣yi​−f(x

2021-11-07 22:27:38 453

原创 LightGBM学习笔记

LightGBM简介LightGBM是GBDT算法地实现框架之一,设计的初衷是并行、高效。特点是训练速度快、内存消耗小、可并行运算、支持类别变量。LightGBM优化点直方图算法不同于XGBoost的预排序,LightGBM将区间离散化,划分为桶(bin),确定每个样本属于哪个桶。在遍历数据找最优划分点时,只需要遍历每个桶即可。XGBoost预排序算法每遍历一个特征值就需要计算一次分裂的增益,而直方图算法只需要计算kkk次(kkk可以认为是常数),时间复杂度从O(#data∗#feature)O

2021-08-07 20:46:01 586

原创 XGBoost学习笔记

概念XGBoost即Extreme Gredient Boosting,是一种基于CART决策树的boosting算法相比GBDT来说优化迭代的方式不同。GBDT使用损失函数的负梯度近似残差来训练下一棵树;原理优化方式设XGBoost模型为 y^i=∑k=1Kfk(xi)\hat y_i=\sum_{k=1}^Kf_k(x_i)y^​i​=∑k=1K​fk​(xi​)则第 ttt 次优化的损失函数为L=∑i=1nL(yi,Ft−1(xi)+ft(xi))+∑k=1K(γTk+12λ∣∣wk∣∣

2021-07-30 18:14:17 180

原创 组合分类器学习笔记

一、概念由训练数据构建一组基分类器(base classifier),将每个基分类器的预测结果进行组合(ensemble)得到最终结果。为什么组合分类器的效果好于基分类器?设基分类器的误差为ϵ\epsilonϵ,对NNN个组合分类器来说,只有超过一半以上基分类器都预测错误时,最终预测结果才错误。当基分类器互相独立时,组合分类器的错误率为∑i=N2NCNiϵi(1−ϵ)N−i\sum_{i=\frac{N}{2}}^NC_N^i\epsilon^i(1-\epsilon)^{N-i}∑i=2N​N​C

2021-07-27 21:29:58 847

原创 决策树学习笔记

一、概念在树的结点处按照属性的不同条件对样本进行划分。二、决策树的生成1. 特征的选择:局部最优选择最优属性的最优划分。度量结点的不确定程度:熵、基尼系数、分类错误率。结点越不纯,结点处类分布越平衡,值越大。Entropy(t)=−∑k=0Kp(k∣t)log(p(k∣t))Entropy(t) = -\sum_{k=0}^K p(k|t)log(p(k|t))Entropy(t)=−∑k=0K​p(k∣t)log(p(k∣t))Gini(t)=1−∑k=0K[p(k∣t)]2Gini(t)

2021-07-26 20:50:56 486

原创 一些基础名词

客户端(client)客户端(Client)是指与服务器相对应并为客户提供本地服务的程序。 除了仅在本地运行的某些应用程序外,它们通常安装在普通客户端上,并且需要与服务器一起使用。服务端(server)客户端发送的请求交给服务器端处理,是以response对象存在,服务器端处理完毕后反馈给客户端。服务端用于数据的储存和处理,客户端向用户展示处理后的结果。...

2021-06-30 09:56:28 67

原创 AB测试梳理

基础概念实验层正交实验 / 互斥实验AA实验反转实验实验解读原理检验方式样本量计算

2021-06-06 20:06:43 1889

原创 埋点基础及实践

实习过程中接触了埋点工作,参与了埋点的设计、评审、验收,对一些相关经验进行了总结。什么是埋点埋点是将用户在App或者网页上各种行为记录下来并且上报的机制。埋点能够记录用户的行为路径,帮助我们从数据角度一窥用户习惯和用户体验。埋点方案设计在接到一个埋点需求后,要进行以下步骤与需求方(产品/运营)确认所需要指标的明确定义,讨论指标是否有意义、是否可行。在设计埋点方案前,通常要先和产品/运营过一遍需求prd,了解整个产品/活动的流程。有经验的需求方一般已经列出了所需指标和定义,但需求方往往站在产

2021-05-30 17:55:30 246

原创 python的包和模块

模块(module)在 Python 中,所有以.py结尾的文件就称之为一个模块(Module)。模块相当于一个代码脚本,其中包括一些类、函数。调用模块后可使用这些类/函数。以re为例,以.py文件形式储存打开可看基本功能函数调用模块的方法:import os可以只调用模块中的部分功能from re import match as m包(package)包是按目录组织模块的一种方式,可以避免模块名之间的冲突。包内有__init__.py文件存放包的信息以sklearn为例,以文

2021-05-10 18:37:58 68

原创 SVM

SVM实现SVM可视化比较

2020-04-01 18:31:37 73

原创 python与R读取数据

R语言读取数据read.csv 与 read.table两个函数相似,都可以读取分隔符分割的数据,多为txt、csv形式。但是一些默认分割符号和标题不同:read.table(file, header = FALSE, sep = "")read.csv(file, header = TRUE, sep = ",")read.csv2(file, header = TRUE, sep =...

2020-03-27 00:58:31 687

原创 Python中pip的用法

常用命令显示版本和路径pip --version获取帮助pip --help升级pip install -U pip或sudo easy_install --upgrade pip安装包pip install SomePackage # 最新版本pip install SomePackage==1.0.4 # 指定版本...

2020-03-26 23:49:16 109

原创 python绝对路径、相对路径与os.path

绝对路径绝对路径有两种表示方式:1. 单斜杠df = pd.read_csv('C:/Users/NYK/Desktop/1.csv')2. 双反斜杠 df = pd.read_csv('C:\\Users\\NYK\\py\\1.csv')注意不能用单反斜杠,因为反斜杠+字母通常表示转义,如 \n 。如果用单反斜杠会报错:>>SyntaxError: (unicod...

2020-03-26 23:35:03 3043

原创 numpy一维数组转置

一维数组转置numpy中默认的一维数组形式可能是x = np.array([1,2,3,4])此时对此数组进行转置操作 x.T 没用用,因为转置操作只能用在二维数组上。要对其变为列向量,采用以下操作x = np.array([x])此时变为array([[1, 2, 3, 4]]) 二维数组,然后转置x.T此时输出结果为array([[1],[2],[3],[4...

2020-03-22 16:01:29 4537 2

原创 R语言绘图大小及图例问题

R语言绘图大小及图例问题一直对R语言绘图的布局参数不是很熟悉,今天了解了一下par()函数par()函数可以设置绘图的全局参数,如lty、pch等。这些设置除非被修改,否则在接下来的所有代码中均成立。par(no.readonly = T) 显示默认参数值图形边距:mar/mai参数图形边距设定参数可以用mai(英寸边距)和mar(行边距)。四个边距的顺序是下、左、上、右 (顺时针...

2020-03-20 12:36:51 34013

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除