自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 ABtest笔记

一. 统计学原理1. 分布t分布、z分布、卡方、一二类错误2. 最小样本量测算二. 分流分层策略三.

2021-09-27 15:52:34 854

原创 分类问题——逻辑回归与XGBoost

逻辑回归初学逻辑回归的时候就只是简单地认为sigmoid函数可以把线性函数映射到(0,1)的区间上,因此选用了sigmoid模型作为逻辑回归的模型函数。其实是学的太简单了,直到面试的时候被问到这个问题,才想到需要来把坑填一下。事实上可以把线性函数映射到(0,1)上的函数有无穷多个,而逻辑回归使用sigmoid函数并不是随便选的,而是通过理论推导得到的。这里挂上我觉得解释得最清楚的文章:https://www.cnblogs.com/wallacup/p/6024855.html?utm_so

2021-05-11 00:01:44 2756

原创 凸优化解决线性回归问题

感觉在机器学习和深度学习的过程中遇到了瓶颈,细想觉得来自于之前对于优化课程里的知识,尤其是各类规划问题没有完全理解下来,没有把两个学科结合起来学习。受挫明显让我觉得把只是重新拿出来啃一啃,对于复杂的数学式子逐步拆分理解下来。课程学习的教材是经典的Boyd的convex optimization,同时也参考了一些csdn大神的文章。 引言 第一章,引言就不说了,对于这种稍闭环的书,前面主要只是介绍一下研究对象 凸集和凸函数基础概念 第二章 凸集引入凸集的概...

2021-05-01 00:16:26 970 1

原创 贝叶斯统计的无信息先验和共轭先验

声明:以下为本人的理解,不一定准确,欢迎大神指正和探讨,但请言辞不要过激。在本人博客的一篇好文转载中,可以了解一下频率派和贝叶斯派,这两个学术派的区别和联系。简单来说频率派是完全以出现的样本去估这件事情的概率模型; 贝叶斯派则是先给出这件事情遵循哪一类分布,再根据出现的样本去得到这件事情的具体概率模型。但他们所评估出来的概率模型事实上都应该算作是后验分布,也就是遵循了“出现这样的样本"这个条件。以转载好文中的掷硬币为例频率派,直接根据”十次结果出现七次正面“,来得到这个现象下,.

2021-04-30 16:30:33 4276 1

转载 【转载】Python的运行原理(编译过程及执行原理)

原文链接:https://www.cnblogs.com/stefan-liu/p/5172424.html

2021-03-15 18:20:08 130

转载 最大似然/最大后验估计:频率派vs贝叶斯派(转发好文)

好文链接:https://zhuanlan.zhihu.com/p/40024110

2021-03-05 01:16:36 74 1

原创 精益数据分析(学习笔记)——长期更新

本文来自阅读书籍《精益数据分析》的学习笔记,加上自己的一些理解,整理出来的思路。精益数据分析的周期:上面这张图概括了书籍第二章的内容。精益数据分析的核心,即上图的这整个周期:1. 确定一个好的数据指标;这个指标是根据所面对的问题或者业务来确定的。对于企业来说,就是推动公司业绩增长的指标,即关键绩效指标(KPI)。书中说,一个好的数据指标,应当是比较性的、简单易懂的,通常情况下是一个比率。有五种指标的分类,或者说是评估指标的参考:定性指标、定量指标定性,即”好、坏、.

2021-02-22 14:39:54 720

转载 窗口函数(防忘笔记)

本文参考自知乎帖子:https://zhuanlan.zhihu.com/p/92654574面试热门预警。实话说在接触窗口函数前,我对SQL的了解无外乎就是select, from, where, order by, group by, join,最复杂的无非也就是多个子查询。写起来其实难度不大。于是我觉得窗口函数就像是面试官想试试你的SQL技能上限一样的。那么为了防止自己隔阵子忘记,毕竟还没有实习经历来经常使用SQL,就写个笔记印象深点。首先,应用窗口函数的主要目的...

2021-02-21 18:59:38 260

翻译 One-hot encoding的不足及改进

本文总结翻译自:https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809独热编码的不足:1. 产生许多的特征;2. 产生的特征没有带来的更多的信息;3. 产生的特征反而带来了具有共线性的特征。改进方法:1. 目标编码(target encoding):使用target值的均值作为category变量的替换值。代码:from ca..

2021-02-21 01:57:32 1588

原创 分类问题的评估指标(Evaluation for Classifier)

机器学习开始学了回归问题的评估函数,经典的有RMSE(Root Mean Square Error)、MSE(Mean Square Error)、MAE(Mean Absolute Error)、RMSLE(Root Mean Square Logarithmic Error)等等。但是分类问题不是拿这些来评估的。面试的时候还被问到了,只知道回归问题的评估标准是真的尴尬。本文框架参考自:https://towardsdatascience.com/the-5-classification-e.

2021-02-01 17:24:18 847

原创 批量梯度下降、随机梯度下降和小批量梯度下降

首先要知道梯度下降的概念,拿二维的线性回归举例:1. 初始化,得到一个初始线;2. 有了初始线,可以计算所有点的误差,也就是损失函数;对于线性回归,就是构造一个关于斜率w,以及一个关于截距b的损失函数L(w)和L(b)3. 令, 然后导入上面的损失函数中。这里的 t 是步长,表示梯度下降的幅度。在机器学习中,也称为学习率,因为他表示了每一步迭代,即每一次学习的影响和程度。在我的理解中,t 值太大的话,容易错过最优值,反而导致下降速度变慢。因...

2021-01-30 17:54:27 2032

原创 特征选择

1. 线性回归中的特征选择:Lasso、Rdige回归对线性回归进行正则化,即在线性回归的基本公式后面加上对于线性回归系数的惩戒因子。这个意义就是不放任每个特征值参与线性回归的模型计算,即防止过拟合。是一个tradeoff的过程。按范数1、2型,分为了Lasso和Ridge。如使用Lasso进行特征值选择,则需要找到适合的Lambda值。在python中一般先拟定lambda的值,然后用数据集通过k-fold交叉验证进行确定。然后依据图中反映的Lasso,可以在最优的La

2021-01-14 16:05:56 316

原创 数据库优化(学习笔记)

前言:数据库优化确实是比较重要的板块,也是面试数据开发岗位几乎必考的面试题。本菜鸡这学期学了一门数据库相关课《Data Storing and Retrieving》,字面意思理解也就是说最重要的两大板块:一是数据存储,二是数据检索。这两个板块的优化,我认为其实就是数据库的优化。其实这门课,个人觉得往深了读就非常的CS,像本人这种本科非CS的,基本上只能Dive到数据结构这一层,再往下的那些非常具体的数据存储读取方式,就无能为力了。但我会试着用比较浅显易懂的描述,让一些不是CS背景的同学也能

2020-12-20 12:12:03 790 2

原创 学习笔记:数据分析和处理(ML计算模型前的预处理)——持续更新

数据分析和处理,其实就是你计算模型前的预处理步骤。一个不合理的错误数据如果不在预处理的时候剔除,可能会对最终结果造成非常大的影响。在很多时候,如果你换了能换的所有模型和参数,最后计算得到的模型的交叉验证误差一直不令人满意,非常可能是你的数据预处理没做好。数据分析与处理是紧密相关的,这像是句废话,因为你既然分析到了数据不合理的地方自然是要进行相关处理的。但可能是我还太菜,有时候比如你分析到了数据分布非正态化(即数值的count不是理想化的分布的时候),即使采用log/sin/cos/reci.

2020-12-03 13:38:01 648

原创 学习笔记:Model Diagnostics-模型诊断(线性回归)

得到线性回归模型后,应当对模型进行诊断。意思就是,检查是否有以下不合理之处:1. 非线性可以通过散点图来诊断,因为ei以及消除掉源数据中的线性趋势,理想情况下ei应该为大致同一大小,否则可以判断为非线性。2. 忽略重要变量可以将ei和所有排除的特征做散点图,如果发现他们存在关联,则说明此特征是被忽略的。3. 误差方差不定可以通过散点图来诊断,其实原理和非线性相似,方差不定通常是由非线性引起的。4. 误差间独立性可以通过散点图来诊断,这对于处理时间序列与空间计量尤为好用。因为日

2020-12-03 11:16:00 1906

原创 分类与逻辑回归(classification and logistic regression)

背景:学习SML课程的时候,感觉课件堆满了统计学的原理和公式,课后summary很重要,因此留个帖子,分享的同时也当成自己的总结学习(本酸菜鱼第一次写帖子,欢迎大佬们指正!但不接受任何偏激的谩骂哟)Machine Learning的课程里,大多数时候的X都是多个特征值,我个人理解其实就是多维的坐标轴,只不过我们毕竟是三维生物,很难将超过三维的概念在脑海中想象出来。所以我们不妨就直接用二维展现,如此只需简单的联想就能推导到多特征的情况:先举个栗子:从二元分类(binary class.

2020-11-14 18:36:43 309 4

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除