一枚达达-CSDN博客

原创 ABtest笔记

一. 统计学原理1. 分布t分布、z分布、卡方、一二类错误2. 最小样本量测算二. 分流分层策略三.

2021-09-27 15:52:34 1026

逻辑回归初学逻辑回归的时候就只是简单地认为sigmoid函数可以把线性函数映射到(0，1)的区间上，因此选用了sigmoid模型作为逻辑回归的模型函数。其实是学的太简单了，直到面试的时候被问到这个问题，才想到需要来把坑填一下。事实上可以把线性函数映射到(0，1)上的函数有无穷多个，而逻辑回归使用sigmoid函数并不是随便选的，而是通过理论推导得到的。这里挂上我觉得解释得最清楚的文章：https://www.cnblogs.com/wallacup/p/6024855.html?utm_so

2021-05-11 00:01:44 3026

原创凸优化解决线性回归问题

感觉在机器学习和深度学习的过程中遇到了瓶颈，细想觉得来自于之前对于优化课程里的知识，尤其是各类规划问题没有完全理解下来，没有把两个学科结合起来学习。受挫明显让我觉得把只是重新拿出来啃一啃，对于复杂的数学式子逐步拆分理解下来。课程学习的教材是经典的Boyd的convex optimization，同时也参考了一些csdn大神的文章。引言第一章，引言就不说了，对于这种稍闭环的书，前面主要只是介绍一下研究对象凸集和凸函数基础概念第二章凸集引入凸集的概...

2021-05-01 00:16:26 1119 1

原创贝叶斯统计的无信息先验和共轭先验

声明：以下为本人的理解，不一定准确，欢迎大神指正和探讨，但请言辞不要过激。在本人博客的一篇好文转载中，可以了解一下频率派和贝叶斯派，这两个学术派的区别和联系。简单来说频率派是完全以出现的样本去估这件事情的概率模型；贝叶斯派则是先给出这件事情遵循哪一类分布，再根据出现的样本去得到这件事情的具体概率模型。但他们所评估出来的概率模型事实上都应该算作是后验分布，也就是遵循了“出现这样的样本"这个条件。以转载好文中的掷硬币为例频率派，直接根据”十次结果出现七次正面“，来得到这个现象下，.

2021-04-30 16:30:33 4625 1

转载【转载】Python的运行原理（编译过程及执行原理）

原文链接：https://www.cnblogs.com/stefan-liu/p/5172424.html

2021-03-15 18:20:08 182

转载最大似然/最大后验估计：频率派vs贝叶斯派（转发好文）

好文链接：https://zhuanlan.zhihu.com/p/40024110

2021-03-05 01:16:36 96 1

原创精益数据分析（学习笔记）——长期更新

本文来自阅读书籍《精益数据分析》的学习笔记，加上自己的一些理解，整理出来的思路。精益数据分析的周期：上面这张图概括了书籍第二章的内容。精益数据分析的核心，即上图的这整个周期：1. 确定一个好的数据指标；这个指标是根据所面对的问题或者业务来确定的。对于企业来说，就是推动公司业绩增长的指标，即关键绩效指标（KPI）。书中说，一个好的数据指标，应当是比较性的、简单易懂的，通常情况下是一个比率。有五种指标的分类，或者说是评估指标的参考：定性指标、定量指标定性，即”好、坏、.

2021-02-22 14:39:54 858

转载窗口函数（防忘笔记）

本文参考自知乎帖子：https://zhuanlan.zhihu.com/p/92654574面试热门预警。实话说在接触窗口函数前，我对SQL的了解无外乎就是select, from, where, order by, group by, join，最复杂的无非也就是多个子查询。写起来其实难度不大。于是我觉得窗口函数就像是面试官想试试你的SQL技能上限一样的。那么为了防止自己隔阵子忘记，毕竟还没有实习经历来经常使用SQL，就写个笔记印象深点。首先，应用窗口函数的主要目的...

2021-02-21 18:59:38 381

翻译 One-hot encoding的不足及改进

本文总结翻译自：https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809独热编码的不足：1. 产生许多的特征；2. 产生的特征没有带来的更多的信息；3. 产生的特征反而带来了具有共线性的特征。改进方法：1. 目标编码（target encoding）：使用target值的均值作为category变量的替换值。代码：from ca..

2021-02-21 01:57:32 1870

原创分类问题的评估指标(Evaluation for Classifier)

机器学习开始学了回归问题的评估函数，经典的有RMSE(Root Mean Square Error)、MSE(Mean Square Error)、MAE(Mean Absolute Error)、RMSLE(Root Mean Square Logarithmic Error)等等。但是分类问题不是拿这些来评估的。面试的时候还被问到了，只知道回归问题的评估标准是真的尴尬。本文框架参考自：https://towardsdatascience.com/the-5-classification-e.

2021-02-01 17:24:18 974

原创批量梯度下降、随机梯度下降和小批量梯度下降

首先要知道梯度下降的概念，拿二维的线性回归举例：1. 初始化，得到一个初始线；2. 有了初始线，可以计算所有点的误差，也就是损失函数；对于线性回归，就是构造一个关于斜率w，以及一个关于截距b的损失函数L(w)和L(b)3. 令，然后导入上面的损失函数中。这里的 t 是步长，表示梯度下降的幅度。在机器学习中，也称为学习率，因为他表示了每一步迭代，即每一次学习的影响和程度。在我的理解中，t 值太大的话，容易错过最优值，反而导致下降速度变慢。因...

2021-01-30 17:54:27 2133

原创特征选择

1. 线性回归中的特征选择：Lasso、Rdige回归对线性回归进行正则化，即在线性回归的基本公式后面加上对于线性回归系数的惩戒因子。这个意义就是不放任每个特征值参与线性回归的模型计算，即防止过拟合。是一个tradeoff的过程。按范数1、2型，分为了Lasso和Ridge。如使用Lasso进行特征值选择，则需要找到适合的Lambda值。在python中一般先拟定lambda的值，然后用数据集通过k-fold交叉验证进行确定。然后依据图中反映的Lasso，可以在最优的La

2021-01-14 16:05:56 376

原创数据库优化（学习笔记）

前言：数据库优化确实是比较重要的板块，也是面试数据开发岗位几乎必考的面试题。本菜鸡这学期学了一门数据库相关课《Data Storing and Retrieving》，字面意思理解也就是说最重要的两大板块：一是数据存储，二是数据检索。这两个板块的优化，我认为其实就是数据库的优化。其实这门课，个人觉得往深了读就非常的CS，像本人这种本科非CS的，基本上只能Dive到数据结构这一层，再往下的那些非常具体的数据存储读取方式，就无能为力了。但我会试着用比较浅显易懂的描述，让一些不是CS背景的同学也能

2020-12-20 12:12:03 906 2

原创学习笔记：数据分析和处理（ML计算模型前的预处理）——持续更新

数据分析和处理，其实就是你计算模型前的预处理步骤。一个不合理的错误数据如果不在预处理的时候剔除，可能会对最终结果造成非常大的影响。在很多时候，如果你换了能换的所有模型和参数，最后计算得到的模型的交叉验证误差一直不令人满意，非常可能是你的数据预处理没做好。数据分析与处理是紧密相关的，这像是句废话，因为你既然分析到了数据不合理的地方自然是要进行相关处理的。但可能是我还太菜，有时候比如你分析到了数据分布非正态化（即数值的count不是理想化的分布的时候），即使采用log/sin/cos/reci.

2020-12-03 13:38:01 706

原创学习笔记：Model Diagnostics-模型诊断（线性回归）

得到线性回归模型后，应当对模型进行诊断。意思就是，检查是否有以下不合理之处：1. 非线性可以通过散点图来诊断，因为ei以及消除掉源数据中的线性趋势，理想情况下ei应该为大致同一大小，否则可以判断为非线性。2. 忽略重要变量可以将ei和所有排除的特征做散点图，如果发现他们存在关联，则说明此特征是被忽略的。3. 误差方差不定可以通过散点图来诊断，其实原理和非线性相似，方差不定通常是由非线性引起的。4. 误差间独立性可以通过散点图来诊断，这对于处理时间序列与空间计量尤为好用。因为日

2020-12-03 11:16:00 2180

原创分类与逻辑回归(classification and logistic regression)

背景：学习SML课程的时候，感觉课件堆满了统计学的原理和公式，课后summary很重要，因此留个帖子，分享的同时也当成自己的总结学习（本酸菜鱼第一次写帖子，欢迎大佬们指正！但不接受任何偏激的谩骂哟）Machine Learning的课程里，大多数时候的X都是多个特征值，我个人理解其实就是多维的坐标轴，只不过我们毕竟是三维生物，很难将超过三维的概念在脑海中想象出来。所以我们不妨就直接用二维展现，如此只需简单的联想就能推导到多特征的情况：先举个栗子：从二元分类(binary class.

2020-11-14 18:36:43 439 4

weixin_48457572的博客