- 博客(16)
- 收藏
- 关注
原创 分类问题——逻辑回归与XGBoost
逻辑回归初学逻辑回归的时候就只是简单地认为sigmoid函数可以把线性函数映射到(0,1)的区间上,因此选用了sigmoid模型作为逻辑回归的模型函数。其实是学的太简单了,直到面试的时候被问到这个问题,才想到需要来把坑填一下。事实上可以把线性函数映射到(0,1)上的函数有无穷多个,而逻辑回归使用sigmoid函数并不是随便选的,而是通过理论推导得到的。这里挂上我觉得解释得最清楚的文章:https://www.cnblogs.com/wallacup/p/6024855.html?utm_so
2021-05-11 00:01:44 2880
原创 凸优化解决线性回归问题
感觉在机器学习和深度学习的过程中遇到了瓶颈,细想觉得来自于之前对于优化课程里的知识,尤其是各类规划问题没有完全理解下来,没有把两个学科结合起来学习。受挫明显让我觉得把只是重新拿出来啃一啃,对于复杂的数学式子逐步拆分理解下来。课程学习的教材是经典的Boyd的convex optimization,同时也参考了一些csdn大神的文章。 引言 第一章,引言就不说了,对于这种稍闭环的书,前面主要只是介绍一下研究对象 凸集和凸函数基础概念 第二章 凸集引入凸集的概...
2021-05-01 00:16:26 1057 1
原创 贝叶斯统计的无信息先验和共轭先验
声明:以下为本人的理解,不一定准确,欢迎大神指正和探讨,但请言辞不要过激。在本人博客的一篇好文转载中,可以了解一下频率派和贝叶斯派,这两个学术派的区别和联系。简单来说频率派是完全以出现的样本去估这件事情的概率模型; 贝叶斯派则是先给出这件事情遵循哪一类分布,再根据出现的样本去得到这件事情的具体概率模型。但他们所评估出来的概率模型事实上都应该算作是后验分布,也就是遵循了“出现这样的样本"这个条件。以转载好文中的掷硬币为例频率派,直接根据”十次结果出现七次正面“,来得到这个现象下,.
2021-04-30 16:30:33 4429 1
转载 【转载】Python的运行原理(编译过程及执行原理)
原文链接:https://www.cnblogs.com/stefan-liu/p/5172424.html
2021-03-15 18:20:08 168
原创 精益数据分析(学习笔记)——长期更新
本文来自阅读书籍《精益数据分析》的学习笔记,加上自己的一些理解,整理出来的思路。精益数据分析的周期:上面这张图概括了书籍第二章的内容。精益数据分析的核心,即上图的这整个周期:1. 确定一个好的数据指标;这个指标是根据所面对的问题或者业务来确定的。对于企业来说,就是推动公司业绩增长的指标,即关键绩效指标(KPI)。书中说,一个好的数据指标,应当是比较性的、简单易懂的,通常情况下是一个比率。有五种指标的分类,或者说是评估指标的参考:定性指标、定量指标定性,即”好、坏、.
2021-02-22 14:39:54 786
转载 窗口函数(防忘笔记)
本文参考自知乎帖子:https://zhuanlan.zhihu.com/p/92654574面试热门预警。实话说在接触窗口函数前,我对SQL的了解无外乎就是select, from, where, order by, group by, join,最复杂的无非也就是多个子查询。写起来其实难度不大。于是我觉得窗口函数就像是面试官想试试你的SQL技能上限一样的。那么为了防止自己隔阵子忘记,毕竟还没有实习经历来经常使用SQL,就写个笔记印象深点。首先,应用窗口函数的主要目的...
2021-02-21 18:59:38 315
翻译 One-hot encoding的不足及改进
本文总结翻译自:https://towardsdatascience.com/stop-one-hot-encoding-your-categorical-variables-bbb0fba89809独热编码的不足:1. 产生许多的特征;2. 产生的特征没有带来的更多的信息;3. 产生的特征反而带来了具有共线性的特征。改进方法:1. 目标编码(target encoding):使用target值的均值作为category变量的替换值。代码:from ca..
2021-02-21 01:57:32 1715
原创 分类问题的评估指标(Evaluation for Classifier)
机器学习开始学了回归问题的评估函数,经典的有RMSE(Root Mean Square Error)、MSE(Mean Square Error)、MAE(Mean Absolute Error)、RMSLE(Root Mean Square Logarithmic Error)等等。但是分类问题不是拿这些来评估的。面试的时候还被问到了,只知道回归问题的评估标准是真的尴尬。本文框架参考自:https://towardsdatascience.com/the-5-classification-e.
2021-02-01 17:24:18 920
原创 批量梯度下降、随机梯度下降和小批量梯度下降
首先要知道梯度下降的概念,拿二维的线性回归举例:1. 初始化,得到一个初始线;2. 有了初始线,可以计算所有点的误差,也就是损失函数;对于线性回归,就是构造一个关于斜率w,以及一个关于截距b的损失函数L(w)和L(b)3. 令, 然后导入上面的损失函数中。这里的 t 是步长,表示梯度下降的幅度。在机器学习中,也称为学习率,因为他表示了每一步迭代,即每一次学习的影响和程度。在我的理解中,t 值太大的话,容易错过最优值,反而导致下降速度变慢。因...
2021-01-30 17:54:27 2087
原创 特征选择
1. 线性回归中的特征选择:Lasso、Rdige回归对线性回归进行正则化,即在线性回归的基本公式后面加上对于线性回归系数的惩戒因子。这个意义就是不放任每个特征值参与线性回归的模型计算,即防止过拟合。是一个tradeoff的过程。按范数1、2型,分为了Lasso和Ridge。如使用Lasso进行特征值选择,则需要找到适合的Lambda值。在python中一般先拟定lambda的值,然后用数据集通过k-fold交叉验证进行确定。然后依据图中反映的Lasso,可以在最优的La
2021-01-14 16:05:56 345
原创 数据库优化(学习笔记)
前言:数据库优化确实是比较重要的板块,也是面试数据开发岗位几乎必考的面试题。本菜鸡这学期学了一门数据库相关课《Data Storing and Retrieving》,字面意思理解也就是说最重要的两大板块:一是数据存储,二是数据检索。这两个板块的优化,我认为其实就是数据库的优化。其实这门课,个人觉得往深了读就非常的CS,像本人这种本科非CS的,基本上只能Dive到数据结构这一层,再往下的那些非常具体的数据存储读取方式,就无能为力了。但我会试着用比较浅显易懂的描述,让一些不是CS背景的同学也能
2020-12-20 12:12:03 838 2
原创 学习笔记:数据分析和处理(ML计算模型前的预处理)——持续更新
数据分析和处理,其实就是你计算模型前的预处理步骤。一个不合理的错误数据如果不在预处理的时候剔除,可能会对最终结果造成非常大的影响。在很多时候,如果你换了能换的所有模型和参数,最后计算得到的模型的交叉验证误差一直不令人满意,非常可能是你的数据预处理没做好。数据分析与处理是紧密相关的,这像是句废话,因为你既然分析到了数据不合理的地方自然是要进行相关处理的。但可能是我还太菜,有时候比如你分析到了数据分布非正态化(即数值的count不是理想化的分布的时候),即使采用log/sin/cos/reci.
2020-12-03 13:38:01 665
原创 学习笔记:Model Diagnostics-模型诊断(线性回归)
得到线性回归模型后,应当对模型进行诊断。意思就是,检查是否有以下不合理之处:1. 非线性可以通过散点图来诊断,因为ei以及消除掉源数据中的线性趋势,理想情况下ei应该为大致同一大小,否则可以判断为非线性。2. 忽略重要变量可以将ei和所有排除的特征做散点图,如果发现他们存在关联,则说明此特征是被忽略的。3. 误差方差不定可以通过散点图来诊断,其实原理和非线性相似,方差不定通常是由非线性引起的。4. 误差间独立性可以通过散点图来诊断,这对于处理时间序列与空间计量尤为好用。因为日
2020-12-03 11:16:00 2013
原创 分类与逻辑回归(classification and logistic regression)
背景:学习SML课程的时候,感觉课件堆满了统计学的原理和公式,课后summary很重要,因此留个帖子,分享的同时也当成自己的总结学习(本酸菜鱼第一次写帖子,欢迎大佬们指正!但不接受任何偏激的谩骂哟)Machine Learning的课程里,大多数时候的X都是多个特征值,我个人理解其实就是多维的坐标轴,只不过我们毕竟是三维生物,很难将超过三维的概念在脑海中想象出来。所以我们不妨就直接用二维展现,如此只需简单的联想就能推导到多特征的情况:先举个栗子:从二元分类(binary class.
2020-11-14 18:36:43 425 4
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人