自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(22)
  • 收藏
  • 关注

原创 【技法】Lecture 15 :Matrix Factorization

Matrix Factorization【参考】https://redstonewill.com/783/从电影推荐系统模型出发,首先,介绍了Linear Network。它从用户ID编码后的向量中提取出有用的特征,这是典型的feature extraction。然后,我们介绍了基本的Matrix Factorization算法,即alternating least squares,不断地在用户和电影之间交互地做linear regression进行优化。为了简化计算,提高运算速度

2020-10-22 22:22:08 134

原创 【技法】Lecturer 13 :Deep Learning

Lecturer 13 :Deep Learning【参考】https://redstonewill.com/710/神经网络是由一层一层的神经元构成,其作用就是帮助提取原始数据中的模式即特征,简称为pattern feature extraction。神经网络模型的关键是计算出每个神经元的权重,方法就是使用Backpropagation算法,利用GD/SGD,得到每个权重的最优解。本节课我们将继续对神经网络进行深入研究,并介绍层数更多、神经元个数更多、模型更复杂的神经网络模型,即深度学习模型。【

2020-10-19 20:26:16 136

原创 技法 - Lec 12 : Neural Network

2020-10-18 11:08:45 89

原创 Lecture 16 : Three Learning Principles

Lecture 16 : Three Learning Principles【参考】https://redstonewill.com/311/【概括】机器学习三个重要的锦囊妙计:Occam’s Razor, Sampling Bias, Data Snooping。并对《机器学习基石》课程中介绍的所有知识和方法进行“三的威力”这种形式的概括与总结,“三的威力”也就构成了坚固的机器学习基石。16.1 Occam’s Razor奥卡姆剃刀定律:如无必要,勿增实体”,就像剃刀一样,将不必要的部分去除掉

2020-10-11 16:34:53 109

原创 Lecture 15 :Validation

Lecture 15 :Validation【参考】https://redstonewill.com/255/【概括】本节课主要介绍了Validation验证。先从如何选择一个好的模型开始切入,例如使用Ein、Etest都是不太好的,最终使用Eval来进行模型选择。然后详细介绍了Validation的过程。最后,介绍了Leave-One-Out和V-Fold Cross两种验证方法,比较它们各自的优点和缺点,实际情况下,V-Fold Cross更加常用。15.1 Model Selectio

2020-10-10 14:13:11 106

原创 Lecture 14 :Regularization

Lecture 14 :Regularization【参考】https://redstonewill.com/252/【概括】本节课主要介绍了Regularization。首先,原来的hypothesis set加上一些限制条件,就成了Regularized Hypothesis Set。加上限制条件之后,我们就可以把问题转化为Eaug最小化问题,即把w的平方加进去。这种过程,实际上回降低VC Dimension。最后,介绍regularization是通用的机器学习工具,设计方法通常包括t

2020-10-10 10:02:18 118

原创 Lecture 13 : Hazard of Overfitting

Lecture 13 : Hazard of Overfitting【参考】https://redstonewill.com/249/【概括】介绍了过拟合的概念,即当Ein很小,Eout很大的时候,会出现overfitting。详细介绍了overfitting发生的四个常见原因data size N、stochastic noise、deterministic noise和excessive power。解决overfitting的方法有很多,本节课主要介绍了data cleaning/pruni

2020-10-07 16:21:01 80

原创 Lecture 12 : Nonlinear Transformation

Lecture 12 : Nonlinear Transformation【参考】https://redstonewill.com/246/【概括】主要介绍了非线性分类模型:通过非线性变换,将非线性模型映射到另一个空间,转换为线性模型,再来进行线性分类;非线性变换的整体流程(特征转换+线性模型训练)。得到一个好的二次hypothesis来达到良好的分类效果的目标就是在z域中设计一个最佳的分类线;非线性变换可能会带来的一些问题:时间复杂度和空间复杂度的增加;在要付出代价的情况下,使用非线性变换

2020-10-06 14:33:29 202

原创 Lecture 11 :Linear Models for Classification

Lecture 11 :Linear Models for Classification【参考】https://redstonewill.com/243/【概括】分类问题的三种线性模型:linear classification、linear regression和logistic regression。这三种linear models都可以来做binary classification;比梯度下降算法更加高效的SGD算法来进行logistic regression分析;两种多分类方法,一种是O

2020-10-05 10:27:55 129

原创 Lecture 10 : Logistic Regression

Lecture 10 : Logistic Regression【参考】https://redstonewill.com/236/【概括】1.软性二分类问题:值越接近1,表示正类的可能性越大;越接近0,表示负类的可能性越大Logistic Regression与Linear Classification、Linear Regression做个比较:logistic regression的err function,称之为cross-entropy error交叉熵误差:目的是使E

2020-10-04 21:19:03 103

原创 Lecture 9: Linear Regression

Lecture 9: Linear Regression【参考】https://redstonewill.com/232/【概括】介绍了Linear Regression。从问题出发,想要找到一条直线拟合实际数据值;利用最小二乘法,用解析形式推导了权重w的closed-form解;用图形的形式证明了linear regression是可以进行机器学习的;证明linear regressin这种方法可以用在binary classification上,虽然上界变宽松了,但是仍然能得到不错的学习

2020-09-30 12:23:34 125

原创 Lecture 8:Noise and Error

Lecture 8:Noise and Error【参考】https://redstonewill.com/227/【概括】8.1 Noise and Probablistic targetData Sets的Noise一般有三种情况:由于人为因素,正类被误分为负类,或者负类被误分为正类;同样特征的样本被模型分为不同的类;样本的特征被错误记录和使用。在引入noise的情况下,新的学习流程图如下所示:8.2 ERROR Measureg对错误的衡量有三个特性:out-of-sa

2020-09-29 14:16:24 55

原创 Lecture 7:The VC Dimansion

Lecture 7:The VC Dimansion【参考】https://redstonewill.com/222/所有截图均来自课程课件【概括】VC Dimension的概念就是最大的non-break point。然后,我们得到了Perceptrons在d维度下的VC Dimension是d+1。接着,我们在物理意义上,将VC Dimension与自由度联系起来。最终得出结论VC Dimension不能过大也不能过小。选取合适的值,才能让Eout足够小,使假设空间H具有良好的泛化能力。7.1

2020-09-28 11:21:54 106

原创 Lecture 6 :Theory of generalization

Lecture 6 :Theory of generalization【参考】https://redstonewill.com/217/截图来自于参考链接与课程课件【概括】6.1 Restrictions of break point增长函数:二分类的最多可能组合数回顾一些例子:【回顾】shatter的意思是对N个点,能够分解为2的N次方种dichotomiesquiz:break point为1,则m最大为1,因为第二种总会和第一种有不一样的地方6.2 Bounding Func

2020-09-27 11:21:19 68

原创 Lecture 5:Training versus Testing

Lecture 5:Training versus Testing参考:https://beader.me/mlnotebook/section2/vc-dimension-one.html【概括】当M趋于无穷时,考虑如何去限制不等式左面 -> 考虑 增长函数 breakpoint前四节汇总体系:“什么时候机器学习是可行的”两个关键问题:训练结果与测试结果类似、让错误足够小假设集的大小很关键,同时解决两个问题很难【关键】不等式第m个方程遇到bad sample为事件,则遇到

2020-09-26 23:52:17 88

原创 Lecture 4:Feasibility of Learning

Lecture 4:Feasibility of Learning探讨机器学习的可行性:假设集有限,资料数据量足够大参考:https://beader.me/mlnotebook/section2/is-learning-feasible.html4.1 Learning is Impossible虽然我们可以保证我们的在上的判断和真实的一致,但我们无法保证在之外也同样如此。那么这里便值得怀疑一下机器学习的可行性,机器学习到底可不可行?4.2 Possibility to the Rescue

2020-09-25 14:36:06 112

原创 Lecture 3:Types of Learning

Lecture 3:Types of Learning一切截图均来源于课程讲义【概括】分别从输出、数据标记(有无)、数据输入方式、输入features类型对机器学习方式进行分类3.1 Learing with different output space二分类问题 --> 多分类问题regression 回归分析问题(用于预测)特点:输出为一个实数3.2 Learing with different labelsSupervised Learning 监督式学习Unsup

2020-09-25 11:11:07 236

原创 DSB2017-学习笔记-2019.1.14

DSB2017-学习笔记-2019.1.14阅读论文:1目的检测所有可疑的病变(肺结节)以及评估整个肺部恶性程度2主要思路三维深度神经网络(3D deep neural network)包含两个模块:用于结节检测的3D region proposal network基于置信检测(the detection confidence)选出top-5结节并评估其癌症可能性,最后将此概率...

2020-09-23 16:53:22 477

原创 学习记录Part2 数据和预处理

学习记录Part2 数据和预处理数据训练本模型用了两个肺扫描数据集:肺结节分析数据集简称LUNA,数据科学碗2017训练集简称DSB。LUNA:这个数据集上有888个病人,1186个标记的肺结节DSB:这个数据集上1397个病人作为训练,198个病人作为验证,506个病人作为测试。DSB只是告诉你这个病人通过这次扫描是否被诊断为患有肺癌。作者人工标记了训练集中的754个结节和验证集中的7...

2020-09-23 16:52:50 356

原创 Numpy学习总结

Arraysa = np.array([1, 2, 3]) # Create a rank 1 arrayprint(a.shape) # Prints “(3,)”b = np.array([[1,2,3],[4,5,6]]) # Create a rank 2 arrayprint(b.shape) # Prin...

2020-09-23 16:50:20 90

原创 Lecture 2: Learning to Answer Yes/No

Lecture 2: Learning to Answer Yes/No(二分类问题)内容小结:线性可分的二分类问题中,构造假设集(Hypothesis Set),使用PLA(感知器学习算法),寻找final hypothesis函数g;证明PLA在线性可分时,会最终停止,找到最优划分线(即final hypothesis)在不知是否线性可分的情况下,改进PLA,采用Pocket Algorithm(口袋演算法),找到一条犯错误最少的线,但该方法速度比PLA慢2.1 Perceptron

2020-09-23 16:47:10 145

原创 Lecture 1: The Learning Problem

Lecture 1: The Learning ProblemML简明流程ML:让机器自己学习,回避人为去定义过于复杂的规律,“学习学习”决定是否使用ML 的三要素确实有规律可循、很难人为定义、有已知相关数据ML的多方面应用(everywhere)ML的基本组成部分输入、输出数据目标函数f()、hypoyhesis - g()ML的流程ML与Data Mining、AI和Statistics关系...

2020-09-22 19:43:48 96

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除