浊酒南街-CSDN博客

原创 mysql相关知识总结

在创建要给表的时候遇到一个有意思的问题，提示Specified key was too long;max key length is 767 bytes，从描述上来看，是Key太长，超过了指定的 767字节限制。MySQL对于InnoDB存储引擎有一个索引键长度的限制，这个限制基于字符集的不同而不同。修改索引中字段的长度，比如你的索引字段是字符串，类型是varchar(512),修改到varchar(225)，或者更低，比如varchar(100),注意一个字符是两个字节，中文是四个字节；

2024-05-21 20:34:46 188

原创吴恩达深度学习笔记：超参数调试、 Batch 正则化和程序框架（Hyperparameter tuning）3.4-3.5

所以已知这些值，如下，你要计算平均值，强调一下，所有这些都是针对𝑙层，但我省略𝑙及方括号，然后用正如你常用的那个公式计算方差，接着，你会取每个𝑧(𝑖)值，使其规范化，方法如下，减去均值再除以标准偏差，为了使数值稳定，通常将。比如，如果你有 sigmoid 激活函数，你不想让你的值总是全部集中在这里，你想使它们有更大的方差，或不是 0 的平均值，以便更好的利用非线性的 sigmoid 函数，而不是使所有的值都集中于这个线性版本中，这就是为什么有了𝛾和𝛽两个参数后，你可以确保所有的。

2024-05-21 20:04:51 634

原创吴恩达深度学习笔记：超参数调试、 Batch 正则化和程序框架（Hyperparameter tuning）3.2-3.3

或者，如果你要选取神经网络的层数，我们称之为字母𝐿，你也许会选择层数为 2 到 4 中的某个值，接着顺着 2，3，4 随机均匀取样才比较合理，你还可以应用网格搜索，你会觉得 2，3，4，这三个数值是合理的，这是在几个在你考虑范围内随机均匀取值的例子，这些取值还蛮合理的，但对某些超参数而言不适用。如果你没有在超参数选择中作出正确的标尺决定，别担心，即使你在均匀的标尺上取值，如果数值总量较多的话，你也会得到还不错的结果，尤其是应用从粗到细的搜索方法，在之后的迭代中，你还是会聚焦到有用的超参数取值范围上。

2024-05-17 16:03:53 913

原创吴恩达深度学习笔记：超参数调试、 Batch 正则化和程序框架（Hyperparameter tuning）3.1

比如在二维的那个例子中，你进行了取值，也许你会发现效果最好的某个点，也许这个点周围的其他一些点效果也很好，那在接下来要做的是放大这块小区域（小蓝色方框内），然后在其中更密集得取值或随机取值，聚集更多的资源，在这个蓝色的方格中搜索，如果你怀疑这些超参数在这个区域的最优结果，那在整个的方格中进行粗略搜索后，你会知道接下来应该聚焦到更小的方格中。假如，你有三个超参数，这时你搜索的不是一个方格，而是一个立方体，超参数 3 代表第三维，接着，在三维立方体中取值，你会试验大量的更多的值，三个超参数中每个都是。

2024-05-17 15:10:59 897

原创吴恩达深度学习笔记：优化算法 (Optimization algorithms)2.9-2.10

对我而言，学习率衰减并不是我尝试的要点，设定一个固定的𝑎，然后好好调整，会有很大的影响，学习率衰减的确大有裨益，有时候可以加快训练，但它并不是我会率先尝试的内容，但下周我们将涉及超参数调整，你能学到更多系统的办法来管理所有的超参数，以及如何高效搜索超参数。假设你要使用 mini-batch 梯度下降法，mini-batch 数量不大，大概 64 或者 128 个样本，在迭代过程中会有噪音（蓝色线），下降朝向这里的最小值，但是不会精确地收敛，所以你的算法最后在附近摆动，并不会真正收敛，因为你用的。

2024-05-16 11:52:30 1306

原创吴恩达深度学习笔记：优化算法 (Optimization algorithms)2.8

在深度学习的历史上，包括许多知名研究者在内，提出了优化算法，并很好地解决了一些问题，但随后这些优化算法被指出并不能一般化，并不适用于多种神经网络，时间久了，深度学习圈子里的人开始多少有些质疑全新的优化算法，很多人都觉得动量（Momentum）梯度下降法很好用，很难再想出更好的优化算法。这就是关于 Adam 优化算法的全部内容，有了它，你可以更加快速地训练神经网络，在结束本周课程之前，我们还要讲一下超参数调整，以及更好地理解神经网络的优化问题有哪些。一般使用 Adam 算法的时候，要计算偏差修正，

2024-05-16 10:47:06 823

原创吴恩达深度学习笔记：优化算法 (Optimization algorithms)2.7

你看这些微分，垂直方向的要比水平方向的大得多，所以斜率在𝑏方向特别大，所以这些微分中，𝑑𝑏较大，𝑑𝑊较小，因为函数的倾斜程度，在纵轴上，也就是 b 方向上要大于在横轴上，也就是𝑊方向上。回忆一下我们之前的例子，如果你执行梯度下降，虽然横轴方向正在推进，但纵轴方向会有大幅度摆动，为了分析这个例子，假设纵轴代表参数𝑏，横轴代表参数𝑊，可能有𝑊1，𝑊2或者其它重要的参数，为了便于理解，被称为𝑏和𝑊。所

2024-05-15 17:46:58 615

原创吴恩达深度学习笔记：优化算法 (Optimization algorithms)2.6

所以使用动量梯度下降法，你需要做的是，在每次迭代中，确切来说在第𝑡次迭代的过程中，你会计算微分𝑑𝑊，𝑑𝑏，我会省略上标[𝑙]，你用现有的 mini-batch 计算𝑑𝑊，𝑑𝑏。例如，如果你要优化成本函数，函数形状如图，红点代表最小值的位置，假设你从这里（蓝色点）开始梯度下降法，如果进行梯度下降法的一次迭代，无论是 batch 或 mini-batch下降法，也许会指向这里，现在在椭圆的另一边，计算下一步梯度下降，结果或许如此，然后再计算一步

2024-05-15 15:30:46 998

原创吴恩达深度学习笔记：优化算法 (Optimization algorithms)2.3-2.5

这个高值𝛽要注意几点，你得到的曲线要平坦一些，原因在于你多平均了几天的温度，所以这个曲线，波动更小，更加平坦，缺点是曲线进一步右移，因为现在平均的温度值更多，要平均更多的值，指数加权平均公式在温度变化时，适应地更缓慢一些，所以会出现一定延迟，因为当𝛽 = 0.98，相当于给前一天的值加了太多权重，只有 0.02 的权重给了当日的值，所以温度变化时，温度上下起伏，当𝛽 较大时，指数加权平均值适应地更缓慢一些。你用数据作图，可以得到以下结果，

2024-05-14 16:13:36 767

原创吴恩达机器学习笔记：第 10 周-19总结(Conclusion) 19.1

欢迎来到《机器学习》课的最后一段视频。我们已经一起学习很长一段时间了。在最后这段视频中，我想快速地回顾一下这门课的主要内容，然后简单说几句想说的话。作为这门课的结束时间，那么我们学到了些什么呢？在这门课中，我们花了大量的时间介绍了诸如线性回归、逻辑回归、神经网络、支持向量机等等一些监督学习算法，这类算法具有带标签的数据和样本，比如𝑥(𝑖)、𝑦(𝑖)。然后我们也花了很多时间介绍无监督学习。例如 K-均值聚类、用于降维的主成分分析，以及当你只有一系列无标签数据 𝑥(𝑖) 时的异常检测算法。

2024-05-13 11:07:44 348

原创吴恩达机器学习笔记：第 10 周-18应用实例：图片文字识别(Application Example: Photo OCR)18.3-18.4

如果我们的模型是低方差的，那么获得更多的数据用于训练模型，是能够有更好的效果的。问题在于，我们怎样获得数据，数据不总是可以直接获得的，我们有可能需要人工地创造一些数据。以我们的文字识别应用为例，我们可以字体网站下载各种字体，然后利用这些不同的字体配上各种不同的随机背景图片创造出一些用于训练的实例，这让我们能够获得一个无限大的训练集。这是从零开始创造实例。另一种方法是，利用已有的数据，然后对其进行修改，例如将已有的字符图片进行一些扭曲、旋转、模糊处理。

2024-05-11 10:23:12 259

原创吴恩达机器学习笔记：第 10 周-18应用实例：图片文字识别(Application Example: Photo OCR)18.1-18.2

然后我们用之前训练识别行人的模型时所采用的图片尺寸在我们要进行行人识别的图片上进行剪裁，然后将剪裁得到的切片交给模型，让模型判断是否为行人，然后在图片上滑动剪裁区域重新进行剪裁，将新剪裁的切片也交给模型进行判断，如此循环直至将图片全部检测完。滑动窗口技术也被用于文字识别，首先训练模型能够区分字符与非字符，然后，运用滑动窗口技术识别字符，一旦完成了字符的识别，我们将识别得出的区域进行一些扩展，然后将重叠的区域进行合并。下图中绿色的区域是经过这些步骤后被认为是文字的区域，而红色的区域是被忽略的。

2024-05-11 09:52:55 483

原创吴恩达机器学习笔记：第 10 周-17大规模机器学习(Large Scale Machine Learning)17.5-17.6

这就是在线学习机制，然后就像我们所看到的，我们所使用的这个算法与随机梯度下降算法非常类似，唯一的区别的是，我们不会使用一个固定的数据集，我们会做的是获取一个用户样本，从那个样本中学习，然后丢弃那个样本并继续下去，而且如果你对某一种应用有一个连续的数据流，这样的算法可能会非常值得考虑。当然，在线学习的一个优点就是，如果你有一个变化的用户群，又或者你在尝试预测的事情，在缓慢变化，就像你的用户的品味在缓慢变化，这个在线学习算法，可以慢慢地调试你所学习到的假设，将其调节更新到最新的用户行为。

2024-05-10 16:57:22 554

原创吴恩达深度学习笔记：优化算法 (Optimization algorithms)2.1-2.2

比如说，如果𝑚是 500 万或 5000 万或者更大的一个数，在对整个训练集执行梯度下降法时，你要做的是，你必须处理整个训练集，然后才能进行一步梯度下降法，然后你需要再重新处理 500 万个训练样本，才能进行下一步梯度下降法。如果你有一个丢失的训练集，mini-batch 梯度下降法比 batch 梯度下降法运行地更快，所以几乎每个研习深度学习的人在训练巨大的数据集时都会用到，下一个视频中，我们将进一步深度讨论 mini-batch 梯度下降法，你也会因此更好地理解它的作用和原理。，这就是你的预测值。

2024-05-10 10:44:39 759

原创吴恩达机器学习笔记：第 10 周-17大规模机器学习(Large Scale Machine Learning)17.3-17.4

总结下，这段视频中，我们介绍了一种方法，近似地监测出随机梯度下降算法在最优化代价函数中的表现，这种方法不需要定时地扫描整个训练集，来算出整个样本集的代价函数，而是只需要每次对最后 1000 个，或者多少个样本，求一下平均值。在随机梯度下降中，我们在每一次更新 𝜃 之前都计算一次代价，然后每𝑥次迭代后，求出这𝑥次对训练实例计算代价的平均值，然后绘制这些平均值与𝑥次迭代的次数之间的函数图表。在批量梯度下降中，我们可以令代价函数𝐽为迭代次数的函数，绘制图表，根据图表来判断梯度下降是否收敛。

2024-05-09 15:12:09 885

原创吴恩达机器学习笔记：第 10 周-17大规模机器学习(Large Scale Machine Learning)17.1-17.2

以线性回归模型为例，每一次梯度下降迭代，我们都需要计算训练集的误差的平方和，如果我们的学习算法需要有 20 次迭代，这便已经是非常大的计算代价。首先应该做的事是去检查一个这么大规模的训练集是否真的必要，也许我们只用 1000个训练集也能获得较好的效果，我们可以绘制学习曲线来帮助判断。如果我们有一个低方差的模型，增加数据集的规模可以帮助你获得更好的结果。

2024-05-09 11:46:50 324

原创吴恩达机器学习笔记：第 9 周-16推荐系统(Recommender Systems) 16.5-16.6

很小，那就能很有力地表明电影𝑖和电影 𝑗 在某种程度上有相似，至少在某种意义上，某些人喜欢电影 𝑖，或许更有可能也对电影𝑗 感兴趣。总结一下，当用户在看某部电影 𝑖 的时候，如果你想找 5 部与电影非常相似的电影，为了能给用户推荐 5 部新电影，你需要做的是找出电影 𝑗，在这些不同的电影中与我们要找的电影 𝑖 的距离最小，这样你就能给你的用户推荐几部不同的电影了。我们有关于五部电影的数据集，我将要做的是，将这些用户的电影评分，进行分组并存到一个矩阵中。

2024-05-08 16:46:54 489

原创吴恩达机器学习笔记：第 9 周-16推荐系统(Recommender Systems) 16.3-16.4

在之前的基于内容的推荐系统中，对于每一部电影，我们都掌握了可用的特征，使用这些特征训练出了每一个用户的参数。相反地，如果我们拥有用户的参数，我们可以学习得出电影的特征。但是如果我们既没有用户的参数，也没有电影的特征，这两种方法都不可行了。协同过滤算法可以同时学习这两者。注：在协同过滤从算法中，我们通常不使用方差项，如果需要的话，算法会自动学得。我们的优化目标便改为同时针对𝑥和𝜃进行。，依据两部电影的特征向量之间的距离∥∥。例如，如果一位用户正在观看电影。，我们可以寻找另一部电影。

2024-05-08 14:24:40 931

原创吴恩达机器学习笔记：第 9 周-16推荐系统(Recommender Systems) 16.1-16.2

在过去几年，我偶尔访问硅谷不同的技术公司，我常和工作在这儿致力于机器学习应用的人们聊天，我常问他们，最重要的机器学习的应用是什么，或者，你最想改进的机器学习应用有哪些。还有很多其它的，但是通过推荐系统，我们将领略一小部分特征学习的思想，至少，你将能够了解到这方面的一个例子，我认为，机器学习中的大思想也是这样。推荐系统是个有趣的问题，在学术机器学习中因此，我们可以去参加一个学术机器学习会议，推荐系统问题实际上受到很少的关注，或者，至少在学术界它占了很小的份额。在接下来的视频中，我想讲一下推荐系统。

2024-05-07 19:24:20 820

原创吴恩达深度学习笔记：深度学习的实践层面 (Practical aspects of Deep Learning)1.13-1.14

，不论超级参数向量𝜃的维度是多少，为了实施梯度检验，你要做的就是循环执行，从而对每个𝑖也就是对每个𝜃组成元素计算𝑑𝜃approx[𝑖]的值，我使用双边误差，也就是。，为了执行梯度检验，首先要做的就是，把所有参数转换成一个巨大的向量数据，你要做的就是把矩阵𝑊转换成一个向量，把所有𝑊矩阵转换成向量之后，做连接运算，得到一个巨型向量𝜃，该向量表示为参数𝜃，代价函数𝐽是所有𝑊和𝑏的函数，现在你得到了一个𝜃的代价函数𝐽（即𝐽(𝜃)）。或更小，

2024-05-07 17:47:24 1030

原创吴恩达机器学习笔记：第 9 周-15 异常检测(Anomaly Detection) 15.7-15.8

多元高斯分布将创建像图中蓝色曲线所示的判定边界。其原因在于，一般的高斯分布模型尝试的是去同时抓住两个特征的偏差，因此创造出一个比较大的判定边界。在一般的高斯分布模型中，我们计算 𝑝(𝑥) 的方法是：通过分别计算每个特征对应的几率然后将其累乘起来，在多元高斯分布模型中，我们将构建特征的协方差矩阵，用所有的特征一起来计算 𝑝(𝑥)。可以证明的是，原本的高斯分布模型是多元高斯分布模型的一个子集，即像上图中的第1、2、3，3 个例子所示

2024-05-06 11:28:01 561

原创吴恩达机器学习笔记：第 9 周-15 异常检测(Anomaly Detection) 15.5-15.6

另外，对于很多技术公司可能会遇到的一些问题，通常来说，正样本的数量很少，甚至有时候是 0，也就是说，出现了太多没见过的不同的异常类型，那么对于这些问题，通常应该使用的算法就是异常检测算法。同时也介绍了建立特征时，进行的误差分析方法，来捕捉各种异常的可能。我们通常可以通过将一些相关的特征进行组合，来获得一些新的更好的特征（异常数据的该特征值异常地大或小），例如，在检测数据中心的计算机状况的例子中，我们可以用 CPU负载与网络通信量的比例作为一个新的特征，如果该值异常地大，便有可能意味着该服务器。

2024-04-30 16:19:52 442

原创吴恩达机器学习笔记：第 9 周-15 异常检测(Anomaly Detection) 15.3-15.4

在这段视频中，我们介绍了如何拟合𝑝(𝑥)，也就是 𝑥的概率值，以开发出一种异常检测算法。同时，在这节课中，我们也给出了通过给出的数据集拟合参数，进行参数估计，得到参数 𝜇 和 𝜎，然后检测新的样本，确定新样本是否是异常。我们选择一个𝜀，将𝑝(𝑥) = 𝜀作为我们的判定边界，当𝑝(𝑥) > 𝜀时预测数据为正常数据，否则为异常。在接下来的课程中，我们将深入研究这一算法，同时更深入地介绍，怎样让算法工作地更加有效。在本节视频中，我将应用高斯分布开发异常检测算法。

2024-04-30 15:41:13 626

原创吴恩达机器学习笔记：第 9 周-15 异常检测(Anomaly Detection) 15.1-15.2

例如在线采集而来的有关用户的数据，一个特征向量中可能会包含如：用户多久登录一次，访问过的页面，在论坛发布的帖子数量，甚至是打字速度等。假想你是一个飞机引擎制造商，当你生产的飞机引擎从生产线上流出时，你需要进行QA(质量控制测试)，而作为这个测试的一部分，你测量了飞机引擎的一些特征变量，比如引擎运转时产生的热量，或者引擎的振动等等。再一个例子是检测一个数据中心，特征可能包含：内存使用情况，被访问的磁盘数量，CPU 的负载，网络的通信量等。，我们假使数据集是正常的，我们希望知道新的数据。

2024-04-30 11:31:04 807

原创吴恩达深度学习笔记：深度学习的实践层面 (Practical aspects of Deep Learning)1.11-1.12

上节课，我们学习了深度神经网络如何产生梯度消失和梯度爆炸问题，最终针对该问题，我们想出了一个不完整的解决方案，虽然不能彻底解决问题，却很有用，有助于我们为神经网络更谨慎地选择随机初始化参数，为了更好地理解它，我们先举一个神经单元初始化地例子，然后再演变到整个深度网络。有时调优该超级参数效果一般，这并不是我想调优的首要超级参数，但我发现调优过程中产生的问题，虽然调优该参数能起到一定作用，但考虑到相比调优，其它超级参数的重要性，我通常把它的优先级放得比较低。，因为本例中，逻辑回归的特征是不变的。

2024-04-30 10:22:40 988

原创吴恩达机器学习笔记：第 8 周-14降维(Dimensionality Reduction) 14.6-14.7

所以，给定未标记的数据集，您现在知道如何应用 PCA，你的带高维特征𝑥和映射到这的低维表示𝑧。这个视频，希望你现在也知道如何采取这些低维表示𝑧，映射到备份到一个近似你原有的高维数据。所以，如果这是一个压缩算法，应该能回到这个压缩表示，回到你原有的高维数据的一种近似。我们得到的数据的一个之间你的原始数据 𝑥，我们也把这个过程称为重建原始数据。现在你知道如何实施应用 PCA，我们将要做的事是谈论一些技术在实际使用 PCA 很好，特别是，在接下来的视频中，我想谈一谈关于如何选择𝑘。

2024-04-29 19:29:55 1000

原创吴恩达机器学习笔记：第 8 周-14降维(Dimensionality Reduction) 14.3-14.5

PCA 技术的一大好处是对数据进行降维的处理。我们可以对新求出的“主元”向量的重要性进行排序，根据需要取前面最重要的部分，将后面的维数省去，可以达到降维从而简化模型或是对数据进行压缩的效果。PCA 技术的一个很大的优点是，它是完全无参数限制的。在 PCA 的计算过程中完全不需要人为的设定参数或是根据任何经验模型对计算进行干预，最后的结果只与数据相关，与用户是独立的。如果用户对观测对象有一定的先验知识，掌握了数据的一些特征，却无法通过参数化等方法对处理过程进行干预，可能会得不到预期的效果，效率也不高。

2024-04-28 11:45:32 489

原创吴恩达深度学习笔记：深度学习的实践层面 (Practical aspects of Deep Learning)1.9-1.10

但如果特征值在不同范围，假如𝑥1取值范围从 1 到 1000，特征𝑥2的取值范围从 0 到 1，结果是参数𝑤1和𝑤2值的范围或比率将会非常不同，这些数据轴应该是𝑤1和𝑤2，但直观理解，我标记为𝑤和𝑏，代价函数就有点像狭长的碗一样，如果你能画出该函数的部分轮廓，它会是这样一个狭长的函数。实际上如果假设特征𝑥1范围在 0-1 之间，𝑥2的范围在-1 到 1 之间，𝑥3范围在 1-2 之间，它们是相似范围，所以会表现得很好。我们为什么要这么做呢？是一个向量，它的每个特征都有方差

2024-04-28 11:29:45 1218

原创吴恩达机器学习笔记：第 8 周-14降维(Dimensionality Reduction) 14.1-14.2

有时可能有几个不同的工程团队，也许一个工程队给你二百个特征，第二工程队给你另外三百个的特征，第三工程队给你五百个特征，一千多个特征都在一起，它实际上会变得非常困难，去跟踪你知道的那些特征，你从那些工程队得到的。将数据从二维降至一维：假使我们要采用两种不同的仪器来测量一些东西的尺寸，其中一个仪器测量结果的单位是英寸，另一个仪器测量的结果是厘米，我们希望将测量的结果作为我们机器学习的特征。过程是与上面类似的，我们将三维向量投射到一个二维的平面上，强迫使得所有的数据都在同一个平面上，降至二维的特征向量。

2024-04-26 17:23:39 317

原创吴恩达深度学习笔记：深度学习的实践层面 (Practical aspects of Deep Learning)1.6-1.8

假设你在训练上图这样的神经网络，它存在过拟合，这就是 dropout 所要处理的，我们复制这个神经网络，dropout 会遍历网络的每一层，并设置消除神经网络中节点的概率。假设网络中的每一层，每个节点都以抛硬币的方式设置概率，每个节点得以保留和消除的概率都是 0.5，设置完节点概率，我们会消除一些节点，然后删除掉从该节点进出的连线，最后得到一个节点更少，规模更小的网络，然后用 backprop 方法进行训练。中的对应值为 1 的概率都是 0.8，对应为 0 的概率是 0.2，随机数字小于 0.8。

2024-04-23 20:27:18 826

原创吴恩达机器学习笔记：第 8 周-13 聚类(Clustering)13.3-13.5

迭代的过程一定会是每一次迭代都在减小代价函数，不然便是出现了错误。回顾刚才给出的: K-均值迭代算法，我们知道，第一个循环是用于减小。我们的的优化目标便是找出使得代价函数最小的。引起的代价，而第二个循环则是用于减小。

2024-04-23 15:17:41 1270

原创吴恩达机器学习笔记：第 8 周-13 聚类(Clustering)13.1-13.2

在这个视频中，我将开始介绍聚类算法。这将是一个激动人心的时刻，因为这是我们学习的第一个非监督学习算法。我们将要让计算机学习无标签数据，而不是此前的标签数据。那么，什么是非监督学习呢？在课程的一开始，我曾简单地介绍过非监督学习，然而，我们还是有必要将其与监督学习做一下比较。在一个典型的监督学习中，我们有一个有标签的训练集，我们的目标是找到能够区分正样本和负样本的决策边界，在这里的监督学习中，我们有一系列标签，我们需要据此拟合一个假设函数。

2024-04-18 14:40:22 654

原创吴恩达深度学习笔记：深度学习的实践层面 (Practical aspects of Deep Learning)1.4-1.5

我们来看最后一个细节，𝜆是正则化参数，我们通常使用验证集或交叉验证集来配置这个参数，尝试各种各样的数据，寻找最好的参数，我们要考虑训练集之间的权衡，把参数设置为较小值，这样可以避免过拟合，所以 λ 是另外一个需要调整的超级参数，顺便说一下，为了方便写代码，在 Python 编程语言中，𝜆是一个保留字段，编写代码时，我们写成𝑙𝑎𝑚𝑏𝑑，以免与 Python 中的保留字段冲突，这就是在逻辑回归函数中实现𝐿2正则化的过程，如何在神经网络中实现𝐿2正则化呢？

2024-04-18 11:06:35 1219

原创吴恩达机器学习笔记：第 7 周-12支持向量机(Support Vector Machines)12.4-12.6

因此ℎ𝜃(𝑥) = θ_0 + θ_1f_1 + θ_2f_2 +θ_3f_3 > 0，因此预测𝑦 = 1。同理可以求出，对于离l^{(2)}$较近的绿色点，也预测𝑦 = 1，但是对于蓝绿色的点，因为其离三个地标都较远，预测𝑦 = 0。这样，图中红色的封闭曲线所表示的范围，便是我们依据一个单一的训练实例和我们选取的地标所得出的判定边界，在预测时，我们采用的特征不是训练实例本身的特征，而是通过核函数计算出的新特征。

2024-04-15 15:58:40 1072

原创吴恩达深度学习笔记：深度学习的实践层面 (Practical aspects of Deep Learning)1.1-1.3

目前为止，我觉得，对于很多应用系统，即使是经验丰富的深度学习行家也不太可能一开始就预设出最匹配的超级参数，所以说，应用深度学习是一个典型的迭代过程，需要多次循环往复，才能为应用程序找到一个称心的神经网络，因此循环该过程的效率是决定项目进展速度的一个关键因素，而创建高质量的训练数据集，验证集和测试集也有助于提高循环效率。总结一下，在机器学习中，我们通常将样本分成训练集，验证集和测试集三部分，数据集规模相对较小，适用传统的划分比例，数据集规模较大的，验证集和测试集要小于数据总量的 20%或 10%。

2024-04-15 11:00:41 749

原创 python中的正则表达式

正则表达式是指专门用于描述或刻画字符串内在规律的表达式。

2024-04-10 11:13:28 435

原创吴恩达机器学习笔记：第 7 周-12支持向量机(Support Vector Machines)12.1-12.3

你知道，就是第一项和第二项我们依照惯例使用一个不同的参数称为𝐶，同时改为优化目标，𝐶 × 𝐴 + 𝐵因此，在逻辑回归中，如果给定𝜆，一个非常大的值，意味着给予 B 更大的权重。首先，我们要除去1/𝑚这一项，当然，这仅仅是由于人们使用支持向量机时，对比于逻辑回归而言，不同的习惯所致，但这里我所说的意思是：你知道，我将要做的是仅仅除去1/𝑚这一项，但是，这也会得出同样的 𝜃 最优值，好的，因为1/𝑚 仅是个常量，因此，你知道在这个最小化问题中，无论前面是否有1/𝑚 这一项

2024-04-08 19:54:51 807

原创吴恩达深度学习笔记：深层神经网络(Deep Neural Networks)4.5-4.8

比如当你想要建一个语音识别系统的时候，需要解决的就是如何可视化语音，比如你输入一个音频片段，那么神经网络的第一层可能就会去先开始试着探测比较低层次的音频波形的一些特征，比如音调是变高了还是低了，分辨白噪音，咝咝咝的声音，或者音调，可以选择这些相对程度比较低的波形特征，然后把这些波形组合在一起就能去探测声音的基本单元。面部探测器就会针对于大一些的区域，但是主要的概念是，一般你会从比较小的细节入手，比如边缘，然后再一步步到更大更复杂的区域，比如一只眼睛或是一个鼻子，再把眼睛鼻子装一块组成更复杂的部分。

2024-04-08 16:51:18 1103

原创吴恩达深度学习笔记：深层神经网络(Deep Neural Networks)4.1-4.4

尽管对于任何给定的问题很难去提前预测到底需要多深的神经网络，所以先去尝试逻辑回归，尝试一层然后两层隐含层，然后把隐含层的数量看做是另一个可以自由选择大小的超参数，然后再保留交叉验证数据上评估，或者用你的开发集来评估。我们可以看到，第一层（即左边数过去第二层，因为输入层是第 0 层）有 5 个神经元数目，第二层 5 个，第三层 3 个。,这层是第 0 层，这层左边的隐藏层是第 1 层，由此类推。注意，神经网络的层数是这么定义的：从左到右，由 0 开始定义，比如上边右图，是等于这个神经网络所预测的输出结果。

2024-04-02 19:16:06 1195

原创吴恩达机器学习笔记：第 6 周-11机器学习系统的设计(Machine Learning System Design)11.1-11.5

因此，不要担心你的算法太简单，或者太不完美，而是尽可能快地实现你的算法。另一件事是：假设你有了一个快速而不完美的算法实现，又有一个数值的评估数据，这会帮助你尝试新的想法，快速地发现你尝试的这些想法是否能够提高算法的表现，从而你会更快地做出决定，在算法中放弃什么，吸收什么误差分析可以帮助我们系统化地选择该做什么。因此，当你在构造学习算法的时候，你总是会去尝试很多新的想法，实现出很多版本的学习算法，如果每一次你实践新想法的时候，你都要手动地检测这些例子，去看看是表现差还是表现好，那么这很难让你做出决定。

2024-04-02 14:27:29 982

代码.zip

空空如也