WHJ226-CSDN博客

原创科研论文作图小技巧

选取我们需要的颜色以及相对应的RGB值（十六进制）。至此，从颜色提取到RGB转换完毕。

2022-10-30 21:11:15 884 6

构建训练和测试数据，其中训练数样本 15 个，测试样本 10 个，高斯噪声标准差为 0.1，自变量范围为 (0,1)。我们设定不同的多项式阶，𝑀的取值分别为0、1、3、8，之前构造的训练集上进行训练，观察样本数据对sin曲线的拟合结果。和之前机器学习实战是有区别的，但是思路是一样的，不过感觉机器学习实战的代码相对简单，因为都是在调用现成的包。下面生成 150 个带噪音的样本，其中 100 个训练样本，50 个测试样本，并打印出训练数据的可视化分布。这个要对python中的类有一定的基础知识，否则看不懂。

2022-10-04 22:08:31 1039

原创神经网络与深度学习笔记（1）——实践基础

声明：本博文仅为个人学习笔记，不做他用。

2022-10-01 21:39:03 1250

原创机器学习实战（11）——初识人工神经网络

比如TensorFlow的fully_connected()函数会创建全连接层，其中所有输入都连接到该层中的所有神经元。这个函数会创建权重和偏差变量，使用合适的初始化策略，使用ReLU激活函数(可以通过activation_fn参数来修改)。它还支持规则化和归一化参数。

2022-09-25 22:07:33 900 1

原创机器学习实战（10）——Tensorflow

有关 tensorflow 参考文档可以在上述网站下载。一个Tensorflow程序通常可以分成两个部分：第一部分用来构建一个计算图（称为构建阶段），第二部分来执行这个图（称为执行阶段）。构建阶段通常会构建一个计算图，这个图用来展现ML模型和训练所需的计算。执行阶段则重复地执行每一步训练动作，并逐步提升模型的参数。

2022-09-23 19:38:38 972

原创机器学习随笔（1）——pandas.DataFrame和数据清洗

当我想对机器学习的基础进一步了解的时候，才发现这些基础都还没打牢，而且许多用法记不太清，特此笔记来回顾一下。

2022-09-20 00:01:30 1000

原创机器学习实训（4）——支持向量机（补充）

拟合类别之间可能的、最宽的“街道”。简而言之，它的目的是使决策边界之间的间隔最大化，从而分隔出两个类别的训练实例。位于“街道”之上的实例被称为支持向量，也包括处于边界上的实例。如果训练集不经缩放，SVM将趋于忽略值较小的特征。这个问题仅适用于线性支持向量机，因为核SVM只能使用对偶问题。这可能是由于过度正则化导致的，因此我们可以提升 gamma 或 C 来降低正则化。

2022-09-07 15:36:54 969

原创机器学习实训（2）——分类（补充）

我们不只是看10个交叉验证折叠的平均准确率，让我们绘制每个模型的所有10个得分，以及一个突出显示分数上下四分之一的盒子图，以及显示得分程度。从结果来看，Age, Cabin以及Embarked属性中的数据是缺失的，我们可以忽略 Cabin ，暂时先不管，先处理其他的。现在我们有了一个很好的预处理管道，它可以提取原始数据并输出数值输入特征，我们可以将这些特征输入到任何我们想要的机器学习模型中。但是，测试数据不包含标签：我们的目标是使用训练数据训练出最好的模型，然后根据测试数据进行预测。

2022-09-06 18:17:12 1517 1

原创机器学习实训（3）——训练模型（补充）

下面的训练代码与上面的代码类似，但损失现在有一个额外的ℓ2惩罚，梯度有适当的额外项(注意，我们没有正则化Theta的第一个元素，因为它对应于偏差项)。如果优化问题是凸的，并且学习率也不是太高，那么所有梯度下降算法都可以接近全局最优，最终生成的模型都非常相似。但是除非降低学习率，否则随机梯度下降和小批量梯度下降都不会真正收敛，相反，它们会不断在全局最优的附近波动。不错，不过模型有一点不完美。我们可以对多项式降阶：自由度越低的模型，过度拟合的可能性越低，或者施加正则化，在成本函数中增加岭回归或LASSO回归。

2022-09-05 19:32:37 1174

原创机器学习实训（1）——概览（补充）

基于模型的学习算法搜索的是使模型泛化最佳的模型参数值。通常通过使成本函数最小化来训练这样的系统，成本函数衡量的是系统对训练数据的预测有多坏，如果模型有正则化，则再加上一个对模型复杂度的惩罚。模型有一个或多个参数，这些参数决定了模型对新的给定实例会做出怎样的预测。不存在已知算法解决方案的复杂问题，需要大量手动调整或是规则列表超长的问题，创建可以适应环境波动的系统，帮助我们学习。使用测试集来估算模型在新实例上的泛化误差，验证集则用来比较不同模型，选择最佳模型和调整超参数。包含每个实例所期望的解决方案的训练集。

2022-09-04 09:43:12 819

原创猿创征文｜机器学习实战（9）——降维

数据降维会丢失一些信息（好比压缩图像带来的效果一样），所以，它虽然能够加速训练，但是也会轻微降低系统性能。。投影：高维空间的所有训练实例实际上受一个低得多的低维子空间所影响，将训练实例投影到该子空间就是投影。但许多情况下，子空间可能是弯曲的或转动的，就引入了流形学习。流形假设（流形假说）认为大多数现实世界的高维度数据集存在一个低维度的流形来重新表示。我们可以把瑞士卷看做一个二维流形的例子。更概括的说，d维流形就是n维空间的一部分（d

2022-09-03 22:24:40 1173 3

原创猿创征文｜机器学习实战（8）——随机森林

机器学习实战（7）中我们已经提到，随机森林是决策树的集成，通常用bagging方法训练，训练集大小通过max_samples来设置。除了先构建一个 BaggingClassifier 然后将结果传输到 DecisionTreeClassifier ，还有一种方法就是使用 RandomForestClassifier 类（对于回归任务有RandomForestRegressor类），这种方法更方便。

2022-09-01 20:35:38 1428 3

原创猿创征文｜机器学习实战（7）——集成学习

如果我们聚合一组预测器的预测，得到的预测结果会比最好的单个预测器要好，这样的一组预测器，我们称为集成，这种技术也被称为集成学习。例如，我们可以训练一组决策树分类器，每一棵树都基于训练集不同的随机子集进行训练。做出预测时，我们只需要获得所有树各自的预测，然后给出得票最多的类别作为预测结果，这样一组决策树的集成被称为随机森林。...

2022-08-31 21:16:44 782 1

原创机器学习实战（6）——决策树

下面简单看一下例子：简单步骤如下：首先打开该网站，最后将dot文件内容复制粘贴左侧代码区即可。效果如下：（另外pycharm中的插件也可以实现决策树可视化，不过目前上述方法还没出现问题就未曾探索）.........

2022-08-30 09:45:44 1826 1

原创机器学习实战（5）——支持向量机

支持向量机（简称SVM）是一个功能强大并且全面的机器学习模型，它能够执行线性或非线性分类、回归、甚至是异常值检测任务。SVM特别适用于中小型复杂数据集的分类。本篇博文中理论和理解的东西特别多。实在不懂的可以去哔哩哔哩找浙江大学讲的支持向量机，简单易懂。（）...

2022-08-29 20:08:17 1632 1

原创记录那些学编程的网站

记录一些编程网站：具体内容不做详细解释，大家点进去自我探索。大家有较好的网站也可以在评论区留言分享！

2022-08-23 17:43:02 568 2

原创机器学习入门（1）

第二行中的数据，1和790相差是很大的，可能会影响我们权重的取值。该关系用一个称为r平方（r-squared）的值来衡量，其中0表示不相关，1表示100%相关。结果说明，重量2000千克的汽车，1.0升发动机，每行驶1公里，就会释放102.6克CO2。是数字，主要分为两种：离散数据（discrete）和连续数据（continuous）。从结果我们可以看到，x轴上的值集中在6，y轴上的值集中在12范围。我们使用前80%的数据作为训练，后20%的数据用于测试。类似于分类数据，但可以相互度量：A优于B的成绩。

2022-08-23 10:42:26 853

原创机器学习实战（4）——训练模型

目录1 线性回归2 标准方程3 复杂度4 梯度下降5 批量梯度下降6 随机梯度下降7 小批量梯度下降8 多项式回归9 学习曲线10 正则线性模型10.1 岭回归10.2 套索回归10.3 弹性网络 10.4 早期停止法10.5 逻辑回归10.5.1 概率估算10.5.2 训练和成本函数10.5.3 决策边界11 Softmax回归概括来说，线性模型就是对输入特征加权求和，再加上一个我们称为偏置项（或截距项）的常数，以此进行预测。线性回归模型预测：向量化形式表达如下：训练模型就是设置模型参数直到模型最适应训

2022-08-18 18:48:43 6305

原创机器学习实战（3）——分类

例如，假设你训练一个分类器来检测儿童可以放心观看的视频，那么你可能更青昧那种拦截了很多好视频(低召回率)，但是保留下来的视频都是安全(高精度)的分类器，而不是召回率虽高，但是在产品中可能会出现一些非常糟糕的视频的分类器(这种情况下，你甚至可能会添加一个人工流水线来检查分类器选出来的视频)。我们这张图确实是数字9，但是当阈值为0时，分类器没有检测出来，当阈值为-10000时却检测出来了（通常提高阈值可以降低召回率，与我们本例中降低阈值提升召回率是一致的），那么我们该如何决定使用什么阈值呢？..........

2022-08-14 20:24:11 1828

原创 Chrome解决“github.com拒绝了我们的访问请求”

目录1 网站查询特定IP2 host文件修改3 刷新DNS如果你在Chrome访问github.com时出现以下错误：本博主之前的Chrome和Edge都无法访问github官网，然后就来到了万能的C站找到了一种解决办法，方法如下：进入该网站https://www.ipaddress.com/ 分别搜索www.github.com和http://github.global.ssl.fastly.net 首先通过搜索www.github.com得到以下页面：拿到IP Address：140.11.111.1

2022-08-11 16:13:59 13669 5

原创机器学习实战（2）——端到端的机器学习项目

50万美元的价格上限在图中是一条清晰的水平线，不过除此以外，这张图还显示出几条不那么明显的直线：45万美元附近有一条水平线，35万美元附近也有一条，28万美元附近似乎隐约也有一条，再往下可能还有一些。首先，把测试集放在一边，我们能探索的只有训练集。例如，对于housing_ median_age 的值， 25% 的区域低于18，50%的区域低于29，以及75%的区域低于 37。这也是个不断选代的过程：一旦我们的原型产生并且开始运行，我们可以分析它的输出以洞悉更多的见解，然后再次回到这个探索的步骤。.....

2022-08-08 23:30:50 1502

原创机器学习实战（1）——概览

机器学习研究如何让计算机不需要明确的程序也能具备学习能力。

2022-08-06 11:43:55 1605

原创机器学习（19）——回归与聚类算法（补充）

欠拟合过拟合分析第一种情况：因为机器学习到的天鹅特征太少了，导致区分标准太粗糙，不能准确识别出天鹅。第二种情况：机器已经基本能区别天鹅和其他动物了。然后，很不巧已有的天鹅图片全是白天鹅的，于是机器经过学习后，会认为天鹅的羽毛都是白的，以后看到羽毛是黑的天鹅就会认为那不是天鹅。过拟合：一个假设在训练数据上能够获得比其他假设更好的拟合，但是在测试数据集上却不能很好地拟合数据，此时认为这个假设出现了过拟合的现象。(模型过于复杂)......

2022-08-05 15:47:51 823

原创机器学习（18）——分类算法（补充）

交叉验证将拿到的训练数据，分为训练和验证集。以下图为例将数据分成5份，其中一份作为验证集。然后经过5次(组)的测试，每次都更换不同的验证集。即得到5组模型的结果，取平均值作为最终结果。又称5折交叉验证。为什么需要交叉验证？--->为了让被评估的模型更加准确可信。那么这个只是对于参数得出更好的结果，那么怎么选择或者调优参数呢？..................

2022-08-03 14:13:25 898

原创机器学习（9）——特征工程（3）（补充）

加载获取流行数据集获取小规模数据集，数据包含在datasets里sklearn.datasets.load_iris()加载并返回鸢尾花数据集sklearn.datasets.load_boston()加载并返回波士顿房价数据集获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表示数据集下载的目录,默认是~/scikit_learn_data/subset'train'或者'test'，'all'，可选，选择要加载的数据集。特征工程是使用，。意义。...

2022-07-23 10:47:51 806

原创 Python字符串中变量使用、删除空白、大数表示和列表（补充）（12）

其中strip()方法用于删除字符串两端空白，lstrip()方法用于删除字符串开头（左端）空白，rstrip()方法用于删除字符串末尾（右端）空白。使用列表解析，首先指定一个描述性的列表名，并定义一个表达式，用于生成要存储到列表中的值；如果使用较早版本，需要使用format()方法，在圆括号内列出要在字符串中使用的变量。在某些情况下，我们需要在字符串中使用变量的值来改变字符串的内容。当我们书写很大的数时，能够通过下划线将数字分组，使其清晰易读，且Python中不会打印数字中的下划线。......

2022-07-20 20:43:58 408

原创机器学习（11）——时间序列分析

时间序列数据是常见的数据类型之一,时间序列分析基于随机过程理论和数理统计学方法,研究时间序列数据所遵从的统计规律,常用于系统描述、系统分析、预测未来等。时间序列数据主要是根据时间先后,对同样的对象按照等时间间隔收集的数据,比如每日的平均气温、每天的销售额、每月的降水量等。虽然有些序列所描述的内容取值是连续的,比如气温的变化可能是连续的,但是由于观察的时间段并不是连续的,所以可以认为是离散的时间序列数据。一般地,对任何变量做定期记录就能构成一个时间序列。根据所研究序列数量的不同,可以将时间序列数据

2022-06-26 10:47:45 11655 5

原创机器学习（10）——假设检验和回归分析

假设检验是统计推断中的一个重要内容,它是利用样本数据对某个事先做出的统计假设,按照某种设计好的方法进行检验,判断此假设是否正确。假设检验的基本思想为概率性质的反证法。为了推断总体,首先对总体的未知参数或分布做出某种假设HO(原假设),然后在HO成立的条件下若通过抽样分析发现“小概率事件”竟然在一次实验中发生了,则表明HO 很可能不成立,从而拒绝HO;相反,若没有导致上述“不合理”现象的发生,则没有理由拒绝HO,从而接受HO。要求“小概率事件”发生的概率小于等于某一给定的临界概率a,称a为检验的显著性水平

2022-06-26 08:58:39 4007

原创机器学习（8）——特征工程（2）

目录1 特征提取和降维1.1 主成分分析1.2 核主成分分析1.3 流形学习1.4 t-SNE1.5 多维尺度分析2 数据平衡方法2.1 基于过采样算法2.2 基于欠采样算法2.3 基于过采样和欠采样的综合算法前面介绍的特征选择方法获得的特征，是从原始数据中抽取出来的，并没有对数据进行变换。而特征提取和降维，则是对原始数据特征进行相应的数据变换，并且通常会选择比原始特征数量少的特征，同时达到数据降维的目的。常用的特征提取和降维方法有主成分分析、核主成分分析、流形学习、t-SNE、多维尺度分析等方法。首先将前

2022-06-25 08:00:00 1069 1

原创机器学习（7）——特征工程（1）

特征工程是机器学习数据准备过程的核心任务，主要通过变换数据集的特征空间，从而提高数据集的预测建模性能。首先导入库和相关模块：以下程序需要使用的数据文件：链接：https://pan.baidu.com/s/1Oz5VdQ82Pk3KFGKkaWOAMg 提取码：whj6特征变换的主要内容是针对一个特征，使用合适的方法，对数据的分布、尺度等进行变换，以满足建模时对数据的需求。特征变换可以分为数据的无量纲化处理和数据特征变换等。数据的无量纲化处理常用的方法有数据标准化、数据缩放、数据归一化等方式。

2022-06-24 12:10:48 983

原创机器学习（6）——数据探索与可视化（2）

目录1 可视化分析数据关系1.1 连续变量间关系可视化分析1.1.1 两个连续变量之间的可视化1.1.2 多个连续变量之间的可视化1.2 分类变量间关系可视化分析1.2.1 两个分类变量1.2.2 多个分类变量1.3 连续变量和分类变量间关系可视化分析1.3.1 一个分类变量和一个连续变量1.3.2 两个分类变量和一个连续变量1.3.3 两个分类变量和两个连续变量1.3.4 一个分类变量和多个连续变量1.4 其他类型数据可视化分析1.4.1 时间序列数据1.4.2 文本数据 1.4.3 社交网络数据2 数据

2022-06-23 16:56:37 1824 1

原创机器学习（5）——数据探索与可视化（1）

目录1 缺失值处理1.1 简单的缺失值处理方法1.1.1 发现数据中的缺失值1.1.2 剔除带有缺失值的行或列1.1.3 对缺失值进行插补 1.2 复杂的缺失值填充方法1.2.1 IterativeImputer多变量缺失值填充1.2.2 K-近邻缺失值填充1.2.3 随机森林缺失值填充2 数据描述与异常值发现2.1 数据描述统计2.1.1 数据集中的位置2.1.2 离散程度2.1.3 偏度和峰度2.1.4 单个数据变量的分布情况2.2 发现异常值的基本方法在数据探索过程中，面对一组已经读取的数据，首要的问

2022-06-21 21:46:30 2043 1

原创机器学习（4）——无监督学习

无监督学习是指事先并不知道实际的输出和分类结果，要做的就是从一堆数据中心尝试找到新的知识。最基本的算法有k-均值聚类算法（k-means clustering algorithm）。k-均值聚类思路是将每个数据点分配给最近的簇中心，然后将每个簇中心设置为所分配的所有数据点的平均值，当簇的分配不再变化时，算法则结束。k-均值聚类算法具体可以描述如下：（1）任意选择k个点，作为初始的聚类中心。（2）遍历每个对象，分别对每个对象求与k个中心点的距离，把对象划分到与最近的中心所代表的类别中去。（3）对于每一个中心点

2022-06-18 15:02:01 2492

原创机器学习（3）——有监督学习

如果所获得的数据有明确的分类信息，用有明确分类信息的数据训练数据模型，就称为有监督学习（Supervised Learing）。机器学习的目标是对新获得的数据进行分类与回归。分类的结果是指数据不具有连续性，如将一堆水果划分为苹果、梨子、香蕉3个类别。回归是数据的一种预测算法。所预测的数据可能具有连续性。在机器学习中经常会提到过拟合、欠拟合、泛化的概念。所建立的数学模型在已有的数据上分类或拟合的结果非常理想，但在新的数据上分类或拟合的效果不佳，即泛化能力弱，这种情况一般称为过拟合。如果所建立的模型在已有数据集

2022-06-16 21:12:34 4584 1

原创机器学习（2）——Spyder数据分割与训练

10kV架空路线中，单相接地故障是一种常见的故障。对此类故障和线路运行状态，由实际采集系统中所采集的数据构建了21条表征线路运行状态和故障状态的数据集。打开Spyder，输入以下程序：ground_feature.csv文件获取：链接：https://pan.baidu.com/s/1sNz3RqyiAU7V8djcXVPOtA 提取码：whj6运行结果如下：由运行结果可见，该数据有4个字段，分别为Drop percentage、Ascending mutation value、Wavelet

2022-06-15 11:04:35 2282

原创机器学习（1）——Python数据处理与绘图

目录1 numpy数组使用1.1 numpy生成数组1.2 numpy数组属性1.3 数组的索引和切片1.4 numpy数组运算2 scipy包的使用2.1 scipy包中的模块2.2 常数模块的使用2.3 特殊函数模块的使用2.4 信号处理模块2.5 空间结构模块3 pandas包的使用3.1 pandas数组3.2 查看数据3.3 pandas读取文件4 matplotlib包的使用4.1 正余弦曲线4.2 一张图中的不同曲线 4.3 三维曲线图4.4 其他类型曲线Python具有强大的数据处理能力，

2022-06-14 19:12:56 5328

原创 Python的常用函数（11）

目录1 range()函数2 enumerate()函数3 zip()函数4 map()函数5 sorted()函数6 reversed()函数格式：range(start,stop[,step])参数：start表示计数开始，默认从0开始，如range(3)等价于range(0,3)；stop表示计数结束，但不包括stop，如range(0,3)是[0,1,2];step表示步长，默认为1，如range(0,3)等价于range(0,3,1)。注意：arange(start,end,step)函数与ran

2022-06-12 20:33:46 470 2

原创线程池和进程池（10）——批量获取图片（1）

目录1 多线程和多进程2 XPath返回空列表问题多进程和多线程是实现多任务常用的两种方式。上一节我们应用以下方式获取刘亦菲的两张图片，但是两张图片对我们来说是完全不够的。因此，我们需要改进方法。例如：通用模板如下：2 XPath返回空列表问题这个模板怎么用呢，下面教你批量获取神仙姐姐的图片，怎么说呢，食色？性也（分开打，审核应该能过）。第一步，分析网页结构：我们需要的图片存放的地址：解析XPath，并获取请求头，请求方式等信息：获取XPath后，按模板编写代码，运行后返回的内容是

2022-06-05 11:03:13 421 1

原创爬虫入门（10）——反爬（6）Selenium

目录1 下拉框选择 2 窗口截图 3 无头浏览器4 自动切换窗口有时我们会碰到下拉框，WebDriver提供了Select类来处理下拉框，如百度搜索设置的下拉框。但是我们完全可以用XPath()方法和click()方法来完成，后面如果遇到下拉框我们在补充Select方法。如图所示：代码如下：运行效果如下：自动化用例是由程序去执行的，因此有时候输出的错误信息并不是十分明确。如果在脚本执行出错的时候能够对当前窗口截图保存，那么通过图片就可以非常直观地看出出错的原因。WebDriver提供了截图函数get

2022-06-05 08:53:49 502

AVL CRUISE安装方法.docx

空空如也