算法星球-CSDN博客

原创监督学习，半监督学习，无监督学习的区别是什么

但是，半监督学习可能不如监督学习和无监督学习精确。通常来说，如果有大量的标记数据，则监督学习可能是最好的选择，如果有部分有标记的数据和部分未标记的数据，则半监督学习可能是最好的选择，如果没有标记数据，则无监督学习可能是最好的选择。监督学习是机器学习的一种方法，它的目的是在给定的输入和输出数据集中训练模型，使模型能够根据新的输入数据预测期望的输出。总的来说，监督学习需要有标签的数据集来训练模型，半监督学习则在部分有标签的数据集和部分未标记的数据集之间进行训练，而无监督学习则在没有任何标签的数据集中进行训练。

2023-01-04 15:24:06 608

原创热度能做成监督学习吗？为什么热度不能做成监督学习？

如果模型在训练集上表现优异，但在测试集或新数据上表现不佳，则可能是过拟合导致的。通过对训练数据进行旋转、缩放、平移等操作，可以增加训练数据的数量和多样性，从而提高模型的泛化能力。通过增加模型的宽度或深度，或者通过减少模型的层数，可以改变模型的复杂度，从而防止过拟合。调整超参数，例如学习率、batch size 等，可以控制模型的收敛速度，从而防止过拟合。过拟合的模型通常包含大量参数，而这些参数主要用于拟合训练数据，并不能很好地泛化到新数据上。更多的训练数据可以提高模型的泛化能力，并降低过拟合的风险。

2023-01-04 14:58:45 120

原创怎么判断tensorflow模型是否过拟合

如果模型在训练集上表现优异，但在测试集或新数据上表现不佳，则可能是过拟合导致的。通过对训练数据进行旋转、缩放、平移等操作，可以增加训练数据的数量和多样性，从而提高模型的泛化能力。通过增加模型的宽度或深度，或者通过减少模型的层数，可以改变模型的复杂度，从而防止过拟合。调整超参数，例如学习率、batch size 等，可以控制模型的收敛速度，从而防止过拟合。过拟合的模型通常包含大量参数，而这些参数主要用于拟合训练数据，并不能很好地泛化到新数据上。更多的训练数据可以提高模型的泛化能力，并降低过拟合的风险。

2022-12-15 23:57:28 264

原创【无标题】

1.模型过拟合：如果模型在训练集上表现良好，但在测试集或新数据上表现不佳，则可能是由于模型过拟合导致的。4.数据不够：如果训练数据不足，模型可能无法学习到足够的信息来更新参数，从而导致 loss 不再变化。3.梯度消失或爆炸：如果模型使用了深度神经网络，梯度消失或爆炸也可能导致模型无法收敛。2.学习率过大或过小：学习率过大会导致模型无法收敛，而过小则会导致模型训练过慢。e.使用更多层或更大的模型，以便模型能够学习到更多的信息。tensorflow训练模型loss不变化的可能原因。b.调整学习率，使其适中。

2022-12-15 23:29:01 83

原创深拷贝和浅拷贝之list、dataframe

python list：b = a是浅拷贝，b = list(a)和b = copy.cpoy(a)是深拷贝。浅拷贝，a和b指向的是一个地址。当b改变后，a也会改变。深拷贝，a和b指向的是两个地址，当b改变后，a不受影响。Java list：list2 = Lists.newArrayList(list1)是深拷贝，list3 = list1是浅拷贝。深拷贝，list2改变后，list1的值不会改变。浅拷贝，list3改变后，list1的值也会改变。python dataframe：

2020-12-29 18:38:36 629

原创机器学习实战 - 第4章基于概率论的分类方法：朴素贝叶斯

一、基于贝叶斯决策理论的分类方法朴素贝叶斯的优点：在数据较少的情况下仍然有效，可以处理多类别问题。缺点：对于输入数据的准备方式较为敏感。使用数据类型：标称型数据(一般在有限的数据中取，而且只存在是和否两种不同的结果)。朴素贝叶斯是贝叶斯决策理论的一部分。贝叶斯决策理论：假设有一个数据集，它由两类数据组成，在判断具体数据属于哪个类别时，会选择高概率对应的类别。这就是贝叶斯决策理论的核心思想，即选择具有最高概率的决策。贝叶斯使用先验知识和逻辑推理来处理不确定性命题。频数概率：它只从数据本身获得结论，并

2020-11-24 14:51:48 482

原创 python获取ES中的数据

在介绍如何从ES中获取数据之前，我们先在ES中添加一条数据，创建索引test。以下操作均在kibana中运行创建索引命令：PUT /test在索引中添加数据命令：PUT test/_doc/2{“name”: “xiaohong”,“sex”:“male”,“age”: 18}查看索引中的数据命令：GET test/_searchES中有了数据之后，我们来通过python获取ES中的值。这里用两种方式分别获取ES中的值。第一种方式使用python中的Elasticsearch

2020-10-18 17:27:23 2262

原创模型评估(二)

五、模型评估的方法在样本划分和模型验证的过程中，存在着不同的抽样方法和验证方法。1. 在模型评估过程中，有哪些主要的验证方法，他们的优缺点是什么？Holdout检验Holdout检验是最简单最直接的验证方法，它将原始的样本集合随机划分成训练集和验证集两部分。Holdout检验的缺点也很明显，即在验证集上计算出来的最后评估指标与原始分组有很大的关系。为了消除随机性，引入了交叉验证。交叉验证k-fold交叉验证：首先将全部样本划分成k个大小相等的样本子集；依次遍历这k个子集，每次把当前子集作为验证集

2020-09-20 15:40:17 720

原创模型评估(一)

只有选择与问题相匹配的评估方法，才能快速的发现模型选择或训练过程中出现的问题，迭代地对模型进行优化。模型评估主要分为离线评估和在线评估两个阶段。针对分类、排序、回归、序列预测等不同类型的机器学习问题，评估指标的选择也有所不同。有针对性地选择合适的评估指标、根据评估指标的反馈进行模型调整，是机器学习在模型评估阶段的关键。一、评估指标的局限性在模型评估过程中，分类问题、排序问题、回归问题往往需要使用不同的指标进行评估。在诸多的评估指标中，大部分指标只能片面地反映模型的一部分性能。如果不能合理地运用评估指标，

2020-09-17 17:55:22 1285

原创特征工程之高维组合特征的处理、组合特征、文本表示模型

三、高维组合特征的处理什么是组合特征？如何处理高维组合特征？为了提高复杂关系的拟合能力，在特征工程中经常会把一阶离散特征两两组合，构成高阶组合特征。比如性别(取值男女)，城市(取值上海北京)，组合后特征为：上海男，上海女，北京男，北京女。假设数据的特征向量为X = (x1, x2, x3, x4, x5 ……xk)。比如xi和xj两个特征组合，组合之后特征的维度 = xi取值个数 * xj取值个数。但是当引入特征 ID进行组合后，会存在参数规模过大的问题。比如用户数量为m，物品数量为n，那么需要学习

2020-09-14 20:16:51 1144

原创特征工程 - 归一化、类别处理

特征工程一特征工程一、特征归一化为什么对数值类型的特征做归一化？二、类别型特征在对数据进行预处理时，应该怎样处理类别型特征？特征工程对于一个机器学习问题，数据和特征往往决定了结果的上线，而模型、算法的选择及优化则是在逐步接近这个上限。特征工程，就是对原始数据进行一系列工程处理，将其提炼为特征，做为输入供算法和模型使用。特征工程的目的是去除原始数据中的杂质和冗余，设计更高效的特征以刻画求解的问题与预测模型之间的关系。一、特征归一化数据归一化，使各指标处于同一数值量级，使不同指标之间具有可比性。归

2020-09-13 17:06:17 626

yueliang666666的博客