zz_wen-CSDN博客

原创第十七章番外共现矩阵

共现矩阵（Co-occurrence Matrix）是一种统计方法，用于描述不同元素之间共同出现的频率。这种矩阵在自然语言处理、图像分析、推荐系统等领域有着广泛的应用。下面我将用通俗易懂的方式解释共现矩阵的概念。

2024-09-10 15:58:55 341

原创第十六章推荐系统

它通过计算不同商品之间的相似度来推荐与用户已知喜好相似的商品。这种方法不需要用户的历史行为序列，而是直接基于用户过去的行为（例如购买记录、评分历史等）来寻找相似的商品进行推荐。假设我们有一个用户-商品的评分数据集，我们将使用余弦相似度来计算商品间的相似性。在这个示例中，我们首先构造了一个用户-商品的评分矩阵，然后利用函数计算了商品之间的相似度。最后，我们根据用户已有的评分记录来推荐相似的商品。

2024-09-09 13:33:08 893

原创第十五章关联规则

关联规则学习是数据挖掘中的一种方法，用于发现数据集中有趣的关系或相关性。这些关系通常表示为“如果-那么”形式的规则，表明某些事件的发生与另一些事件的发生有关联。例如，在超市购物篮分析中，一个典型的关联规则可能是“如果顾客购买了面包和牛奶，则他们也很可能购买黄油”。

2024-09-04 17:30:24 407

原创第十四章番外文本向量化

将文本转换成向量的过程通常被称为“文本向量化”或“词嵌入”。这是一种将自然语言文本中的单词或短语转换成数值向量的方法，以便计算机可以通过这些向量来理解和处理文本数据。

2024-09-02 16:58:24 832

原创第十三章词向量

Word2Vec 是一种强大的工具，用于从文本数据中学习词向量。它能够捕捉词语之间的复杂关系，并在多种自然语言处理任务中发挥重要作用。GloVe 是一种有效的词向量学习方法，它通过全局矩阵因子化来捕捉词语之间的统计关系。

2024-08-29 13:32:19 1027

原创第十二章贝叶斯

贝叶斯定理（Bayes’ Theorem）是一种概率论中的基本定理，它描述了两个条件概率之间的关系。

2024-08-28 14:40:51 759

原创第十一章番外对偶问题

对偶问题（Dual Problem）是优化理论中的一个重要概念，它与原问题（Primal Problem）相对应。在数学优化中，对偶问题是从原问题出发构造出来的一个新的优化问题。对偶问题的主要目的是简化原问题的求解，并且在某些情况下，对偶问题的解可以直接给出原问题的解。下面我们详细解释对偶问题的概念。

2024-08-27 11:13:14 485

原创第十章番外拉格朗日乘子法

拉格朗日乘子法（Lagrange Multiplier Method）是一种解决带有等式约束的优化问题的方法。这种方法可以用来求解最优化问题中的约束条件，特别是在支持向量机（SVM）中用于寻找最大间隔超平面时非常有用。

2024-08-21 14:14:06 904

支持向量机（Support Vector Machine，简称 SVM）是一种监督学习算法，主要用于二元分类问题，也可以扩展到多类分类和回归问题。SVM 的核心思想是在特征空间中寻找一个最优的超平面（对于高维数据来说就是超平面，对于二维数据来说就是一条直线），使得两类样本之间的间隔最大化。这样的超平面被称为最大间隔超平面（maximum-margin hyperplane）。一句话总结：找个板子（面），把数据按照某种规则隔开上图是二维，需要一条直线分割数据。

2024-08-20 15:03:48 680

原创第八章集成算法

Bagging是一种减少模型方差的策略，它通过创建多个数据集的子集（通常使用自助抽样法），然后在每个子集上独立训练相同的模型。最终的预测结果是所有这些模型预测的平均值（对于回归问题）或投票（对于分类问题）。

2024-08-16 16:21:06 341

原创第七章决策树

决策树（Decision Tree）是一种有监督学习方法，用于分类和回归任务。它以树形结构表示一组规则，通过一系列的判断（即决策节点）来做出最终的决定（即叶节点）。决策树的构建过程是一个递归划分数据的过程，目标是创建一个模型，该模型能够从特征空间中找到最佳分割点，以便对数据进行有效的分类或回归预测。大白话-一棵树根据条件（大于小于等于）分裂成一个个枝干和叶子上面两图是比较简单的决策树，前期有个概念。

2024-08-15 17:11:28 652

原创第六章番外标准化

最常用的标准化方法之一是Z-score标准化，也称为标准分数标准化。这种方法通过减去特征的平均值并除以特征的标准差来转换数据，使得转换后的数据具有零均值和单位方差。zx−μσzσx−μ其中，( z ) 是标准化后的值。( x ) 是原始特征值。( μ ) 是所有样本中该特征的平均值。(σ ) 是所有样本中该特征的标准差。通过这种方式，即使原始数据分布未知，标准化后的数据也会具有相同的基本统计属性，即均值为0，方差为1。

2024-08-14 16:08:34 378

原创第五章聚类算法

下图来自官网，不同的聚类算法对相同点集的划分情况以及耗时是一种基于密度的聚类算法。与传统的聚类算法如K-means不同，DBSCAN不需要预先指定聚类的数量，而且它能够识别出任意形状的聚类以及数据集中的噪声点。

2024-08-12 16:24:14 786

原创第四章番外各种损失函数介绍

选择正确的损失函数对于训练有效的模型至关重要，它应该反映你的模型需要解决的具体问题和目标。在实际应用中，可能还需要根据数据的具体性质和模型的架构调整损失函数的细节。：是MSE和MAE的混合体，对于较大的误差，它使用MAE，而对于较小的误差，它使用MSE。：最常用的回归损失函数，计算预测值与真实值之间差的平方的均值。：计算预测值与真实值之间差的绝对值的均值，对异常值不那么敏感。：对异常值具有鲁棒性，计算复杂度较低，适用于回归问题。：用于二分类问题，测量两个概率分布之间的差异。其中，C 是类别数，

2024-08-09 16:52:45 801

原创第三章逻辑回归

为了训练模型，我们需要定义一个损失函数来衡量预测值与实际值之间的差距。逻辑回归常用的是对数似然损失函数，也称为交叉熵损失（Cross-Entropy Loss）。在二分类问题中，如果预测的概率大于某个阈值（通常为0.5），则预测结果为正类（例如1），否则为负类（例如0）。这个阈值决定了分类的决策边界。目标是最小化整个数据集上的平均损失，这通常通过梯度下降等优化算法来实现。，从而对分类问题进行建模（如果中间节点定义为0.5，那么大于0.5为1，小于为0）将线性回归的结果映射到。

2024-08-09 16:51:51 580

原创第二章模型评估

机器学习模型评估是量化和优化模型性能的过程，涉及多种评估方法和性能度量指标。白话-训练完的模型就相当于刚做完玩例题的学生，如果不考试（测试数据评估）一下，你不知道它是否掌握了这些知识，掌握到什么程度1、方法描述直接将数据集D划分为两个互斥的集合——一个作为训练集S，另一个作为测试集T。2、注意点和实际做法（1）在划分的过程中要尽可能保持数据分布的一致性，避免因数据划分过程中引入的额外偏差而对最终结果产生影响。（比如说在分类任务中保持样本的类别比例相似——举个二分类的例子：S的正反例占比各50%，那么

2024-08-08 10:31:25 747

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

zz_wen的博客

原创第十七章番外共现矩阵

原创第十六章推荐系统

原创第十五章关联规则

原创第十四章番外文本向量化

原创第十三章词向量

原创第十二章贝叶斯

原创第十一章番外对偶问题

原创第十章番外拉格朗日乘子法

原创第九章支持向量机

原创第八章集成算法

原创第七章决策树

原创第六章番外标准化

原创第五章聚类算法

原创第四章番外各种损失函数介绍

原创第三章逻辑回归

原创第二章模型评估

原创第一章线性回归

原创软件使用-JetBrains

毕业设计-基于springcloud springboot vue 的电影售票管理系统

mybatis自动生成代码 eclipse插件

scala 中文

学习Git教程

svn使用教程及操作手册

空空如也