自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (6)
  • 收藏
  • 关注

原创 第十七章 番外 共现矩阵

共现矩阵(Co-occurrence Matrix)是一种统计方法,用于描述不同元素之间共同出现的频率。这种矩阵在自然语言处理、图像分析、推荐系统等领域有着广泛的应用。下面我将用通俗易懂的方式解释共现矩阵的概念。

2024-09-10 15:58:55 341

原创 第十六章 推荐系统

它通过计算不同商品之间的相似度来推荐与用户已知喜好相似的商品。这种方法不需要用户的历史行为序列,而是直接基于用户过去的行为(例如购买记录、评分历史等)来寻找相似的商品进行推荐。假设我们有一个用户-商品的评分数据集,我们将使用余弦相似度来计算商品间的相似性。在这个示例中,我们首先构造了一个用户-商品的评分矩阵,然后利用函数计算了商品之间的相似度。最后,我们根据用户已有的评分记录来推荐相似的商品。

2024-09-09 13:33:08 893

原创 第十五章 关联规则

关联规则学习是数据挖掘中的一种方法,用于发现数据集中有趣的关系或相关性。这些关系通常表示为“如果-那么”形式的规则,表明某些事件的发生与另一些事件的发生有关联。例如,在超市购物篮分析中,一个典型的关联规则可能是“如果顾客购买了面包和牛奶,则他们也很可能购买黄油”。

2024-09-04 17:30:24 407

原创 第十四章 番外 文本向量化

将文本转换成向量的过程通常被称为“文本向量化”或“词嵌入”。这是一种将自然语言文本中的单词或短语转换成数值向量的方法,以便计算机可以通过这些向量来理解和处理文本数据。

2024-09-02 16:58:24 832

原创 第十三章 词向量

Word2Vec 是一种强大的工具,用于从文本数据中学习词向量。它能够捕捉词语之间的复杂关系,并在多种自然语言处理任务中发挥重要作用。GloVe 是一种有效的词向量学习方法,它通过全局矩阵因子化来捕捉词语之间的统计关系。

2024-08-29 13:32:19 1027

原创 第十二章 贝叶斯

贝叶斯定理(Bayes’ Theorem)是一种概率论中的基本定理,它描述了两个条件概率之间的关系。

2024-08-28 14:40:51 759

原创 第十一章 番外 对偶问题

对偶问题(Dual Problem)是优化理论中的一个重要概念,它与原问题(Primal Problem)相对应。在数学优化中,对偶问题是从原问题出发构造出来的一个新的优化问题。对偶问题的主要目的是简化原问题的求解,并且在某些情况下,对偶问题的解可以直接给出原问题的解。下面我们详细解释对偶问题的概念。

2024-08-27 11:13:14 485

原创 第十章 番外 拉格朗日乘子法

拉格朗日乘子法(Lagrange Multiplier Method)是一种解决带有等式约束的优化问题的方法。这种方法可以用来求解最优化问题中的约束条件,特别是在支持向量机(SVM)中用于寻找最大间隔超平面时非常有用。

2024-08-21 14:14:06 904

原创 第九章 支持向量机

支持向量机(Support Vector Machine,简称 SVM)是一种监督学习算法,主要用于二元分类问题,也可以扩展到多类分类和回归问题。SVM 的核心思想是在特征空间中寻找一个最优的超平面(对于高维数据来说就是超平面,对于二维数据来说就是一条直线),使得两类样本之间的间隔最大化。这样的超平面被称为最大间隔超平面(maximum-margin hyperplane)。一句话总结:找个板子(面),把数据按照某种规则隔开上图是二维,需要一条直线分割数据。

2024-08-20 15:03:48 680

原创 第八章 集成算法

Bagging是一种减少模型方差的策略,它通过创建多个数据集的子集(通常使用自助抽样法),然后在每个子集上独立训练相同的模型。最终的预测结果是所有这些模型预测的平均值(对于回归问题)或投票(对于分类问题)。

2024-08-16 16:21:06 341

原创 第七章 决策树

决策树(Decision Tree)是一种有监督学习方法,用于分类和回归任务。它以树形结构表示一组规则,通过一系列的判断(即决策节点)来做出最终的决定(即叶节点)。决策树的构建过程是一个递归划分数据的过程,目标是创建一个模型,该模型能够从特征空间中找到最佳分割点,以便对数据进行有效的分类或回归预测。大白话-一棵树根据条件(大于小于等于)分裂成一个个枝干和叶子上面两图是比较简单的决策树,前期有个概念。

2024-08-15 17:11:28 652

原创 第六章 番外 标准化

最常用的标准化方法之一是Z-score标准化,也称为标准分数标准化。这种方法通过减去特征的平均值并除以特征的标准差来转换数据,使得转换后的数据具有零均值和单位方差。zx−μσzσx−μ​其中,( z ) 是标准化后的值。( x ) 是原始特征值。( μ ) 是所有样本中该特征的平均值。(σ ) 是所有样本中该特征的标准差。通过这种方式,即使原始数据分布未知,标准化后的数据也会具有相同的基本统计属性,即均值为0,方差为1。

2024-08-14 16:08:34 378

原创 第五章 聚类算法

下图来自官网,不同的聚类算法对相同点集的划分情况以及耗时是一种基于密度的聚类算法。与传统的聚类算法如K-means不同,DBSCAN不需要预先指定聚类的数量,而且它能够识别出任意形状的聚类以及数据集中的噪声点。

2024-08-12 16:24:14 786

原创 第四章 番外 各种损失函数介绍

选择正确的损失函数对于训练有效的模型至关重要,它应该反映你的模型需要解决的具体问题和目标。在实际应用中,可能还需要根据数据的具体性质和模型的架构调整损失函数的细节。: 是MSE和MAE的混合体,对于较大的误差,它使用MAE,而对于较小的误差,它使用MSE。: 最常用的回归损失函数,计算预测值与真实值之间差的平方的均值。: 计算预测值与真实值之间差的绝对值的均值,对异常值不那么敏感。: 对异常值具有鲁棒性,计算复杂度较低,适用于回归问题。: 用于二分类问题,测量两个概率分布之间的差异。其中,C 是类别数,

2024-08-09 16:52:45 801

原创 第三章 逻辑回归

为了训练模型,我们需要定义一个损失函数来衡量预测值与实际值之间的差距。逻辑回归常用的是对数似然损失函数,也称为交叉熵损失(Cross-Entropy Loss)。在二分类问题中,如果预测的概率大于某个阈值(通常为0.5),则预测结果为正类(例如1),否则为负类(例如0)。这个阈值决定了分类的决策边界。目标是最小化整个数据集上的平均损失,这通常通过梯度下降等优化算法来实现。,从而对分类问题进行建模(如果中间节点定义为0.5,那么大于0.5为1,小于为0)将线性回归的结果映射到。

2024-08-09 16:51:51 580

原创 第二章 模型评估

机器学习模型评估是量化和优化模型性能的过程,涉及多种评估方法和性能度量指标。白话-训练完的模型就相当于刚做完玩例题的学生,如果不考试(测试数据评估)一下,你不知道它是否掌握了这些知识,掌握到什么程度1、方法描述直接将数据集D划分为两个互斥的集合——一个作为训练集S,另一个作为测试集T。2、注意点和实际做法(1)在划分的过程中要尽可能保持数据分布的一致性,避免因数据划分过程中引入的额外偏差而对最终结果产生影响。(比如说在分类任务中保持样本的类别比例相似——举个二分类的例子:S的正反例占比各50%,那么

2024-08-08 10:31:25 747

原创 第一章 线性回归

根据一些已知点,求出方程,然后求出需要预测的值。

2024-08-07 15:19:48 577

原创 软件使用-JetBrains

JetBrains全家桶破解:idea、pycharm、goland、datagrip等

2024-08-02 22:38:44 400

毕业设计-基于springcloud springboot vue 的电影售票管理系统

javaweb,使用springcloud springboot vue 做的电影售票管理系统

2024-08-02

mybatis自动生成代码 eclipse插件

eclipse插件generator插件,主要应用于自动生成代码,方便开发

2017-10-30

scala 中文

学习scala语言,为了了解spark

2017-06-01

学习Git教程

安装git插件的方式

2017-05-27

svn使用教程及操作手册

有关svn的安装整体完整流程以及开发者在使用过程中需要用到的命令和菜单选项的一些详细介绍以及使用案例

2017-05-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除