![](https://img-blog.csdnimg.cn/20210620201826657.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
机器学习
文章平均质量分 71
机器学习文章汇总
电光闪烁
一个大数据开发工程师的学习之路
展开
-
算法文章汇总
Mahout协同过滤算法机器学习(Machine Learing)机器学习之欧氏距离(Euclidean Distance)机器学习之余弦距离(Cosine Dsitance)未完待续......原创 2022-01-19 17:57:53 · 1073 阅读 · 0 评论 -
机器学习:特征选择之ChiSqSelector(SparkMLlib中的ChiSqSelector)
目录0. 相关文章链接1. 概述2. 实例3. 代码演示0. 相关文章链接算法文章汇总1. 概述ChiSqSelector代表Chi-Squared特性选择。 它对具有分类特征的标记数据进行操作。 ChiSqSelector使用独立的卡方检验来决定选择哪些特性。 它支持五种选择方法:numTopFeatures, percentile, fpr, fdr, fwe: numTopFeatures:根据卡方测试选择固定数量的顶级特征。 这类似于生成具有最强大预测能力的特征原创 2022-02-09 15:59:34 · 1048 阅读 · 0 评论 -
机器学习:特征选择之RFormula(SparkMLlib中的RFormula)
目录0. 相关文章链接1. 概述2. Spark代码0. 相关文章链接算法文章汇总1. 概述使用RFormula选择特征列在Spark2.1.0版本只支持一部分R操作,包括:~’, ‘.’, ‘:’, ‘+’, and ‘-‘.~ separate target and terms 分割标签与特征+ concat terms, “+ 0” means removing intercept 将两个特征相加- remove a term, “- 1” means remo原创 2022-02-08 14:43:59 · 425 阅读 · 0 评论 -
机器学习:特征选择之向量选择(SparkMLlib中的VectorSlicer)
目录0. 相关文章链接1. 概述2. 实例3. 代码和API0. 相关文章链接算法文章汇总1. 概述VectorSlicer是一个转换器,它接收一个特征向量,并输出一个带有原始特征子数组的新特征向量。 它对于从向量列中提取特征非常有用。VectorSlicer接受一个带有指定索引的向量列,然后输出一个新的向量列,其值是通过这些索引选择的。 指数有两种: 通过setIndices()设置的整数索引。 通过setNames()设置的字符串索引,这要求vecto原创 2022-01-24 18:12:40 · 1328 阅读 · 0 评论 -
机器学习:基础介绍(补充)
目录0. 相关文章链接1. 行业热词解释2. 机器学习基本术语3. 机器学习的整体流程3.1. 需求分析3.2.数据预处理3.3. 特征工程3.4. 模型训练3.5. 模型评估3.6. 离线 / 在线服务4. 机器学习算法分类4.1. 监督学习4.2. 无监督学习4.3. 半监督学习4.4. 强化学习4.5. SparkMLlib中支持的机器学习算法5. 机器学习结果评估问题5.1. 二分类问题5.2. 回归问题5.3. 聚类.原创 2022-01-20 23:52:30 · 669 阅读 · 1 评论 -
机器学习:基础介绍
1. 什么是机器学习(Machine Learing)1.1.机器学习是人工智能的一个分支1.2. 机器学习的分类1.2.1. 机器学习根据应用场景的分类1.2.2. 机器学习根据算法驱动的分类1.3. 机器学习的使用 1.4.AI、ML及DL关系1.5.机器学习(Machine Learning)的基础概念2. 监督学习和无监督学习2.1.监督学习(Supervised Learning)2.2.非监督学习(Unsupervised Lear原创 2022-01-17 21:29:53 · 1844 阅读 · 3 评论 -
机器学习:余弦距离(Cosine Dsitance)
余弦距离(也称为余弦相似度): 用向量空间中两个向量夹角的余弦值 作为衡量两个个体间差异的大小的度量。向量:多维空间中有方向的线段,如果两个向量的 方向一致,即夹角接近零,那么这两个向量就相近 。而要确定两个向量方向是否一致,这就要用到余弦定理计算向量的夹角。余弦定理描述了 三角形中任何一个夹角和三个边的关系 。给定三角形的三条边,可以使用余弦定理求出三角形各个角的角度。假定三角形的三条边为a,b和c,对应的三个角为A,B和C,如下如所示:那么角A...原创 2022-01-17 23:22:14 · 13572 阅读 · 2 评论 -
机器学习:欧氏距离(Euclidean Distance)
欧式距离也称欧几里得距离,是最常见的距离度量,衡量的是多维空间中两个点之间的 绝对距离 。以古希腊数学家欧几里得命名的距离,也就是我们直观的两点之间直线最短的直线距离。欧氏距离定义: 欧氏距离( Euclidean distance)是一个通常采用的距离定义,它是在m维空间中两个点之间的真实距离。在二维和三维空间中的欧式距离的就是两点之间的距离,二维的公式是:三维的公式是:推广到n维空间,欧式距离的公式是:n维欧氏空间是一个点集,它的每个点可以表示为(x(1)...原创 2022-01-17 23:12:32 · 26390 阅读 · 0 评论 -
机器学习:Mahout协同过滤算法
1、推荐系统1.1、什么是推荐系统为了解决信息过载和用户无明确需求的问题,找到用户感兴趣的物品,才有了个性化推荐系统。1.2、推荐系统业务流程推荐系统广泛存在于各类网站中,作为一个应用为用户提供个性化的推荐。它需要一些用户的历史数据,一般由三个部分组成:基础数据、推荐算法系统、前台展示。 基础数据包括很多维度,包括用户的访问、浏览、下单、收藏,用户的历史订单信息,评...原创 2019-08-21 23:16:38 · 4770 阅读 · 0 评论