人工智能-数据挖掘
文章平均质量分 81
人工智能-数据挖掘
百花君
—— 是赵公子吗?
展开
-
【基础算法】马尔科夫模型
如果一个随机序列的分布仅由其当前状态确定,则具有markov性质。具有这个性质的随机过程称为马尔科夫随机过程(markov random process)。对于可观察的状态序列(即状态由数据可知),可以得到一个马尔科夫链模型(markov chain model,MCM),我们可以使用这个模型来做一些预测。对于不可观察状态,会得到一个隐式马尔科夫模型(hidden markov model,HMM)接下来我们给出将要用到的马尔科夫链的形式化表示。原创 2023-08-25 14:50:44 · 390 阅读 · 0 评论 -
【基础算法】商品推荐
商品推荐,想必使用过网上购物的朋友都会了解这一功能。购物网站的每个页面上都会提供很多这样的列表,包括“经常一起购买的商品”、“购买过该商品的用户还购买了哪些商品”等等。这些特性的基础就是推荐引擎系统。一般的,推荐引擎系统会在以下方面改善用户体验:帮助用户查找信息减少搜索和导航的时间提高用户满意度,而且可以激励用户经常光顾网站推荐引擎系统可以预测或推荐:用户还没有评级、访问或购买过的商品用户还没有考虑过的电影或图书用户还没有去过的餐馆或场所近年来,推荐系统已经非常的普遍。原创 2023-08-25 14:50:12 · 123 阅读 · 0 评论 -
【基础算法】共同好友
给定一个包含上千万用户的社交网络,我们会实现一个MapReduce、Spark程序,在所有用户对中找出“共同好友”。令为包含一个所有用户列表的集合。我们的目标是为每个对$i\ne j$找出共同好友。我们本章提出3个解决方案:MapReduce/Hadoop解决方案,使用基本数据类型Spark解决方案,使用弹性数据集RDD。原创 2023-08-25 14:49:34 · 173 阅读 · 0 评论 -
【基础算法】反转排序(文本相对频度)
这里。我们来研究一个简单的例子。通过计算一个给定文档集中单词的相对频度来展示OI模式。这里的目标是建立一个N*N矩阵(M)。其中每个单元$M_{ij}$包含一个特定上下文单词$W_{i}$与单词$W_{j}$共同出现的次数。为简单起见,我们将这个上下文定义为$W_{i}$的邻域。如果定义对于这个例子,计算相对频度需要得到边缘计数,也就是行和列总数。不过,在得到所有计数之前,将无法计算边缘计数。因此,。我们不使用绝对计数,而使用相对频度来描绘单词的特性。也就是说,在$W_{i}$的上下文中$W_{j}$原创 2023-08-25 14:48:49 · 286 阅读 · 0 评论 -
【基础算法】朴素贝叶斯
贝叶斯算法比起KNN算法来说,效果高了很多,KNN算法虽然可以保证结果比较精确,但是其庞大的运算量在许多场景无法使用,因此,KNN可以说没有NBC运用的广泛。使用朴素贝叶斯算法的思路:第一阶段:训练分类器阶段,该阶段需要大量的数据训练一个分类器,数据量越大,预测结果越准确:1、获取整个数据集的记录总数N2、计算每个类别出现的概率,即P©其中$C_{i}$为数据集中类别出现的次数。3、计算每个特征值的条件概率(在已知类别之后)原创 2023-08-25 14:48:08 · 258 阅读 · 0 评论 -
【基础算法】K近邻
K-近邻(K-Nearest Neighbors, KNN)是一个非常简单的机器学习算法,很多机器学习算法书籍都喜欢将该算法作为入门的算法作为介绍。KNN分类问题是找出一个数据集中与给定查询数据点最近的K个数据点。这个操作也成为KNN连接(KNN-join)。可以定义为:给定两个数据集R合S,对R中的每一个对象,我们希望从S中找出K个最近的相邻对象。在数据挖掘中,R和S分别称为查询和训练(traning)数据集。训练数据集S表示已经分类的数据,而查询数据集R表示利用S中的分类来进行分类的数据。原创 2023-08-25 14:47:22 · 246 阅读 · 0 评论 -
【基础算法】相似度计算推荐度
基于电影的评分的推荐系统,本章节使用三个相似度算法,求解最佳电影的推荐。原创 2023-08-25 14:38:49 · 68 阅读 · 0 评论