机器学习
zhangdy12307
这个作者很懒,什么都没留下…
展开
-
鸢尾花分类
鸢尾花分类以前的机器学习之路是三天打鱼两天晒网的,导致现在学的不深入,今天重新开始学习初识数据鸢尾花数据是机器学习和统计学中经典的数据集,包含在scikir-learn的datasets中,使用load_iris函数加载数据from sklearn.datasets import load_irisiris_dataset=load_iris()print("Keys of iris_...原创 2019-05-09 11:37:11 · 4640 阅读 · 0 评论 -
MapReduce之基于符号数据的朴素贝叶斯分类(一)
MapReduce之基于符号数据的朴素贝叶斯分类简介 朴素贝叶斯(NBC)是一个基于独立假设应用的贝叶斯定理的概论分类器,NBC根据输入的一些属性将输入分配到kkk个类{C1,C2,…,CkC_1,C_2,\dots,C_kC1,C2,…,Ck}中的某一类。NBC有很多应用,如垃圾邮件过滤和文档分类等。 &...原创 2019-10-02 23:27:11 · 1031 阅读 · 0 评论 -
MapReduce之KNN算法
MapReduce之KNN算法什么是KKK-邻近算法(KNN)KNN分类KNN距离函数KNN算法非形式化描述原创 2019-09-26 09:27:56 · 2586 阅读 · 10 评论 -
MapReduce之K-均值聚类(完)
K-均值聚类的MapReduce解决方案是一个迭代方案,其中每一次迭代为实现一个MapReduce作业,因此需要创建一个迭代版本的MapReduce作业,因此: 使用控制程序来初始化KKK个质心的位置,迭代调用MapReduce作业,并确定应当继续迭代还是应当停止 映射器需要获取数据点和所有簇质心,其中簇中心必须由所有映射器共享 当质心不再发生变化或者变化小于阈值时停止原创 2019-09-21 15:49:58 · 1033 阅读 · 1 评论 -
MapReduce之K-均值聚类(一)
MapReduce之K-均值聚类背景什么是聚类?什么是K-均值算法?K-均值算法的形式化描述K-均值算法距离函数原创 2019-09-21 14:57:18 · 745 阅读 · 0 评论 -
Spark机器学习之垃圾邮件分类
Spark机器学习之垃圾邮件分类步骤概述通过HashingTF构建文本的特征向量,然后使用随机梯度下降算法实现逻辑回归,进而对邮件进行分类垃圾邮件分类代码导入相关的包import org.apache.spark.mllib.regression.LabeledPointimport org.apache.spark.mllib.feature.HashingTFimport org...原创 2019-06-04 14:25:59 · 1223 阅读 · 2 评论 -
Spark机器学习之 Word2Vec
Spark机器学习之 Word2VecWord2Vec简介Word2Vec是一个词嵌入方法,可以计算每个单词在给定的语料库环境下的分布式向量,如果两个单词的语义相近,那么词向量在向量空间中也相互接近,判断向量空间的接近程度来判断来两个单词是否相似首先导入Word2Vec所需要的包,并创建可以代表文档的词语序列如果是由数组构成的相关元素,在转换成相关的DataFrame需要用 Tuple1....原创 2019-06-04 11:07:50 · 878 阅读 · 0 评论 -
sklearn无法加载fetch_mldata解决方案
sklearn无法加载fetch_mldata解决方案最近再看《机器学习实战:基于Scikit-Learn和TensorFlow》,第三章发现无法加载mnist数据集,于是参考资料写出如下解决方案参考链接:How to use datasets.fetch_mldata() in sklearn?1、从外部获取数据集fetch_mldata数据集地址:fetch_mldata2、使用sk...原创 2019-06-20 09:36:39 · 12377 阅读 · 6 评论 -
Spark机器学习之 TF-IDF
Spark机器学习之 TF-IDFTF-IDF简介TF-IDF叫做词频-逆向文件频率,主要体现一个文档当中的词语在语料库中的重要程度,计算公式如下:IDF(t,D)=log∣D∣+1DF(t,D)+1,.IDF(t,D) = log\frac{|D|+1}{DF(t,D)+1},.IDF(t,D)=logDF(t,D)+1∣D∣+1,.TF分为两步,分为TF和IDF,在TF中使用Ha...原创 2019-06-03 12:31:28 · 272 阅读 · 0 评论 -
MapReduce之基于符号数据的朴素贝叶斯分类(完)
MapReduce之基于符号数据的朴素贝叶斯分类在上一篇博客MapReduce之基于符号数据的朴素贝叶斯分类(一)中,简单的介绍了朴素贝叶斯算法的原理,接下来讲述如何使用MapReduce实现朴素贝叶斯算法。输入数据还是以《Machine Learning》中的数据为例:如下所示训练数据Sunny Hot High Weak NoSunny Hot High Strong NoOve...原创 2019-10-03 15:16:23 · 1448 阅读 · 5 评论