机器学习
小飞猪666
这个作者很懒,什么都没留下…
展开
-
机器学习实战(十一)使用FP-growth算法来高效发现频繁项集
一、前言 上次提到可以用Apriori算法来提取频繁项集,但是Apriori算法有个致命的缺点,那就是它对每个潜在的频繁项集都需要扫描数据集判定其是否频繁,因而在时间消耗上是巨大的。据说在实际应用上一般都不用Apriori算法。 FP算法的核心就是将数据集存储在一个特定的称作FP树的结构当中。构建完FP树之后,就可以递归地在FP树上挖掘频繁项集。FP-growth算法只...原创 2020-03-25 20:07:59 · 229 阅读 · 0 评论 -
机器学习实战(十)Apriori算法进行关联分析
一、前言 在去杂货店买东西的过程,实际包含了许多机器学习的当前及未来应用,这包括物品的展示方式、购物之后优惠券的提供以及用户忠诚度计划,等等。它们都离不开对大量数据的分析。 通过查看哪些商品经常在一起购买,可以帮助商店了解用户的购买行为。这种从数据海洋中抽取的知识可以用于商品定价、市场促销、存货管理等环节。从大规模数据集中寻找物品间的隐含关系被称作关联分析(associa...原创 2020-03-22 00:19:39 · 1494 阅读 · 0 评论 -
机器学习实战(九)K均值聚类算法
一、引言 先说个K-means算法很高大上的用处,来开始新的算法学习。我们都知道每一届的美国总统大选,那叫一个竞争激烈。可以说,谁拿到了各个州尽可能多的选票,谁选举获胜的几率就会非常大。有人会说,这跟K-means算法有什么关系?当然,如果哪一届的总统竞选,某一位候选人是绝对的众望所归,那自然能以压倒性优势竞选成功,那么我们的k-means算法还真用不上。但是,我们应该知道2004年...原创 2020-03-19 20:39:52 · 2212 阅读 · 1 评论 -
机器学习实战(八)02-树回归基础篇之树模型
一、模型树在回归树的基础上,叶子节点是常数值,如果这些叶子结点设定为分段线性函数,这里的所谓的分段线性是指模型有多个线性片段组成。该算法的关键在于误差的计算:怎么找到最佳切分点,应该怎样计算误差,首先对于给定的数据集,应该先用线性的模型对它拟合,然后计算真实目标值和模型预测值的差值,最后将这些差值的平方和得到所需的误差。注:线性回归(最小二乘)通过最小化平方误差,求解回归系数w。即平方误...原创 2020-03-19 13:12:51 · 1360 阅读 · 0 评论 -
机器学习实战(八)01-树回归基础篇之CART算法与树剪枝
一、前言本篇文章将会讲解CART算法的实现和树的剪枝方法,通过测试不同的数据集,学习CART算法和树剪枝技术。二、将CART(Classification And Regression Trees)算法用于回归在之前的文章,我们学习了决策树的原理和代码实现,使用使用决策树进行分类。决策树不断将数据切分成小数据集,直到所有目标标量完全相同,或者数据不能再切分为止。决策树是一种贪心算法,它...转载 2020-03-15 23:50:35 · 581 阅读 · 0 评论 -
机器学习实战(七)02-线性回归提高篇之乐高玩具套件二手价预测
https://blog.csdn.net/c406495762/article/details/82967529转载 2020-03-01 20:42:38 · 619 阅读 · 0 评论 -
机器学习实战(七)01-线性回归基础篇之预测鲍鱼年龄
一 前言前面的文章介绍了很多分类算法,分类的目标变量是标称型数据,而本文将会对连续型的数据做出预测。主要讲解简单的线性回归和局部加权线性回归,并通过预测鲍鱼年龄的实例进行实战演练。二 什么是回归?回归的目的是预测数值型的目标值。最直接的办法是依据输入写出一个目标值的计算公式。假如你想预测小姐姐男友汽车的功率,可能会这么计算:HorsePower = 0.0015 * annualS...转载 2020-03-01 20:18:02 · 3280 阅读 · 0 评论 -
机器学习实战(六)02-提升分类器性能利器-AdaBoost
一 前言前面的文章已经介绍了五种不同的分类器,它们各有优缺点。我们可以很自然地将不同的分类器组合起来,而这种组合结果则被成为集成方法(ensemble method)或者元算法(meta-algorithm)。使用集成方法时会有多种形式:可以是不同算法的集成,也可以是同一种算法在不同设置下的集成,还可以是数据集不同部分分配给不同分类器之后的集成。二 集成方法集成方法(ensembl...转载 2020-02-22 22:51:53 · 740 阅读 · 0 评论 -
Python 的numpy包使用总结
1、array和mat区别Python中的numpy包是一个科学计算包,在进行科学计算时多数情况下都会用到这个包,但是其中的array和mat这两个函数的区别还是要注意。数据的类型很有可能是程序出现bug的一个难以发现的原因(自身教训)if __name__ == '__main__': # 一维 two = [1, 3, 5, 2, 3, 2] two1 ...原创 2020-02-18 23:45:03 · 362 阅读 · 0 评论 -
机器学习实战(六)01-模型评价标准
前言本文内容大部分来自于如下两个博客:http://blog.csdn.net/dinosoft/article/details/43114935http://my.oschina.net/liangtee/blog/340317引子假设有下面两个分类器,哪个好?(样本中有A类样本90个,B 类样本10个。)、 A类样本 B类样本 分类精度 分类器C1 ...原创 2020-02-17 17:16:44 · 314 阅读 · 0 评论 -
机器学习实战(五)03-Spark-SVM
官方文档原创 2020-02-17 16:47:35 · 196 阅读 · 0 评论 -
机器学习实战(五)02-SVM实战篇(Peter Harrington著)
一 前言上篇文章讲解的是线性SVM的推导过程以及简化版SMO算法的代码实现。本篇文章将讲解SMO算法的优化方法以及非线性SVM。二 SMO算法优化在几百个点组成的小规模数据集上,简化版SMO算法的运行是没有什么问题的,但是在更大的数据集上的运行速度就会变慢。简化版SMO算法的第二个α的选择是随机的,针对这一问题,我们可以使用启发式选择第二个α值,来达到优化效果。1 启发选择方式...转载 2020-02-12 22:09:30 · 260 阅读 · 0 评论 -
机器学习实战(五)01-SVM基础篇(Peter Harrington著)
视频教程:1、http://open.163.com/newview/movie/free?pid=MCTMNN3UI&mid=MCTMP1NQ22、https://study.163.com/course/courseMain.htm?courseId=1004570029博客参考1、https://blog.csdn.net/c406495762/article/de...转载 2020-02-06 23:29:02 · 775 阅读 · 0 评论 -
机器学习实战(四)03-逻辑回归sparkMLlib
//spark 中的LogisticRegressionWithLBFGS lr = new LogisticRegressionWithLBFGS();lr.setIntercept(_parms._add_intercept);lr.optimizer().setNumIterations(_parms._max_iterations);//lr.optimizer().set...原创 2020-02-05 22:35:42 · 166 阅读 · 0 评论 -
机器学习实战(四)02-逻辑回归实战篇之预测病马死亡率 (Peter Harrington著)
一 前言本文对梯度上升算法和改进的随机梯度上升算法进行了对比,总结了各自的优缺点,并对sklearn.linear_model.LogisticRegression进行了详细介绍。二 改进的随机梯度上升算法梯度上升算法在每次更新回归系数(最优参数)时,都需要遍历整个数据集。可以看一下我们之前写的梯度上升算法:def gradAscent(dataMatIn, classLabel...转载 2020-02-01 19:06:17 · 1560 阅读 · 0 评论 -
机器学习实战(四)01-逻辑回归 (Peter Harrington著)
目录一 前言二 Logistic回归与梯度上升算法1 Logistic回归2 梯度上升算法三 Python3实战2 训练算法四 总结一 前言本文从Logistic回归的原理开始讲起,补充了书上省略的数学推导。本文可能会略显枯燥,理论居多,Sklearn实战内容会放在下一篇文章。自己慢慢推导完公式,还是蛮开心的一件事。二 Logistic回归与梯度上升算...转载 2020-01-26 10:00:49 · 391 阅读 · 0 评论 -
机器学习实战(三)朴素贝叶斯 (Peter Harrington著)
知识储备:一、概率论和数理统计第一章 概率论的基本概念1、必须要掌握的名词(1) 样本空间 一般可以认为是整个样本(2) 样本点 其中的一个样本,其中每个样本一般可以理解为特征向量(3) 放回抽样和不放回抽样 2、必须掌握的公式(1) 条件概率公式上式表示 A 事件已经发生后,B 事件发生的概率通俗理解:A 事件已经发生后...转载 2020-01-18 12:18:00 · 1221 阅读 · 0 评论 -
机器学习实战(二)决策树 (Peter Harrington著)
决策树基础概念一、前言本文出现的所有代码,均可在官网下载 下载地址:https://www.manning.com/books/machine-learning-in-action二、决策树 决策树是什么?决策树(decision tree)是一种基本的分类与回归方法。 举个通俗易懂的例子,如下图所示的流程图就是一个决策树,长方形代表判断模块(d...转载 2020-01-16 13:03:55 · 423 阅读 · 0 评论 -
机器学习实战(一)kNN算法(Peter Harrington著)
第二章 k-近邻算法(kNN)示例代码:kNN.py# -*- coding:utf-8 -*-from numpy import *import operatorfrom os import listdirimport matplotlibimport matplotlib.pyplot as pltdef createDataSet(): group ...原创 2020-01-10 15:56:11 · 203 阅读 · 0 评论 -
大数据挖掘与机器学习笔记
目录机器学习(周志华)第一章 绪论第二章 模型评估和选择机器学习(周志华)第一章 绪论1.1 什么是机器学习使用以往的数据(经验),去训练某种模型,然后利用此模型预测未来。Tom Mitchell 给出更形式化的定义:1998年Tom Mitchell对机器学习给出了一个更加正式的定义:A computer program is said to le...原创 2019-12-09 13:32:57 · 229 阅读 · 0 评论 -
大数据12_SparkMLlib监督学习和无监督学习区别
机器学习的常用方法,主要分为有监督学习(supervised learning)和无监督学习(unsupervised learning)。监督学习,就是人们常说的分类,通过已有的训练样本(即已知数据以及其对应的输出)去训练得到一个最优模型(这个模型属于某个函数的集合,最优则表示在某个评价准则下是最佳的),再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现分类的目的,也就具有转载 2018-04-30 17:02:13 · 779 阅读 · 0 评论 -
scala开发快速入门 | 第七篇 隐式转换
隐式转换它是scala的一种特殊的功能,它能将一种数据类型转换为另一种数据类型,然后这种数据类型将拥有另一种数据类型的所有方法。可以看成对类的增强。隐式转换分为两种:1)隐式转换函数2)隐式转换值隐式转换的关键字 implicit隐式转换命名方式 one2one /*特殊人群*/class SpecialPerson01(var name: String)/*老人*/class Old...原创 2018-07-08 13:28:00 · 272 阅读 · 0 评论 -
scala开发快速入门 | 第六篇 面向对象编程(下)
trait简介在scala中并没有提供java语言的interface关键字来定义接口,而是可以使用trait实现多重继承,继承的时候使用extends和with关键字。/*定义三个trait*/trait TraitDemo01 {// 抽象方法定义 def say(content:String):Unit}trait TraitDemo02{ //抽象方法定义 def ...原创 2018-07-08 09:43:48 · 289 阅读 · 0 评论 -
安装hue可视化以及与hdfs、hive、hbase和mysql的集成
1. Hue概述及版本下载1)概述 Hue是一个开源的Apache Hadoop UI系统,最早是由Cloudera Desktop演化而来,由Cloudera贡献给开源社区,它是基于Python Web框架Django实现的。通过使用Hue我们可以在浏览器端的Web控制台上与Hadoop集群进行交互来分析处理数据,例如操作HDFS上的数据,运行MapReduce Job等等。2)...原创 2018-11-13 20:59:29 · 954 阅读 · 0 评论 -
Hadoop集群的搭建
NameNode高可用方案要点这种情形:当一个NameNode当掉了,整个集群就无法运行了。Hadoop2.0后将NameNode进行了一个抽象,它把这个NameNode抽象为了一个NameService一个NameService下面有两个NameNode,这时候就得需要有个东西来协调,否则两个NameNode都是active的状态或者为standby状态(等待),这时候zo...原创 2017-06-20 21:43:39 · 465 阅读 · 0 评论 -
libsvm的数据格式及制作
1、libsvm数据格式libsvm使用的训练数据和检验数据文件格式如下: [label] [index1]:[value1] [index2]:[value2] … [label] [index1]:[value1] [index2]:[value2] …label 目标值,就是说class(属于哪一类),就是你要分类的种类,通常是一些整数。index 是有顺序的索引,通...转载 2019-02-21 15:24:04 · 6144 阅读 · 0 评论 -
Spark:朴素贝叶斯实现二分类
package com.netcloud.bigdata.mlimport org.apache.spark.ml.classification.NaiveBayesimport org.apache.spark.ml.evaluation.MulticlassClassificationEvaluatorimport org.apache.spark.sql.SparkSessi...原创 2019-02-21 15:36:44 · 1044 阅读 · 0 评论 -
朴素贝叶斯分类算法
贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。而朴素朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。这篇文章我尽可能用直白的话语总结一下我们学习会上讲到的朴素贝叶斯分类算法,希望有利于他人理解。1 分类问题综述 对于分类问题,其实谁都不会陌生,日常生活中我们每天都进行着分类过程。例如,当你看到一个人,你的脑子下意识判断他是学生还是社会上...转载 2019-02-21 17:57:54 · 217 阅读 · 0 评论 -
spark总结01
目录第一部分:SaprkCore部分Spark简介1、什么是RDD? RDD的5大特性。2、怎么理解partition,如何合理的设置partition的数量。3、RDD或者partition里面存储数据吗?怎么理解内存计算。4、Spark中的hello world (word count)5、Spark架构原理6、创建初始的RDD7、RDD算子操作8、RD...原创 2019-03-09 18:30:18 · 667 阅读 · 0 评论 -
spark二次排序示例代码
java的代码:自定义keypackage com.netcloud.spark.sparkcore.projectpractice;import scala.math.Ordered;import java.io.Serializable;import java.util.Objects;/** * 自定义的二次排序Key * 1)实现Ordered 、Seriali...原创 2019-03-14 23:00:58 · 190 阅读 · 0 评论 -
Spark分组取TopN
1、对文本文件中的数字,获取最大的前三个。代码实例:package com.netcloud.spark.sparkcore.projectpractice;import org.apache.spark.SparkConf;import org.apache.spark.api.java.JavaPairRDD;import org.apache.spark.api.java....原创 2019-03-16 13:47:35 · 458 阅读 · 0 评论 -
DAGScheduler 划分stage算法和提供task最佳位置算法剖析
1) sc.textFile分析/** * 1、首先hadoopFile()方法的调用会创建一个hadoopRDD,其中的元素其实是<k,value>pair * key是hdfs或者是文本文件的每一行的offset,value是文本行。然后对hadoopRDD调用map方法 * 会剔除key值,只保留value;然后会获得一个mapparti...原创 2019-03-18 23:05:10 · 390 阅读 · 0 评论 -
Shuffle源码分析 Shuffle Write 和 Shuffle Read
step1:HashShuffleWriter.scala /** * 将ShuffleMapTask partition中的数据 写入磁盘 * @param records */ override def write(records: Iterator[Product2[K, V]]): Unit = { // 判断是否在map端进行聚合 // ...原创 2019-03-24 17:19:22 · 741 阅读 · 0 评论 -
大数据12_Spark MLlib介绍
一、什么是机器学习?已有的数据(经验),训练某种模型,利用此模型预测未来。1998年Tom Mitchell对机器学习给出了一个更加正式的定义:A computer program is said to learn from experience E with respect to some task T and some performance measure P,if its performa...原创 2018-04-12 12:15:43 · 953 阅读 · 0 评论