元气满满的少女程序员-CSDN博客

原创 MapReduce编程基础（二）——数值概要（计算中位数、标准差）[内存优化]

1.中位数与标准差计算示例【内存优化】在前一篇博客中，我介绍了一种计算中位数和标准差的方法，但是该方法需要将所有的数据读入内存再进行遍历，不够优化。所以在这里，我们将前一种方法进行优化，将所有的数值都插入列表会产生大量的重复的元素。一个规避重复元素的方法就是保存元素的计数。例如：要保存<1,1,1,1,2,2,3,4,5,5,5>可以使用排序好的值到计数的映射来代替：（1->4,2->2,3

2017-07-23 20:16:03 1216

原创 MapReduce编程基础（二）——数值概要（计算中位数、标准差）

1.中位数与标准差计算示例中位数与标准差的计算相对于平均值、最大值、最小值的计算要相对更加复杂一些。因为这两个计算不满足交换律和结合律，所以不能向之前那样轻松的使用combiner。1.中位数与标准差中位数是将数据集从高到低进行排序，取中间的那个值。这要求数据集是完整的，并且是混排过的。标准差显示了数据相对于平均值的变化情况，因此需要在简化之前计算出数据的平均值。2.数据集本示例使用Moviel

2017-07-23 19:43:15 3105

原创 MapReduce编程基础（二）——数值概要（计算最大值、最小值、平均值）

数值概要数值概要模式是计算数据集聚合统计的一般性模式适用场景：要处理的数据数值或者计数数据可以按某些特定的字段分组数值概要的应用：单词计数记录计数最大/最小值计数平均值/中位数/标准差话不多说，现在直接开始我们的第一个示例，最大值、最小值计数示例最大值、最小值计数示例1.数据集：本示例使用Movielens数据集中的u1.base文

2017-07-22 21:42:07 3924

原创 MapReduce编程基础（一）——基础知识

MapReduce编程基础MapReduce任务可以被分为map和reduce两部分。Map任务map任务可以细分为4个阶段：record reader、mapper、combiner、partitioner map任务的输出被称为中间键，会被发送到reducer做后续处理。1.record readerrecord reader 将输入split解析成记录。record reader 的目的是将

2017-07-22 20:47:36 1676

原创上传文件到HDFS：错误：could only be replicated to 0 nodes, instead of 1

上传文件到HDFS一直出现错误could only be replicated to 0 nodes, instead of 1，然后不能上传文件到HDFS。遇到这种问题可能原因有： 1.slave机器上的datanode没有开启。解决：重启集群重新格式化集群 2.namenode运行在safemode下。解决：退出安全模式 hadoop dfsadmin -safemo

2017-06-13 17:05:35 4666

原创《统计学习方法》笔记——回归

线性回归线性回归简洁的说就是将输入项分别乘以一些常量，再将结果加起来，得到输出。求解回归系数：选择使得平方误差最小的W(回归系数)。平方误差可以写作：∑i=1m(yi−xTiw)2\sum_{i=1}^{m}(y_{i}-x_{i}^{T}w)^{2} 用矩阵表示还可以写做(y−Xw)T(y−Xw)(y-Xw)^{T}(y-Xw)。如果对W求导，得到XT(Y−Xw)X^{T}(Y-Xw)

2017-06-12 11:46:10 561

原创《统计学习方法》笔记——AdaBoost

集成方法集成方法就是通过组合多个分类器的分类结果，获得比简单的分类器更好的分类结果。使用集成方法的多种形式： 1）可以是不同算法的集成 2）可以是同一算法在不同设置下的集成 3）数据集不同部分分配给不同分类器之后的集成厦门介绍同一种分类器多个不同实例的两种计算方法(基于数据随机重抽样的分类器构建方法)：bagging（自举汇聚法）Bagging是在原始数据集选择S次后得到S个数据集的技

2017-06-08 11:33:48 1288 1

原创《统计学习方法》笔记——支持向量机（SVM）

支持向量机概述支持向量机是一种二分类模型，他的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机（感知机利用误分类最小的策略，求得分离超平面，解有无穷多个；线性可分支持向量机利用间隔最大化求解最优分离超平面，解是唯一的。）；支持向量机还包括核技巧（将数据，有时是非线性数据，从一个低维空间映射到一个高维空间，可以将一个在低维空间中的非线性问题转换为高维空间下的线性问题来求解。）

2017-06-07 16:06:56 1479

原创《统计学习方法笔记》——Logistic回归

Logistic回归简介假设有一些数据点，我们利用一条直线对这些数据点进行拟合（该线称为最佳拟合直线），这个拟合过程就称为回归。利用Logistic进行回归的主要思想：根据现有数据对分类边界线建立回归公式，以此进行分类。算法流程1.优化目标函数需要的函数应该是可以接受所有的输入然后预测出类别。例如，在两类的情况下，上述函数输出0或1。海维塞德阶跃函数或者直接称为单位阶跃函数满足这一性质。然而，海

2017-06-06 15:18:33 681

原创《统计学习方法》笔记——朴素贝叶斯算法

朴素贝叶斯算法概述朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对于给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。算法流程1.朴素贝叶斯法是典型的生成学习方法，生成方法由训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y|X)。即，利用训练数据学习P

2017-06-05 17:23:06 1042

原创 Python学习笔记（一）——Anaconda安装与配置（windows）

Anaconda简介Python是一种提供了多种科学计算模块的强大编程语言，常见的科学计算模块包含numpy、scipy和matplotlib。 Anaconda是一个用于科学计算的Python发行版，支持 Linux, Mac, Windows系统，提供了包管理与环境管理的功能，可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行p

2017-06-05 11:58:38 1464

原创《统计学习方法》笔记——决策树之ID3算法

决策树之ID3算法概述：工作原理：得到原始数据集，然后基于最好的属性值划分数据集，由于特征值可能多于两个，因此可能存在大于两个分支的数据集划分。第一次划分之后，数据被向下传递到树分支的下一个节点，在这个节点上，我们可以再次划分数据，因此，我们可以采用递归的原则处理数据集。递归结束的条件是：程序遍历完所有划分数据集的属性。每个分支下的所有实例都具有相同的分类。算法流程：决策树学习算法包含特征选

2017-06-03 17:16:31 525

原创《统计学习方法》笔记——K近邻模型

K近邻方法概述工作原理：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某各类，就把该输入实力分为这个类。通常来说，k是不大于20的整数。算法流程K近邻模型由3个基本要素构成：距离度量、k值的选择、分类决策规则决定1.距离度量一般使用欧氏距离作为距离度量，但也可以是其他距离，如更一般的LpL_{p}距离或Minkowski距离。 LpL_{p}距

2017-06-02 10:46:10 512

原创《统计学习方法》笔记——算法性能度量

错误率与精度错误率是分类错误的样本数栈样本总数的比例。精度是分类正确的样本栈样本总数的比例。对样例集D，分类错误率定义为：精度定义为：常用的精度度量指标有MAE,RMSE：以协同过滤中该度量指标的应用为例进行描述如下： MAE: 其中Pa,d表示预测评分值，ra,d表示测试集中的实际评分值，L表示测试集的大小 RMSE:

2017-06-01 11:01:03 645

原创区分【生成方法】与【判别方法】

生成方法由数据学习联合概率分布P（X,Y）,然后求出条件概率分布P（Y|X）作为预测的模型，生产模型：P(Y|X)=P(X,Y)/P(X) 模型表示了给定输入X产生输出Y的生成关系。代表方法：隐马尔可夫模型，朴素贝叶斯模型优点：收敛快，允许存在隐变量判别方法由数据直接虚席决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型，即判别模型。关心的是对给定的输入X

2017-05-31 18:41:51 745

原创虚拟机CentOS 7 网络连接显示"线缆被拔出"

虚拟机centOS 7显示“线缆被拔出”的原因是两个服务被禁用了。解决方法：1.首先查看网络连接方式选择菜单中的“虚拟机”，再选择“设置”，选择“网络适配器”，查看网络连接方式设置。这里我选择的是“NAT模式”。 2. 开启相关服务在桌面选中“计算机”，左键“管理”，打开计算机管理窗口。点击“服务和应用”，选择“服务”，找到VMware DHCP Service”和”VMware NAT S

2017-05-25 20:20:36 14289 13

原创 Spark学习笔记（一）——spark简介

Spark是什么spark是基于内存计算的大数据并行计算框架。09年诞生于加州大学伯克利分校AMPLab.Spark相较于Hadoop的优点Spark是MapReduce的替代方案，兼容HDFS、Hive等分布式存储层，可融入Hadoop的生态系统，以弥补MapReduce的不足。其主要优势如下：中间结果输出可以将多stage的任务串联或者并行执行，而无需将Stage中间结果输出到HDFS

2017-05-25 19:58:07 367

原创 HDFS无法删除或创建文件

在重启集群之后，特别是增加或者删除节点之后重启集群，有时候会出现无法在HDFS上创建或者删除文件的情况，这种情况一般是由于HDFS处于安全模式，退出安全模式即可解决问题。退出安全模式命令： hadoop dfsadmin -safemode leave

2017-04-28 16:56:25 2106

转载 Mahout之基于hadoop平台的分布式推荐算法

基于矩阵分解的mahout协同过滤推荐： http://blog.csdn.net/yxb3158/article/details/45697881基于用户（项目）的mahout协同过滤推荐： http://blog.csdn.net/sinat_29508201/article/details/47701743 http://www.aboutyun.com/thread-9777-1-1.

2017-04-13 19:13:22 1712

原创 hadoop集群启动后datanode和namenodemanager关闭问题解决

成功启动hadoop集群后，在matser机器上执行jps命令，可以看到： Jps ResourceManager NameNode SecondaryNameNode在slave节点上可以看到： DataNode Jps NodeManager但是有时候，在集群启动一段时间后，slave上的datanode和弄得manager会消失。解决办法如下：1.首先检车自己的配置文件是不是正确，我

2017-04-11 20:46:35 5348 2

原创用Maven创建Mahout环境详细过程

用Maven创建Mahout环境详细过程Maven下载Maven可以去http://maven.apache.org/download.cgi下载Maven安装解压下载的包文件apache-maven-3.3.9-bin.tar.gz到/usr目录下配置环境变量：编辑/etc/profile文件，添加如下代码： #set maven enviroemnt export MAVEN_HOM

2017-04-06 16:05:43 584

zhongxiayimeng的博客