2017年06月_元气满满的少女程序员

原创上传文件到HDFS：错误：could only be replicated to 0 nodes, instead of 1

上传文件到HDFS一直出现错误could only be replicated to 0 nodes, instead of 1，然后不能上传文件到HDFS。遇到这种问题可能原因有： 1.slave机器上的datanode没有开启。解决：重启集群重新格式化集群 2.namenode运行在safemode下。解决：退出安全模式 hadoop dfsadmin -safemo

2017-06-13 17:05:35 4675

原创《统计学习方法》笔记——回归

线性回归线性回归简洁的说就是将输入项分别乘以一些常量，再将结果加起来，得到输出。求解回归系数：选择使得平方误差最小的W(回归系数)。平方误差可以写作：∑i=1m(yi−xTiw)2\sum_{i=1}^{m}(y_{i}-x_{i}^{T}w)^{2} 用矩阵表示还可以写做(y−Xw)T(y−Xw)(y-Xw)^{T}(y-Xw)。如果对W求导，得到XT(Y−Xw)X^{T}(Y-Xw)

2017-06-12 11:46:10 568

原创《统计学习方法》笔记——AdaBoost

集成方法集成方法就是通过组合多个分类器的分类结果，获得比简单的分类器更好的分类结果。使用集成方法的多种形式： 1）可以是不同算法的集成 2）可以是同一算法在不同设置下的集成 3）数据集不同部分分配给不同分类器之后的集成厦门介绍同一种分类器多个不同实例的两种计算方法(基于数据随机重抽样的分类器构建方法)：bagging（自举汇聚法）Bagging是在原始数据集选择S次后得到S个数据集的技

2017-06-08 11:33:48 1296 1

支持向量机概述支持向量机是一种二分类模型，他的基本模型是定义在特征空间上的间隔最大的线性分类器，间隔最大使它有别于感知机（感知机利用误分类最小的策略，求得分离超平面，解有无穷多个；线性可分支持向量机利用间隔最大化求解最优分离超平面，解是唯一的。）；支持向量机还包括核技巧（将数据，有时是非线性数据，从一个低维空间映射到一个高维空间，可以将一个在低维空间中的非线性问题转换为高维空间下的线性问题来求解。）

2017-06-07 16:06:56 1480

原创《统计学习方法笔记》——Logistic回归

Logistic回归简介假设有一些数据点，我们利用一条直线对这些数据点进行拟合（该线称为最佳拟合直线），这个拟合过程就称为回归。利用Logistic进行回归的主要思想：根据现有数据对分类边界线建立回归公式，以此进行分类。算法流程1.优化目标函数需要的函数应该是可以接受所有的输入然后预测出类别。例如，在两类的情况下，上述函数输出0或1。海维塞德阶跃函数或者直接称为单位阶跃函数满足这一性质。然而，海

2017-06-06 15:18:33 690

原创《统计学习方法》笔记——朴素贝叶斯算法

朴素贝叶斯算法概述朴素贝叶斯（naive Bayes）法是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对于给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。算法流程1.朴素贝叶斯法是典型的生成学习方法，生成方法由训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y|X)。即，利用训练数据学习P

2017-06-05 17:23:06 1052

原创 Python学习笔记（一）——Anaconda安装与配置（windows）

Anaconda简介Python是一种提供了多种科学计算模块的强大编程语言，常见的科学计算模块包含numpy、scipy和matplotlib。 Anaconda是一个用于科学计算的Python发行版，支持 Linux, Mac, Windows系统，提供了包管理与环境管理的功能，可以很方便地解决多版本python并存、切换以及各种第三方包安装问题。Anaconda利用工具/命令conda来进行p

2017-06-05 11:58:38 1480

原创《统计学习方法》笔记——决策树之ID3算法

决策树之ID3算法概述：工作原理：得到原始数据集，然后基于最好的属性值划分数据集，由于特征值可能多于两个，因此可能存在大于两个分支的数据集划分。第一次划分之后，数据被向下传递到树分支的下一个节点，在这个节点上，我们可以再次划分数据，因此，我们可以采用递归的原则处理数据集。递归结束的条件是：程序遍历完所有划分数据集的属性。每个分支下的所有实例都具有相同的分类。算法流程：决策树学习算法包含特征选

2017-06-03 17:16:31 530

原创《统计学习方法》笔记——K近邻模型

K近邻方法概述工作原理：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的k个实例，这k个实例的多数属于某各类，就把该输入实力分为这个类。通常来说，k是不大于20的整数。算法流程K近邻模型由3个基本要素构成：距离度量、k值的选择、分类决策规则决定1.距离度量一般使用欧氏距离作为距离度量，但也可以是其他距离，如更一般的LpL_{p}距离或Minkowski距离。 LpL_{p}距

2017-06-02 10:46:10 519

原创《统计学习方法》笔记——算法性能度量

错误率与精度错误率是分类错误的样本数栈样本总数的比例。精度是分类正确的样本栈样本总数的比例。对样例集D，分类错误率定义为：精度定义为：常用的精度度量指标有MAE,RMSE：以协同过滤中该度量指标的应用为例进行描述如下： MAE: 其中Pa,d表示预测评分值，ra,d表示测试集中的实际评分值，L表示测试集的大小 RMSE:

2017-06-01 11:01:03 660

zhongxiayimeng的博客