hadoop
文章平均质量分 86
Pingszi
这个作者很懒,什么都没留下…
展开
-
1.hadoop安装-伪分布模式
1.创建linux账号作用:创建特定的linux系统账号区分hadoop进程;创建用户:useradd -N hdfs设置密码:passwd hdfs 密码:qazwsx创建用户组:groupadd hadoop添加到hadoop用户组:gpasswd -a hdfs hadoop2.配置ssh作用:hadoop控制脚本依赖ssh来执行针对整原创 2017-10-18 08:43:26 · 973 阅读 · 0 评论 -
1.K近邻分类算法(KNN)
1.KNN概述说明:K最近邻(k-Nearest Neighbor,KNN)分类算法,是一个比较成熟的方法,也是最简单的机器学习算法之一。思路:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类原创 2017-11-15 16:19:41 · 1950 阅读 · 0 评论 -
2.朴素贝叶斯分类算法(NBC)
1.基础概念1.1概率频率派事件的概率是当我们无限次重复试验时,事件发生次数的比值。掷骰子、投掷硬币、纸牌游戏等。概率视为一种主观置信度明天下雨的概率是50%1.2乘法法则A.公式P(A,B)=P(A)P(B|A)=P(B,A)=P(B)P(A|B)P(A,B):A、B出现的联合概率P(A):A出现的概率原创 2017-11-24 15:12:36 · 4048 阅读 · 0 评论 -
7.实例mapreduce:计算最高气温(hadoop-streaming python)
1.目标使用mapreduce计算hadoop权威指南第四版计算最高气温;使用hadoop-streaming api;使用python3.5.4编写代码;2.步骤2.1.下载数据地址:ftp://ftp.ncdc.noaa.gov/pub/data/gsod/压缩包下载到本地def get_data(remote="ftp://ftp.ncdc.noaa.gov/pub/...原创 2018-10-20 16:53:40 · 2101 阅读 · 0 评论