Hadoop
文章平均质量分 63
hadoop
宝哥大数据
大数据、机器学习、深度学习
展开
-
docker 部署 hadoop
参考:原创 2023-05-18 13:52:52 · 166 阅读 · 0 评论 -
面试系列四 之 项目涉及技术Hadoop
1.1、Hadoop常用端口号 dfs.namenode.http-address:50070 dfs.datanode.http-address:50075 SecondaryNameNode辅助名称节点端口号:50090 dfs.datanode.address:50010 fs.defaultFS:8020 或者9000 yarn.resourcemanager.webapp.address:8088 历史服务器web访问端口:198881.2、Hadoop配置文件以及简原创 2021-06-17 09:09:11 · 170 阅读 · 0 评论 -
hadoop2.5.2学习14--MR之协同过滤天猫推荐算法实现02
2.3 第三个mapreduce, 计算物品的同现矩阵根据第二个mapreduce的输出:每个用户的购买情况u26 i276:1,i201:1,i348:1,i321:1,i136:1,分析i276:1,i201:1,i348:1,i321:1,i136:1, 获取同现矩阵 对每行数据, 及每个用户的数据, 遍历他的购物篮,得出同现矩阵 通过两层循环获取每个用户的两两商品的次数原创 2017-03-04 22:41:33 · 2297 阅读 · 1 评论 -
hadoop2.5.2学习14--MR之协同过滤天猫推荐算法实现01
一、代码步骤: 1、 去重 2、 获取所有用户的喜欢矩阵: 3、 获得所有物品之间的同现矩阵 4、 两个矩阵相乘得到三维矩阵 5、 三维矩阵的数据相加获得所有用户对所有物品的推荐值(二维矩阵) 6、 按照推荐值降序排序。 二、代码实现2.1、第一个mapreduce, 实现去重 由于原始数据可能有还坏数据,我们需要进行去重。 第一个mapreduce实现去重原创 2017-03-04 17:22:01 · 2811 阅读 · 0 评论 -
hadoop2.5.2学习14--MR之协同过滤天猫推荐
本文根据天猫推荐学习系统过滤算法 &emps; 电子商务网站是个性化推荐系统重要地应用的领域之一,亚马逊就是个性化推荐系统的积极应用者和推广者,亚马逊的推荐系统深入到网站的各类商品,为亚马逊带来了至少30%的销售额。 不光是电商类,推荐系统无处不在。QQ,人人网的好友推荐;新浪微博的你可能感觉兴趣的人;优酷,土豆的电影推荐;豆瓣的图书推荐;大从点评的餐饮推荐;世纪佳缘的相亲推荐;天际网的职业原创 2017-03-04 09:14:43 · 1114 阅读 · 1 评论 -
hadoop2.5.2学习13-MR之新浪微博-DF的实现
本文接上篇hadoop2.5.2学习13-MR之新浪微博TF-IDF算法简介 上篇微博实现了第一个mappreduce, 统计的词频TF和微博总数N 本文将统计DF,即每个词条在多少个文章中出现。我们只需要对一个mapreduce的输出结果的词频数进行统计,就可以得到DF主要是读取一个的mapreduce的四个文件, 从中区分TF数据的三个文件通过获取Filesplit碎片段, FileSpl原创 2017-03-04 07:39:24 · 2254 阅读 · 0 评论 -
hadoop2.5.2学习10--MR之统计每月最高三个温度02
hadoop2.5.2学习10--MR之统计每月最高三个温度02原创 2017-02-14 00:08:26 · 651 阅读 · 0 评论 -
hadoop2.5.2学习10--MR之统计每月最高三个温度01
1、hadoop 之InputFormat在上篇文章中有一个job.setInputFormatClass(KeyValueTextInputFormat.class);,用于设置输入的格式,这个类型中可以设置分隔符。2、splits and records数据传到hdfs上,以block形式存在,mapreduce中, 源数据被split 分成一个个分片, 每个分片有一个mapTask处理,每个分原创 2017-02-08 23:18:38 · 723 阅读 · 1 评论 -
hadoop2.5.2学习13-MR之新浪微博TF-IDF算法简介
完整代码下载一、TF_IDF算法简介TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。 TF-IDF是一种统计方法,用以评估一词条对于一个文件集或一个语料库中的其中一份文件的重要程度。词条的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。二、TF_IDF的原理 如果原创 2017-02-28 10:52:45 · 2205 阅读 · 5 评论 -
20170405的面试总结
问题一:mapreduce的wordcount的处理流程1. Map端的ShuffleMap函数开始产生输出时,并不是简单地把数据写到磁盘,因为频繁的磁盘操作会导致性能严重下降。它的处理过程更复杂,数据首先写到内存中的一个缓冲区,并做一些预排序,以提升效率; 每个MapTask都有一个用来写入输出数据的循环内存缓冲区(默认大小为100MB),当缓冲区中的数据量达到一个特定阈值时(默认是80%)系统原创 2017-04-05 22:09:22 · 724 阅读 · 2 评论 -
HDFS之FileStatus
HDFS之FileStatus 任何文件系统的一个重要特性都是提供其目录结构浏览和检索它所存文件和目录相关信息的功能。FileStatus对象封装了文件系统中文件和目录的元数据,包括文件的长度、块大小、备份数、修改时间、所有者以及权限等信息。 FileStatus对象由FileSystem的getFileStatus()方法获得,调用该方法的时候要把文件的Path传进去。例子:打印输出某个文件的原创 2017-04-16 07:47:54 · 945 阅读 · 0 评论 -
mapred-site.xml配置错误问题
备忘原创 2016-12-05 18:45:56 · 2921 阅读 · 2 评论 -
HBase应用程序开发01创建表
hbase-1.1.3 hadoop-2.5.2 zookeeper-3.4.6在HBase测试的时候出现HBaseConfiguration为null; ClassLoader cc = HBaseConfiguration.class.getClassLoader(); System.out.println(cc);显示cc为null;有网友说是...原创 2017-03-05 14:43:30 · 966 阅读 · 0 评论 -
hadoop目录导图
MapReduce原理 mapper, reducer,shuffle hadoop实现join方法原创 2018-06-24 23:10:25 · 433 阅读 · 1 评论 -
一个节点lost heatbeat
今天 Ambari的 上的集群一个结点 lost heatbeat解决过程:HDFS块丢失https://blog.csdn.net/mnasd/article/details/82143653https://www.aliyun.com/jiaocheng/804017.html跑一个MRjob 报如下错误:retry.RetryInvocationHandler: java.i...原创 2018-12-11 18:21:13 · 303 阅读 · 0 评论 -
hadoop2.5.2学习11-MR之好友推荐2
问题:eclipse运行hadoop程序报错:Connection refused: no further information 今天运行hadoop时,总是报Connection refused: no further information, 不明白为什么,昨天还是好好的,今天就连不上, 网上说是网络有问题, 到hadoop主机上看一下发现网络断了, 网络连上,问题解决。上文hadoo原创 2017-02-20 22:42:25 · 780 阅读 · 0 评论 -
hadoop2.5.2学习11-MR之好友推荐1
hadoop2.5.2学习11-MR之好友推荐1原创 2017-02-19 15:14:52 · 1511 阅读 · 7 评论 -
本地模式
Eclipse项目复制出现问题及设置hadoop配置问题原创 2017-02-05 23:00:34 · 583 阅读 · 1 评论 -
hadoop&hbase学习01--hadoop启动问题
hadoop&hbase学习01--hadoop启动问题原创 2017-01-14 23:19:59 · 598 阅读 · 0 评论 -
hadoop&hbase学习00--安装hadoop
hadoop&hbase学习00--安装hadoop原创 2017-01-14 18:04:04 · 458 阅读 · 0 评论 -
hadoop2.5.2学习07--MapReduce应用案例2
hadoop2.5.2学习07--MapReduce应用案例2原创 2017-02-04 18:08:00 · 527 阅读 · 1 评论 -
hadoop2.5.2学习06--MapReduce原理及操作
hadoop2.5.2学习06--MapReduce原理及操作原创 2017-02-04 18:03:23 · 607 阅读 · 0 评论 -
hadoop2.5.2学习06--MapReduce原理及操作2
hadoop2.5.2学习06--MapReduce原理及操作2原创 2017-02-04 23:27:17 · 782 阅读 · 0 评论 -
hadoop2.5.2学习09--MR之统计每月最高三个温度
hadoop2.5.2学习09--MR之统计每月最高三个温度原创 2017-02-07 22:02:23 · 2002 阅读 · 5 评论 -
Hadoop2.5.2学习04--HDFS原理及操作
Hadoop2.5.2学习04--HDFS原理及操作原创 2017-01-22 21:55:46 · 829 阅读 · 0 评论 -
服务器模式之在本地提交
Hadoop2.5.2学习03--设置本地服务器模式出现的问题原创 2017-01-21 23:15:10 · 996 阅读 · 0 评论 -
hadoop2.5.2学习13-MR之引入第三方Jar
在上文中使用了一个第三方jar,出现了类不存在:由于我的服务器上没有该jar所导致的。引入第三方jar的方法编写MapReduce程序时经常会用到第三方的jar包,主要有一下三种方式:1、将第三方jar包copy至$HADOOP_HOME/lib目录里;2、将第三方jar包和你的MapReduce程序打成一个jar包;3、使用 libjars 这个参数。第一种方法需要**重启**hadoop原创 2017-03-01 08:04:54 · 709 阅读 · 3 评论 -
hadoop2.5.2学习12-MR之PageRank02
Counter在上一篇文章中为了记录每个reduce中的每组PR差值,我们需要一个全局变量来记录这些差值。 hadoop为我们提供了Counter接口Counter是一个接口: org.apache.hadoop.mapreduce.Counter extends Writable Counter跟踪Map-Reduce的进程 Counters表示全局的counters, 可以被任何的Map原创 2017-02-28 21:36:53 · 561 阅读 · 0 评论 -
hadoop2.5.2学习12-MR之PageRank01
一、PageRank之Mapper的代码实现原始数据为: 因为PageRank为每个页面设置默认的PR值为1.0, 所以这个原始数据实际应如下, 中间以\t分割A 1.0 B DB 1.0 CC 1.0 A BD 1.0 B C由于设置Mapper的输出key-value为Text, Text。所以设置extends Mapper<Text, Text,原创 2017-02-28 16:14:01 · 766 阅读 · 0 评论 -
hadoop2.5.2学习12-MR之PageRank
一、PageRank是什么 PageRank的Page可是认为是网页,表示网页排名,也可以认为是Larry Page(google 产品经理),因为他是这个算法的发明者之一,还是google CEO(^_^)。PageRank算法计算每一个网页的PageRank值,然后根据这个值的大小对网页的重要性进行排序。它的思想是模拟一个悠闲的上网者,上网者首先随机选择一个网页打开,然后在这个网页上呆了几分钟原创 2017-02-27 20:52:35 · 669 阅读 · 0 评论 -
Hadoop2.5.2学习02--MR执行环境的类型
Hadoop2.5.2学习02--MR执行环境的类型原创 2017-01-18 00:45:09 · 465 阅读 · 0 评论 -
服务器模式之在服务器上提交
Hadoop2.5.2学习01--mapreduce统计单词数原创 2017-01-18 00:22:48 · 587 阅读 · 0 评论 -
hadoop之jobhistory
mapred-site.xml,jobhistory,hadoop原创 2016-11-20 11:48:51 · 2846 阅读 · 0 评论