hadoop
wlk_328909605
抱你于怀,寄你于心。跃然屏上,付我青春韶华,换你真情相待。
展开
-
hadoop集群的搭建,详细过程
概念HDFS分布式文件系统会将用户提交的文件存储在一个服务器集群中 HDFS中有两种重要的服务器软件角色:datanode --》负责存储用户文件的块 namenode--》负责记录用户存储的文件的虚拟路径,及文件每一个块的具体位置(哪一块在哪一台datanode服务器上) 安装一个HDFS集群 准备工作:规划:要有一台机器安装namenode ...原创 2018-08-10 21:27:25 · 3823 阅读 · 0 评论 -
MapReduce实现电影评分TopN
要求是: 根据movieid分组,求同一个电影的前二十的评分记录数据如下:{"movie":"1193","rate":"5","timeStamp":"978300760",&am原创 2018-08-24 19:46:48 · 3081 阅读 · 0 评论 -
日志文件上传到hdfs集群中
日志收集步骤: 1:从日志目录里面查看哪需要上传的(.1 .2 …..) 2:把需要上传的文件移动到待上传目录 3:上传到hdfs上(/log/2018-8-20/xxx.log) 4:移动到备份目录第一步,模拟系统产生日志文件,在这里用一个永真的循环打印。public static void main(String[] args) throws Exception { ...转载 2018-08-20 21:29:52 · 1154 阅读 · 0 评论 -
Hadoop配置文件的作用 core-site.xml hadoop-env.sh hdfs-site.xml yarn-site.xml mapred-site.xml
1.hadoop-env.sh 由于Hadoop是java进程,所以需要添加jdk# The java implementation to use.export JAVA_HOME=/usr/local/jdk1.8.0_171//加入JAVA_HOME2.core-site.xml 2.1指定namenode的位置 2.2hadoop.tmp.dir 是hado...原创 2018-08-20 10:04:14 · 8205 阅读 · 0 评论 -
MapReduce函数实现WordCount
简单介绍下词频分析,就是统计一个文件中的字段名的出现的次数。 实现过程: 1.创建maven工程 在pom.xml中加入配置信息 以下内容可以在maven 中心仓库中找到<!-- https://mvnrepository.com/artifact/org.apache.hadoop/hadoop-client --> <dependency&gt...原创 2018-08-22 18:43:48 · 539 阅读 · 0 评论 -
Secondary NameNode和NameNode的关系
引入https://blog.csdn.net/u010846741/article/details/52369527https://blog.csdn.net/yangjjuan/article/details/71107012在搭建hadoop集群的时候,都要配置Secondary NameNode的位置,大多数人可能就根据名字,认为Secondary NameNode就是第二名称节...原创 2018-08-22 17:37:24 · 820 阅读 · 0 评论 -
Java API操作HDFS
hdfs在生产应用中主要是客户端的开发,其核心步骤是从hdfs提供的api中构造一个HDFS的访问客户端对象,然后通过该客户端对象操作(增删改查)HDFS上的文件 1.1 搭建开发环境 1、引入依赖 org.apache.hadoop hadoop-client 2.8.3 注:如需手动引入jar包,hdfs的jar包—-hadoop的安装目录的shar...原创 2018-08-19 10:51:20 · 334 阅读 · 1 评论