hdfs
文章平均质量分 69
今天该取什么名字好
这个作者很懒,什么都没留下…
展开
-
map,shuffer,reduce阶段任务
1.inputsplit:这是map端口接受数据的来源每一个Split切片分配一个MapTask,默认情况下切片大小=blocksize(128M),每一个文件都是单独进行切片的通过RecordReader类,把每个InputSplit解析成一个个<k1,v1>。默认,框架对每个InputSplit中的每一行,解析成一个<k1,v1>。这里的k1是每一行开头数据的偏移量,value就是每一行的数据2.来到map阶段map阶段将Split的内容读取后输...原创 2021-11-22 22:19:08 · 328 阅读 · 0 评论 -
mapreduce的词频统计案例
1.定义:mapreduce是一个分布式运算的编程框架,基于hadoop 开发mapreduce将自己写的代码与默认组件合成一个完整的计算框架2.优点:易于编程,只需要实现框架的接口;良好的扩展性:可以动态增加服务器,解决计算资源的问题高容错性:一台机器挂了后可以将当前任务转移到其他的机器上适合海量计算:可以几千台服务器同时计算,可以达到(TB/PB)级别缺点:不擅长实时计算和流计算,DAG有向无环图计算3.mapreduce的阶段mapreduce运算一般分为两个阶原创 2021-11-21 22:24:40 · 1244 阅读 · 0 评论 -
hdfs客户端操作
hdfs客户端操作也就是在idea等环境也可以使用hdfs的一些命令,挑出一些常见的命令列出来:文件操作create 写文件open 读取文件delete 删除文件目录操作mkdirs 创建目录delete 删除文件或目录listStatus 列出目录的内容getFileStatus 显示文件系统的目录和文件的元数据信息getFileBlockLocations 显示文件存储位置需要导入的依赖如下:<dependency> <g..原创 2021-11-20 21:22:54 · 866 阅读 · 0 评论