![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Hadoop
文章平均质量分 59
罗伊女士
一个比较懒偶尔写个笔记的新晋程序媛
展开
-
Hadoop编程——第二章:(4) VMware克隆虚拟机
选择第一个创建链接克隆即可,所占内存较小。原创 2022-07-15 10:54:53 · 476 阅读 · 0 评论 -
Hadoop编程——第五章:(7) MapReduce自定义分区案例
1、将美国疫情数据不同州的输出到不同文件中,属于同一个州的各个县输出到同一个结果文件中。输出到不同文件中–>reducetask有多个(>2)–>默认只有1个,如何有多个?—>可以设置,job. setNumReduceTasks(N)—>当有多个reducetask意味着数据分区---->默认分区规则是什么? hashPartitioner–→>默认分区规则符合你的业务需求么?---->符合,直接使用—>不符合,自定义分区。HashPartitioner默认规则.........原创 2022-07-15 10:34:39 · 694 阅读 · 2 评论 -
Hadoop编程——第五章:(6)MapReduce自定义排序案例
将美国每个州state的确诊案例数进行倒序排序。如果你的需求中需要根据某个属性进行排序,不妨把这个属性作为key。因为MapReduce中key有默认排序行为的。可使用案例1的输出结果表作为本案例的输入表。1、如果你的需求是正序,并且数据类型是Hadoop封装好的类型。这种情况下不需要任何修改,直接使用lHadoop类型作为kcy即可。因为Hadoop封装好的类型已经实现了排序规则。2、如果你的需求是倒序,或者数据类型是自定义对象。需要重写排序规则。对象实现Comparable接口重写CompareTo方法原创 2022-07-14 15:21:34 · 819 阅读 · 2 评论 -
Hadoop编程——第五章:(5)MapReduce自定义对象序列化案例
有一份2020-12-01号美国各县county的新冠疫情统计数据,包括累计确诊病例、累计死亡病例。使用MapReduce对疫情数据进行各种分析统计。案例背后的核心是学会自定义MapReduce各个组件。包括自定义对象、序列化、排序、分区、分组。date (日期) , county(县) , state(州 ) , fips(县编码code ) , cases(累计确诊病例) , deaths(索计死亡病例)。MapReduce自定义对象序列化MapReduce自定义排序MapReduce自定义分区原创 2022-07-14 10:38:34 · 734 阅读 · 0 评论 -
Type mismatch in value from map: expected org.apache.hadoop.io.LongWritable, received
java.lang.Exception: java.io.IOException: Type mismatch in value from map: expected org.apache.hadoop.io.LongWritable, received原创 2022-07-14 10:13:04 · 514 阅读 · 1 评论 -
Hadoop编程——第五章:(4) MapReduce小结
MapReduce输入和输出MapReduce流程梳理MapReduce Partition分区MapReduce Combiner规约原创 2022-07-13 14:42:12 · 1215 阅读 · 0 评论 -
Hadoop编程——第五章:(1) MapReduce执行流程
虽然MapReduce从外表看起来就两个阶段Map和Reduce,但是内部却包含了很多默认组件和默认的行为。包括:组件:读取数据组件InputFormat、输出数据组件0utputFormat ;行为:排序( key的字典序排序)、分组( reduce阶段key相同的分为一组,一组调用一次reduce处理);**序列化(Serialization)**是将结构化对象转换成字节流以便于进行网络传输或写入持久储存的过程。**反序列化( Deserialization )**是将字节流转换为一系列结构化对原创 2022-07-13 10:14:50 · 362 阅读 · 0 评论 -
Hadoop编程——第五章:(2) MapReduce: WordCount案例详解
WordCountMapperWordCountReducerWordCountDriverWordCountDriver使用工具类ToolRunner提交MapReduce作业与上一个方法选一个即可,官方推荐用本方法二、MapReduce程序运行模式(一)YARN集群模式MapReduce程序提交给yarn集群,分发到多个节点上分布式并发执行。数据通常位于HDFS.需要配置参数︰mapreduce.framework. name=yarnyarn. resourcemanager.原创 2022-07-12 14:53:59 · 1369 阅读 · 3 评论 -
Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the corr
Exception in thread "main" java.io.IOException: Cannot initialize Cluster. Please check your configuration for mapreduce.framework.name and the correspond server addresses.报错信息解决方法在pom文件中添加以下依赖:原创 2022-07-12 14:47:59 · 2790 阅读 · 4 评论 -
Hadoop编程——第五章:(3) MapReduce集群与本地local运行模式
MapReduce经典入门案例:WordCountWordCount中文叫做单词统计、词频统计,指的是统计指定文件中,每个单词出现的总次数。这个是大数据计算领域经典的入门案例,相当于Hello World。虽然WordCount业务及其简单,但是希望能够通过案例感受背后MapReduce的执行流程和默认的行为机制,这才是关键。map阶段的核心∶把输入的数据经过切割,全部标记1。因此输出就是。shuffle阶段核心∶经过默认的排序分区分组,key相同的单词会作为一组数据构成新的kv对。re......原创 2022-07-05 09:28:07 · 698 阅读 · 0 评论 -
Hadoop编程——第三章:(3)Linux常用命令
命令属于死东西,属于多用多会,不用就忘的知识,孰能生巧;Tab键可以实现自动补全和提示,要合理使用;history命令可以显示历史执行记录,或者使用方向键来切换前后执行过的命令该命令的英文解释为print working directory(打印工作目录)。输入pwd命令,Linux会输出当前目录用于切换当前工作目录。切换的路径可为绝对路径或相对路径。若路径省略,则变换至使用者的home目录 。用于显示指定工作目录下之内容(列出目前工作目录所含之文件及子目录)。可以用来合并文件可以用来在屏幕上显示整个原创 2022-07-01 14:34:35 · 587 阅读 · 0 评论 -
Hadoop编程——第三章:(2)Linux文件系统基础知识
操作系统中负责管理和存储文件信息的软件机构称为文件管理系统,简称文件系统;文件系统的结构通常叫做目录树结构,从斜杠/根目录开始;Linux号称“万物皆文件”,意味着针对Linux的操作,大多数时间是在针对Linux文件系统操作。几乎主流的文件系统都是从/根目录开始的,Linux也不例外,而windows文件系统会以盘符来区分不同文件系统;目录树中节点分为两个种类:目录(directory)、文件(file);从根目录开始,路径具有唯一性;只有在目录下才可以继续创建下一级目录,换句话说目录树到文件终原创 2022-06-29 16:07:49 · 145 阅读 · 0 评论 -
Hadoop编程——第二章:(5)VMware虚拟机常规使用
在虚拟机关机状态下,可以根据需求调整每台机器的资源大小选中虚拟机,进行启动、停止、重启、挂起等操作VMware虚拟机软件提供了非常便捷的快照功能,用于记录某一时间点的状态,用于备份恢复;拍好快照之后,可以在任何时间恢复到指定的快照时间点;可以选择任意快照,跳转到指定快照的时间点。注意:如果需要快照跳转恢复,3台虚拟机必须都要同时进行恢复,避免彼此之间时间状态不同步。.........原创 2022-06-29 15:31:59 · 241 阅读 · 0 评论 -
Hadoop编程——第二章:(3)Centos操作系统创建虚拟机
阿里云官方镜像站:http://mirrors.aliyun.com一般下载 DVD 是标准安装盘CentOS-6.1-x86_64-bin-DVD1.iso打开虚拟机,选择文件-创建虚拟机原创 2022-06-29 14:36:13 · 231 阅读 · 0 评论 -
Hadoop编程——第二章:(2)Centos操作系统的虚拟机导入
编辑–>虚拟网络编辑器更改设置–>用管理员权限运行选中NAT模式–>修改网段为192.168.88.0选中NAT模式–>NAT设置–>修改网关为192.168.88.2windows系统全局搜索框输入:网络连接找到VMware Network Adapter VMnet8虚拟网卡修改VMware Network Adapter VMnet8虚拟网卡的IP右键——属性选中——双击修改VMware Network Adapter VMnet8虚拟网卡的IP最好解压至:没有中文、没有空格的目原创 2022-06-24 22:47:10 · 682 阅读 · 0 评论 -
Hadoop编程——第二章:(1)VMware Workstation虚拟机安装
在PC上安装VMware Workstation虚拟机软件First step: 运行“VMware_workstation_full_12.5.2.exe”(或者其他版本)Second step:引导页面,直接点击下一步Third step: 同意许可,然后继续点击下一步Forth step: 选择VMware安装位置,然后点击下一步Fifth step: 用户体验设置,建议全部取消勾选,然后点击下一步Sixth step: 根据个人喜好选择,然后点击下一步Seventh st原创 2022-06-24 21:21:17 · 331 阅读 · 0 评论 -
Hadoop编程——第一章:大数据概念
什么是大数据?Hadoop生态系统工具分布式与集群指“无法由现有软件工具提取,存储,搜索,共享,分析和处理的庞大而复杂的数据集”。行业通常使用五个V总结大数据的特征如下:Volume(数据体量大)Variety(种类、来源多样化)Value(低价值密度)Velocity(速度快)Veracity(数据的质量)Hadoop是由Apache Foundation开发的分布式系统基础结构。 Doug Cutting受到GoogleLab开发的Map/Reduce和Google File System(GF原创 2022-06-24 16:47:15 · 365 阅读 · 0 评论 -
Hadoop编程——第三章:(1)Linux操作系统基础
操作系统( operating system,简称OS)是管理计算机硬件与软件资源的程序,需要处理如︰管理与配置内存、决定系统资源供需的优先次序、控制输入设备与输出设备、操作网络与管理文件系统等基本事务;没有操作系统的机器称之为裸机,不管是开发还是使用都十分不便。操作系统也提供一个让用户与系统交互的操作界面。操作系统发展至今,种类繁多,可以根据应用的不同领域进行划分∶Unix系统是较早被广泛使用的计算机操作系统之一,由Ken Thompson在AT&T贝尔实验室实现,后续发展中,因开源、版权等问题陷入不断纠原创 2022-06-24 15:03:07 · 123 阅读 · 0 评论