- 博客(18)
- 收藏
- 关注
原创 org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version.
mysql-connecter-java-5.0.37.jar jar包有问题,去网上搜一下对应jar包。
2024-03-11 17:06:22 461 1
原创 G(notebook).Git介绍及其使用
Git的三个概念:提交commot、仓库repository、分支branch;10.拉取远程分支最新的提交到本地。9.推送当前分支最新的提交到远程。
2022-10-29 22:05:27 164
原创 J(notebook).JAVA入门知识总结
抽象的,可以用来修饰的结构:类、方法。(1)抽象类①此类不能实例,抽象类中一定有构造器,便于子类实例化时调用。②开发中都会提供抽象类的子类,让子类对象实例化。(2)抽象方法①抽象方法只有方法的声明,没有方法体。②包含抽象方法的类,一定是一个抽象类。反之,抽象类中可以没有抽象方法。
2022-08-16 17:58:10 384
原创 H(notebook).Hadoop参数调优笔记
b.默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。c.要求fs.trash.checkpoint.interval ............
2022-08-13 23:33:31 868
原创 H(notebook&hadoop).yarn总结
1)向ResourceManager申请一个Application。(2)ResourceManager回应请求并返回Application资源提交路径以及application_id。(3)提交job运行所需资源,包括Job.xml(配置信息)、Job.split(控制开启多少个Map Task)、wc.jar(程序源码)。(4)资源提交完毕,申请运行mrAppMaster。(5)ResourceManager将用户的请求初始化成一个Task。............
2022-08-07 20:39:02 489
原创 H(notebook&hadoop&code).数据压缩
表-3优缺点压缩算法优点缺点gzip压缩率比较高不支持Split;压缩/解压速度一般bzip2压缩率高;支持Split压缩/解压速度慢LZO压缩/解压速度比较快;支持Split压缩率一般;想支持切片,需要额外创建索引Snappy压缩和解压缩速度快不支持Split;压缩率一般。.........
2022-08-07 18:10:16 402
原创 H(notebook&hadoop).Hadoop_MapReduce总结
1)当我们用自定义的对象作为key来输出时,就必须要实现WritableComparable接口,重写其中的compareTo()方法。(2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。(1)默认实现类是TextOutputFormat,功能逻辑是:将每一个KV对,向目标文本文件输出一行。用户根据业务需求实现其中三个方法:map()、setup() 、cleanup ();(2)部分排序:对最终输出的每一个文件进行内部排序。....
2022-08-06 23:55:11 77
原创 H(hadoop&code).Hadoop_MapReduce MapJoin并考虑数据倾斜问题
采用MapReduce方式实现,其中将表的合并阶段放到Map阶段,减少Reduce端的压力。将Reduce任务数量设置为0,将图二存储到磁盘;将图一 中数量(1、2、6等)取出,将图二编号和名称(如:小米、华为等)取出。融合成为图三格式:序号+名称+数量格式。其余操作与正常driver程序一样,多出如下代码。........................
2022-08-06 22:52:15 223
原创 H(hadoop&code).Hadoop_MapReduce wordCount_outputformat
Hadoop_MapReduce format格式化输出
2022-08-04 00:26:50 120
原创 H(hadoop&sourceCode).FileInputFormat源码解析
d.开始切,形成第1个切片ss.txt-0128M第2个切片ss.txt-128256M第3个切片ss.txt—256M300M(每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片)。(4)提交切片规划文件到YARN上,YARN上的MrAppMaster就可以根据切片规划文件计算共启MapTask个数。a.获取文件大小fs.sizeOf(word.txt)。e.将切片信息写到一个切片规划文件中。(2)开始遍历处理(规划切片)目录下的每一个文件。............
2022-08-01 21:57:57 134
原创 H(hadoop&code).Hadoop_MapReduce wordCount_FlowBean(partition和comparable)程序编写
a.如果ReduceTask的数量>getPartition的结果数,则会多产生几个空的输出文件part-1-000xx;b.如果1
2022-07-31 23:37:05 287
原创 H(hadoop&code).Hadoop_MapReduce WordCount(Combiner)程序编写
Reducer中run方法setup(context);和cleanup(context);mapper中run方法setup(context);和cleanup(context);hadoopjarjar包driver的copy_Reference输入路径输出路径。1.map方法Stringline=value.toString();2.reduce方法intsum=0;
2022-07-25 23:00:21 585
原创 L(notebook).Linux 常用命令介绍
w]代表可写(write)可以修改,但是不代表可以删除该文件,删除一个文件的前提条件是对该文件所在的目录有写权限,才能删除该文件.比如“08,12,16***命令”,就代表在每天的8点0分,12点0分,16点0分都执行一次命令。tar+参数+XXX.tar.gz+将要打包进去的内容(功能描述打包目录,压缩后的文件格式.tar.gz)比如“05**1-6命令”,代表在周一到周六的凌晨5点0分执行命令。默认是3秒在top命令的交互模式当中可以执行的命令。............
2022-07-24 21:01:53 799
原创 H(notebook&hadoop).Hadoop-hdfs常用命令
hadoopfs-put文件名/user/root将本地文件上传到指定目录下。hadoopfs-get文件名/user/root/文件名从HDFS获取文件。hadoopfs-put文件名.将本地文件上传到HDFS(默认工作目录下)hadoopfs-cat文件名/head只查看文件的前1000个字节。hadoopfs-rm文件名删除从本地文件上传到HDFS的文件名。hadoopfs-cat文件名检索文件即查阅HDFS中的文件内容。..................
2022-07-24 20:59:48 445
原创 W(hadoop).Permission denied: user=dr.who, access=WRITE, inode=“/output“:root:supergroup:drwxr-xr-x
在查看hadoop中hdfs前端页面时,对文件夹或者文档进行删除操作时报错误,Permissiondenieduser=dr.who,access=WRITE,inode="/output"rootsupergroupdrwxr-xr-x.保存后退出,重新启动集群,即可在前端页面中进行删除操作。是因为当前用户缺少相关权限。......
2022-07-19 23:44:25 2982 4
原创 W(hadoop).第一次启动常见问题 ERROR: Attempting to operate on hdfs datanode as rootERROR
1.在第一次启动时容易出现以下错误: 2.原因: Hadoop为不同的用户安装,为不同的用户启动yarn服务。或在hadoop config的hadoop-env.sh中指定的HDFS_NAMENODE_USERHDFS_DATANODE_USER用户是其他用户。
2022-06-28 21:40:24 744 2
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人