自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 收藏
  • 关注

原创 org.apache.hadoop.hive.metastore.HiveMetaException: Failed to get schema version.

mysql-connecter-java-5.0.37.jar jar包有问题,去网上搜一下对应jar包。

2024-03-11 17:06:22 461 1

原创 P(python&notebook).Python入门知识总结

1)# 单行注释;2)""" 多行注释 """;

2022-12-13 00:06:53 169 1

原创 G(notebook).Git介绍及其使用

Git的三个概念:提交commot、仓库repository、分支branch;10.拉取远程分支最新的提交到本地。9.推送当前分支最新的提交到远程。

2022-10-29 22:05:27 164

原创 J(notebook).JAVA初级知识总结

饿汉式:对象加载时间过长、线程安全。懒汉式:延迟创建对象、线程不安全。

2022-09-02 15:46:22 268

原创 J(notebook).JAVA入门知识总结

抽象的,可以用来修饰的结构:类、方法。(1)抽象类①此类不能实例,抽象类中一定有构造器,便于子类实例化时调用。②开发中都会提供抽象类的子类,让子类对象实例化。(2)抽象方法①抽象方法只有方法的声明,没有方法体。②包含抽象方法的类,一定是一个抽象类。反之,抽象类中可以没有抽象方法。

2022-08-16 17:58:10 384

原创 H(notebook).Hadoop参数调优笔记

b.默认值fs.trash.checkpoint.interval = 0,检查回收站的间隔时间。如果该值为0,则该值设置和fs.trash.interval的参数值相等。随着公司业务的增长,数据量越来越大,原有的数据节点的容量已经不能满足存储数据的需求,需要在原有集群基础上动态添加新的数据节点。c.要求fs.trash.checkpoint.interval ............

2022-08-13 23:33:31 868

原创 H(notebook&hadoop).yarn总结

1)向ResourceManager申请一个Application。(2)ResourceManager回应请求并返回Application资源提交路径以及application_id。(3)提交job运行所需资源,包括Job.xml(配置信息)、Job.split(控制开启多少个Map Task)、wc.jar(程序源码)。(4)资源提交完毕,申请运行mrAppMaster。(5)ResourceManager将用户的请求初始化成一个Task。............

2022-08-07 20:39:02 489

原创 H(notebook&hadoop&code).数据压缩

表-3优缺点压缩算法优点缺点gzip压缩率比较高不支持Split;压缩/解压速度一般bzip2压缩率高;支持Split压缩/解压速度慢LZO压缩/解压速度比较快;支持Split压缩率一般;想支持切片,需要额外创建索引Snappy压缩和解压缩速度快不支持Split;压缩率一般。.........

2022-08-07 18:10:16 402

原创 H(notebook&hadoop).Hadoop_MapReduce总结

1)当我们用自定义的对象作为key来输出时,就必须要实现WritableComparable接口,重写其中的compareTo()方法。(2)TextInputFormat的功能逻辑是:一次读一行文本,然后将该行的起始偏移量作为key,行内容作为value返回。(1)默认实现类是TextOutputFormat,功能逻辑是:将每一个KV对,向目标文本文件输出一行。用户根据业务需求实现其中三个方法:map()、setup() 、cleanup ();(2)部分排序:对最终输出的每一个文件进行内部排序。....

2022-08-06 23:55:11 77

原创 H(hadoop&code).Hadoop_MapReduce MapJoin并考虑数据倾斜问题

采用MapReduce方式实现,其中将表的合并阶段放到Map阶段,减少Reduce端的压力。将Reduce任务数量设置为0,将图二存储到磁盘;将图一 中数量(1、2、6等)取出,将图二编号和名称(如:小米、华为等)取出。融合成为图三格式:序号+名称+数量格式。其余操作与正常driver程序一样,多出如下代码。........................

2022-08-06 22:52:15 223

原创 H(hadoop&code).Hadoop_MapReduce wordCount_outputformat

Hadoop_MapReduce format格式化输出

2022-08-04 00:26:50 120

原创 H(hadoop&sourceCode).FileInputFormat源码解析

d.开始切,形成第1个切片ss.txt-0128M第2个切片ss.txt-128256M第3个切片ss.txt—256M300M(每次切片时,都要判断切完剩下的部分是否大于块的1.1倍,不大于1.1倍就划分一块切片)。(4)提交切片规划文件到YARN上,YARN上的MrAppMaster就可以根据切片规划文件计算共启MapTask个数。a.获取文件大小fs.sizeOf(word.txt)。e.将切片信息写到一个切片规划文件中。(2)开始遍历处理(规划切片)目录下的每一个文件。............

2022-08-01 21:57:57 134

原创 H(hadoop&code).Hadoop_MapReduce wordCount_FlowBean(partition和comparable)程序编写

a.如果ReduceTask的数量>getPartition的结果数,则会多产生几个空的输出文件part-1-000xx;b.如果1

2022-07-31 23:37:05 287

原创 H(hadoop&code).Hadoop_MapReduce WordCount(Combiner)程序编写

Reducer中run方法setup(context);和cleanup(context);mapper中run方法setup(context);和cleanup(context);hadoopjarjar包driver的copy_Reference输入路径输出路径。1.map方法Stringline=value.toString();2.reduce方法intsum=0;

2022-07-25 23:00:21 585

原创 L(notebook).Linux 常用命令介绍

w]代表可写(write)可以修改,但是不代表可以删除该文件,删除一个文件的前提条件是对该文件所在的目录有写权限,才能删除该文件.比如“08,12,16***命令”,就代表在每天的8点0分,12点0分,16点0分都执行一次命令。tar+参数+XXX.tar.gz+将要打包进去的内容(功能描述打包目录,压缩后的文件格式.tar.gz)比如“05**1-6命令”,代表在周一到周六的凌晨5点0分执行命令。默认是3秒在top命令的交互模式当中可以执行的命令。............

2022-07-24 21:01:53 799

原创 H(notebook&hadoop).Hadoop-hdfs常用命令

hadoopfs-put文件名/user/root将本地文件上传到指定目录下。hadoopfs-get文件名/user/root/文件名从HDFS获取文件。hadoopfs-put文件名.将本地文件上传到HDFS(默认工作目录下)hadoopfs-cat文件名/head只查看文件的前1000个字节。hadoopfs-rm文件名删除从本地文件上传到HDFS的文件名。hadoopfs-cat文件名检索文件即查阅HDFS中的文件内容。..................

2022-07-24 20:59:48 445

原创 W(hadoop).Permission denied: user=dr.who, access=WRITE, inode=“/output“:root:supergroup:drwxr-xr-x

在查看hadoop中hdfs前端页面时,对文件夹或者文档进行删除操作时报错误,Permissiondenieduser=dr.who,access=WRITE,inode="/output"rootsupergroupdrwxr-xr-x.保存后退出,重新启动集群,即可在前端页面中进行删除操作。是因为当前用户缺少相关权限。......

2022-07-19 23:44:25 2982 4

原创 W(hadoop).第一次启动常见问题 ERROR: Attempting to operate on hdfs datanode as rootERROR

1.在第一次启动时容易出现以下错误: 2.原因: Hadoop为不同的用户安装,为不同的用户启动yarn服务。或在hadoop config的hadoop-env.sh中指定的HDFS_NAMENODE_USERHDFS_DATANODE_USER用户是其他用户。

2022-06-28 21:40:24 744 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除