万般皆苦；-CSDN博客

原创 Hive

1.为什么有了hive还要用sparkSQL Hive sql不支持对某个具体行的操作，hive对数据的操作只支持覆盖元数据和追加数据。Hive也不支持事务和索引。更新、事务和索引都市关系数据库的特征，这些hive都不支持，也不打算支持，原因是hive的设计的是海量数据进行处理，针对谋新jute数据星型操作的效率是很差的，对于更新操作hive是通过查询将原表的数据进行转化最后存储在新表里...

2019-09-18 19:58:49 369

原创 Shell

描述Linux shell中单引号,双引号,及不加引号的简单区别单引号:所见即所得,即将单引号内的内容原样输出,或者描述为单引号里面看到的是什么就输出什么双引号:把双引号里面的内容给输出出来,如果内容中有命令,变量等,会先把变来那个命令解析出结果,然后再输出最终内容无引号:把内容输出出来,可能不会键含有空格的字符串写一个脚本将某目录下大于100k的文件移动至/tmp下fo...

2019-09-17 10:33:49 75

原创 msbd

分区partitioner主要作用 1. 根据业务需要产生多个输出文件 2. 多个reduce任务并发运行,提交整体job的运行效率combinerconmbiner的作用就是对mao端的输出先做一次合并,以减少在map和reduce节点之间的数据传输量,以提高网络IO性能,是MapReduce的一种优化手段之一,conmbiner是MR程序中Mapper和Reduce之外的一种组件...

2019-09-11 20:49:50 457

原创 Hadoop

1.如何实现小文件的合并?(1)首先将所有小文件保存到本地的同一路径同一文件夹中,通过shell脚本,设置新文件达到具体大小时进行上传,一般设置文128M,上传到HDFS(2)如果当天日志和数据都存到HDFS上,若没有达到上传大小,可以设置每天凌晨固定时间对前一天的文件路径进行扫描,只要发现文件,不管多大,都上传到前一天的HDFS文件目录下.2.MapReduce怎么支持多文件输入?(1...

2019-09-09 21:23:02 223

原创 ※※※※※※

1.从innodb的所用结构分析,为什么所以的key程度不能太长?key太长会导致一个页当中能够存放的key的数目变小,间接导致索引树的页数目变多,索引层次增加,从而影响整体查询变更的效率2.MySQL的数据如果恢复到任意时间点?恢复到任意时间点以定时的做全量备份,以及备份增量的binlog日志为前提,恢复到任意时间点首先将全量备份恢复之后,在此基础上回放增加的binlog直至指定的时...

2019-08-18 11:10:20 121

原创 MapReduce

MR的编程规范 1. 读取文件,解析成key,value对,这里的key,value指代为k1,v1 2. 自定义map逻辑,重写mapper方法,接收k1,v1,转换成新的k2,v2 ----------------------shuffle阶段的四个步骤--------------------------- 3. 分区:将相同的key发送到同一个reducetask中,相同的key合并...

2019-08-17 11:34:56 79

原创 HDFS

分布式文件系统HDFSNameNode:负责管理整个文件系统的元数据，以及每一个路径（文件）所对应的数据块信息DataNode:负责管理用户的文件数据块，每一个数据块都可以在多个datanode上存储多个副本SecondaryNameNode:用来监控HDFS状态的辅助后台程序，每隔一段时间获取HDFS元数据的快照。最主要作用是辅助namenode管理元数据信息,合并fsimage和edi...

2019-08-16 11:57:27 58

weixin_45533044的博客