基础
七月流火_2567
人的一切痛苦,都是对自己无能的愤怒!
展开
-
hive整库迁移shell代码
最近在做集群迁移工作,旧生产平台的hive数仓需要迁移到新的平台,因此,需要将hive所有生产库的表都新建一份,手动传太麻烦,搞了个shell脚本读取,读取结果基本可用,就是每个DDL语句最后的location需要用notepadd++的正则匹配的方式干掉,算是个小瑕疵吧,代码如下: #!/bin/bash#填写库名DATABASE=$1#获取表名hive -e "use $DATABASE;show tables;" >> tableName.txt###############原创 2021-01-15 14:04:28 · 284 阅读 · 0 评论 -
从浅入深带你了解MapReduce编程模型(MapReduce基础解析)
1.MapReduce概念MapReduce是一个分布式计算框架,它被设计用于并行计算海量数据。第一个提出该技术框架的是Google公司,而Google的灵感则来自于函数式编程语言,如LISP,Scheme,ML等。Map:过滤一些原始数据Reduce:处理这些数据,得到我们想要的结果当你向MapReduce框架提交一个计算作业时,它会首先把计算作业拆分成若干个Map任务,然后分配到不同的...原创 2018-12-02 22:19:00 · 1259 阅读 · 0 评论 -
简单总结了一下py基础函数部分
所谓函数,就是把 具有独立功能的代码块 组织为一个小模块,在需要的时候 调用函数的使用包含两个步骤:定义函数 —— 封装 独立的功能调用函数 —— 享受 封装 的成果函数的作用,在开发程序时,使用函数可以提高编写的效率以及代码的 重用演练步骤新建 04_函数 项目复制之前完成的 乘法表 文件修改文件,增加函数定义 multiple_table():新建另...原创 2018-12-29 09:02:00 · 326 阅读 · 0 评论 -
yum安装mongodb报错
今天在尝试yum安装mongodb时,发现了问题:这是因为你以前用的是CENTOS现在是redhat 红帽的yum安装软件的时候要验证的看是不是红帽的软件,是红帽的软件可以安装不是就失败.因此,我们需要将gpgcheck=1改成gpgcheck=0即可。gpgcheck=1表示需要验证,0表示不需要验证。成功!...原创 2019-01-22 11:02:10 · 461 阅读 · 0 评论 -
详解MapReduce:shuffle过程
MapReduce确保每个Reducer的输入都是按键排序的,系统执行排序,将map输出作为输入传给Reducer的过程被称为shuffle。MAP端map函数开始产生输出时,并不是简单地将它写到磁盘上。这个过程更复杂,它利用缓冲的方式写到内存并出于效率的目的进行预排序。每个map任务都有一个环形缓冲区用于存储任务输出。在默认情况下,缓冲区的大小为100MB,这个值可以通过mapreduce...原创 2019-03-04 23:13:52 · 480 阅读 · 0 评论 -
reduce 如何知道要从哪台机器取得map输出?
map任务成功后,它们会使用心跳机制通知它们的application master。因此,对于指定作业,application master 知道map输出和主机位置之间的映射关系。reduce中的一个线程定期询问master以便于获取map输出主机的位置,直到获得所有输出位置。由于第一个reducer可能失败,因此主机并没有在第一个reducer检索到map输出时就立即从磁盘上删除它们。相反,...原创 2019-03-04 23:18:39 · 959 阅读 · 0 评论