大数据
哟哟之名
这个作者很懒,什么都没留下…
展开
-
Scala基础04(函数式编程)
基础原创 2022-06-14 00:55:47 · 99 阅读 · 0 评论 -
Scala基础03(条件分支与循环语句)
scala基础原创 2022-06-11 23:40:20 · 94 阅读 · 0 评论 -
Scala基础02(数据类型)
scala数据类型原创 2022-06-09 23:50:48 · 100 阅读 · 0 评论 -
Scala基础(变量01)
Scala初识原创 2022-06-09 00:27:47 · 98 阅读 · 0 评论 -
Azkaban3.x的简单用法
一个轻量级的工作流调度系统1、azkaban-db:依赖Mysql,将一些工作流必备的数据表刷到Mysql中2、azkaban-exec-server:执行任务的服务器3、azkaban-web-server:配置或者上传任务的服务器(8081端口对应配置页面)1、创建 test.project 文件2、创建 test.flow 文件3、创建 jobA.sh 文件原创 2022-05-31 23:40:40 · 158 阅读 · 0 评论 -
Flume内部原理及事务(三)
一、内部原理二、source + sink事务三、事务源码下面是commit时,如果失败。在Channel预留takeList回滚放回的空间,相关源码。四、Flume会丢失数据吗?会出现重复数据?由于source事务发生异常时,回滚操作是将putList数据直接丢弃,所以是否丢失数据与source类型有关。例如:netcat不记录游标,故会丢失数据。tailDirSource会记录position,提交成功会提交position,失败则不提交最新的position,所以不会丢失数据。s原创 2022-05-02 00:48:01 · 408 阅读 · 0 评论 -
Flume的常用案例(二)
一、监控端口数据对应配置文件 flume-netcat-logger.conf# Name the components on this agent# r1、k1、c1表示souce、sink、channel的名称a1.sources = r1a1.sinks = k1a1.channels = c1# Describe/configure the source# type表示 a1 的输入源是 netcat 端口类型,下面两项表示 a1 监听的主机、端口a1.sources.r1原创 2022-04-17 22:04:45 · 1826 阅读 · 0 评论 -
Flume简介(一)
一、Flume是什么? Flume 是分布式的海量日志采集、聚合和传输的系统。二、它主要用来干啥? 最主要的用途:实时读取本地日志文件,并上传到HDFS三、架构及组成部分原创 2022-04-17 21:14:43 · 2472 阅读 · 0 评论 -
Hive调优笔记(二)
一、CBO优化基于成本的优化器(默认已开启),参数设置set hive.cbo.enable=true;set hive.compute.query.using.stats=true;set hive.stats.fetch.column.stats=true;set hive.stats.fetch.partition.stats=true;谓词下推(默认为true)set hive.optimize.ppd=true;例子:o 表的 o.id 会在 reduce 之前经历 filte原创 2021-12-26 15:07:50 · 1233 阅读 · 0 评论 -
Hive调优笔记(一)
一、本地模式与Fetch设置<-- 1、文件: hive-default.xml.template--><-- 2.1、在全局查找、字段查找、 limit查找等都不走MR-->hive.fetch.task.conversion=more<-- 2.2、所有查询全走MR-->hive.fetch.task.conversion=none<-- 3.1、开启本地MR,对于小数据集,执行时间可以明显被缩短-->hive.exec.mode.loc原创 2021-12-26 14:06:00 · 803 阅读 · 0 评论 -
大数据常用Shell脚本(二)
一、read命令等待用户输入,赋值给后面的变量t 代表间隔多少sp 代表提示信息name用于接收输入的变量read -t 7 -p "请输入你想打印的文字:" nameecho $name二、常用命令cut:从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段输出在linux输入tab,在单引号中 ‘’ 先按ctrl+v,再按tab#cut.txt内容,以tab分隔============================dong shenguan zhenwo wo原创 2021-09-15 00:26:30 · 229 阅读 · 0 评论 -
大数据常用Shell脚本(一)
一、系统变量$HOME$USER$PWD$SHELL二、自定义变量定义变量(a=2),变量名由数字、字母、下划线;1.1 环境变量名建议用大写字母,JAVA_HOME1.2 等号两侧不能有空格1.3 变量默认都是字符串,无法直接进行数值运算1.4 变量的值有空格,建议用双引号撤销变量(unset a)声明静态变量(readonly a=2),不能被撤销# 1、定义普通变量,输出1a=1echo $a# 2、撤销变量,输出为空unset aecho $a# 3、定义原创 2021-09-14 22:48:31 · 508 阅读 · 0 评论 -
Hadoop3.2.2集群时间同步
一、yum下载ntp、ntpdate包(hadoop100作为server,hadoop101作为client)yum -y install ntp ntpdate二、修改hadoop100的配置文件/etc/ntp.conf# 1、注意这里的192.168.116.0是根据自己的ip网段设置的,允许该网段所有服务器能访问本机restrict 192.168.116.0 mask 255.255.255.0 nomodify notrap# 2、不使用其它互联网上的时间,将下面这些注释掉#s原创 2021-09-08 00:31:09 · 157 阅读 · 0 评论 -
Hadoop3.2.2集群分发同步脚本
一、scp(secure copy)scp可以实现服务器与服务器之间的文件拷贝基本语法# -r是递归# pdir是目录名,filename是文件名# user是目标服务器的用户名,hostip是目标服务器ip地址scp -r $pdir/$filename $user@hostip:$pdir/$filenamescp -r /opt/hadoop3.2.2 root@hadoop101:/opt/hadoop3.2.2复制完成,如果需要修改文件所属组,使用如下命令。本人都是root原创 2021-09-06 00:38:52 · 205 阅读 · 0 评论 -
Hadoop3.2.2完全分布式环境搭建
一、集群部署规划hadoop100:NameNode、DataNode、NodeManagerhadoop101:SecondaryNameNode、DataNode、ResourceManager、NodeManager二、首先修改hosts文件vi /etc/hosts三 、配置系统必须的环境变量(java+hadoop)# 1、修改配置文件vi /etc/profile#==========分界线 start=============# set java homeJAVA_H原创 2021-09-01 00:35:17 · 609 阅读 · 0 评论 -
Oozie使用详解
一、oozie4.3.0调用shell编写workflow.xml<!--Workflow-DEF-NAME--><workflow-app xmlns='uri:oozie:workflow:0.3' name='shell-wf'> <!--shell1: node-name --> <start to='shell1' /> <action name='shell1'> <shell xmln原创 2021-09-04 01:24:16 · 407 阅读 · 0 评论