大数据
文章平均质量分 67
大数据
编程爱好者熊浪
这个作者很懒,什么都没留下…
展开
-
HIVE配置详情
hive.exec.mode.local.auto决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行)truehive.exec.mode.local.auto.inputbytes.max如果 hive.exec.mode.local.auto 为 true,当输入文件大小小于此阈值时可以自动在本地模式运行,默认是 128兆。134217728Lhive.exec.mode.local.auto.tasks.max如果 hive.exec.mode.local.au转载 2022-07-14 14:49:14 · 207 阅读 · 0 评论 -
JAVA写入HDFS,映射到Hadoop,HIVE使用
2、操作内容写入HDFS文件系统。1、引入Hadoop的Jar。原创 2023-06-14 10:57:29 · 738 阅读 · 0 评论 -
Ubuntu集群安装Hadoop和Hive
1、安装JDK1.8,多个服务器JDK环境不同可以通过 ln -s 当前jdk环境目录 需要映射的目录,统一JDK路径,JDK安装所有的机器都需要执行1、修改hosts文件vim /etc/hosts10.0.0.195 hdp0210.0.0.196 hdp03#hadoop master10.0.0.198 hdp0110.0.0.199 hdp0410.0.0.193 hdp052、新增普通用户hadoop#创建hadoop用户,并使用/bin/bash作为shellsud原创 2022-05-05 14:33:03 · 2392 阅读 · 0 评论 -
HIVE2.X更换MR为Spark引擎
1、安装Hadoop和HIVE2、Scala安装3、下载对应的版本4、下载对应的Spark的bin包5、上传解压,文件赋权给HIVE用户6、编辑配置文件修改HIVE安装目录下的/opt/hive/conf/hive-site.xml文件新增下面的配置修改端口,spark默认使用的端口是8080,根据实际情况修改复制/opt/hive/lib下的jar包到/opt/spark/jars下面复制/opt/spark/jars下的jar包到/opt/hive/lib下面复制/op原创 2022-06-21 19:14:01 · 1563 阅读 · 0 评论 -
Ubuntu安装Scala
1、查询Spark支持的Scala版本2、官网下载对应的Scala版本下载tgz包上传解压赋权3、配置环境变量4、所有的spark集群都需要配置5、配置分发的环境变量,同上原创 2022-06-21 17:24:01 · 2221 阅读 · 0 评论 -
DolphinScheduler导入并使用自定义UDF函数
1、确定已经配置好了HDFS,主要注意文件夹权限2、复制hadoop安装目录下的配置文件,不是同一个服务器可以使用scp命令复制3、保存后,编译信息,查看安装目录下修改是否生效4、自定义HIVE的UDF函数引入jar打包jar包5、上传jar包创建文件夹6、使用UDF函数,多个UDF函数可以复选执行成功...原创 2022-06-15 17:49:04 · 1952 阅读 · 7 评论 -
DolphinScheduler使用系统时间
(一)、add_months()加减月份,加减12月就是年份,格式可以说yyyyMMdd,yyyyMM,yyyy(二)、直接±指的是加减天数,加减7天就是一周,格式可以说yyyyMMdd,yyyyMM,yyyy(三)、时分秒±是加减也是天,天除以24小时,前面的就算小时,再除以60表示分钟(四)、即使格式只是yyyy,yyyyMM,±也是天数的加减,yyyy,yyyyMM只是输出格式时分秒类似...............原创 2022-06-24 14:45:57 · 6597 阅读 · 1 评论 -
CentOS8安装DataX
1、下载安装包2、上传tar.gz包3、解压原创 2022-06-13 17:55:36 · 269 阅读 · 0 评论 -
DolphinScheduler使用Datax同步Hive结果到MYSQL
1、安装DolphinScheduler2、创建租户信息注意:租户名称就是Linux的执行命令的用户名称,所以不能出错3、根据实际情况确定是否需要创建工作组,存在一个default默认工作组,是当前的所有机器,可以通过组信息来确定定特定的机器执行某个任务,比如DataX插件执行同步任务,可以只在某个机器上安装DataX,之后通过组信息来确定某个安装了同步插件的机器执行同步任务,这样可以降低每台机子上安装的插件个数,但可能会存在,某个机子宕机,任务不能执行的风险4、环境管理默认使用 ./dolp原创 2022-06-14 11:01:56 · 4336 阅读 · 0 评论 -
CentOS安装DolphinScheduler
安装官网`1、需要先安装JDK 1.8+,MYSQL,Zookeeper,psmisc,已安装过后无需重复安装,ubuntu 安装apt-get install psmisc安装JDKMysqlZookeeperpsmisc2、下载安装的tar.gz包3、新增用户,配置免密登录,赋权#解压文件包,如果修改文件可以用 mv apache-dolphinscheduler-2.0.3-bin /opt/dolphinschedulertar -zxvf apache-dolphinschedu原创 2022-02-18 15:18:28 · 2589 阅读 · 0 评论 -
HIVE常用函数
HIVE函数原创 2022-06-27 18:50:29 · 240 阅读 · 0 评论