bigdata
文章平均质量分 57
probtions
这个作者很懒,什么都没留下…
展开
-
shell 实现对Hive表字段脱敏写入新表
数据安全管理,本shell 实现对hive源表敏感字段进行md5加密,然后写入新表;备注:仅供参考,可对本shell代码,做进一步修改调整,满足自己的需求。原创 2024-04-22 19:00:26 · 475 阅读 · 1 评论 -
datax离线同步oracle表到clickhouse实践2
1、把历史数据 20240201 之前的数据一次性同步到 clickhouse。注:$PATH 环境变量信息,重定向到 crontab.log,方便调试。目标库根据要同步的表,按照clickhouse建表规范建表。编写增量同步shell脚本,加入 crond 定时任务。注:json文件只是修改了sql的条件,其他没有变化。加入到定时任务(分时天月周),每天6点执行。1、安装启动 oracle19c 容器。2、rpm包安装clickhouse。时间:2024.01。原创 2024-02-13 19:00:00 · 427 阅读 · 0 评论 -
datax离线同步oracle表到clickhouse实践1
DataX下载地址(http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz)Python(推荐Python2.6.X) 我使用的CentOS7自带的 Python 2.7.5。目标库根据要同步的表,按照clickhouse建表规范建表。三. 创建Oracle 19c镜像的容器。1、安装启动 oracle19c 容器。1、安装启动 oracle19c 容器。下载clickhouse的rpm包。5.4 查看数据文件位置。原创 2024-02-06 19:23:52 · 1656 阅读 · 0 评论 -
shell 实现对Hive表脱敏建视图
需求描述:在Hive中,对 input_db 库中的表在 export_db 建视图,对表中的 姓名、手机号、身份证号等字段进行 MD5 加密脱敏。原创 2024-01-30 19:06:58 · 178 阅读 · 0 评论 -
Hive表维护
需求描述:项目上 Hive 库 import_db 是个公共库,多个项目组在使用,时间久了,库里有2万多张表,占了1000多T空间,有的表好久就不使用了,想着清理一下。把导出的 import_db_modify_time_desc_$(date '+%Y%m%d_%H%M%S').txt 发给项目组确认,哪些表可以删除。把导出的2个文件的数据,复制到Excel,使用=VLOOKUP() 对比两列,找出只有数据文件没有表的目录,对此目录进行删除。1、跟项目组确认哪些表可以删除。2、删除没有表结构的数据文件。原创 2023-12-06 21:11:21 · 329 阅读 · 0 评论 -
hive库之间同步表
默认情况下,distcp命令使用所有可用的带宽,但是可以使用-Ddistcp.bandwidth选项来限制带宽使用率。默认情况下,此参数的值为0,表示没有限制。<max_running_jobs>是允许同时运行的最大MapReduce作业数,<src_path>是源路径,<dst_path>是目标路径。-m <arg>:限制同步启动的 map 数,默认每个文件对应一个 map,每台机器最多启动20个 map。Hadoop distcp是一个用于在Hadoop集群之间复制数据的工具。原创 2023-12-05 19:46:49 · 393 阅读 · 0 评论 -
hive beeline参数及示例用法
beeline 是一个用于连接 HiveServer2 的命令行工具。原创 2023-11-30 22:16:04 · 3330 阅读 · 0 评论 -
hdfs dfs 命令学习实践
查看目录或文件参数:参数释义:-C 仅显示文件和目录的路径-d 目录列为普通文件-h 以人类可读的方式显示文件大小,而不是按字节数-R 递归地列出目录的内容-t 按修改时间对文件排序(最近的第一次)-S 按大小对文件进行倒序排序-r 颠倒顺序排列-u 使用上次访问的时间而不是修改来显示和排序示例:1.1 以 K M G 可读方式显示文件大小(以首字母正序、倒序排列)原创 2023-11-28 20:16:16 · 1941 阅读 · 0 评论