自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(45)
  • 收藏
  • 关注

原创 shell 实现对Hive表字段脱敏写入新表

数据安全管理,本shell 实现对hive源表敏感字段进行md5加密,然后写入新表;备注:仅供参考,可对本shell代码,做进一步修改调整,满足自己的需求。

2024-04-22 19:00:26 253 1

原创 基于 miniconda 构建包含 torch dgl 等包的python环境

上述命令会启动一个新的shell,在这个shell中,g++的版本将会是7.x.x。如果你想要在任何新的shell中都保持这个版本,你可以在启用devtoolset-7后将g++的符号链接到正确的版本。在CentOS系统上安装g++-7,你可以使用Software Collections (SCL) repository。centOS默认自带4点几版本的gcc 、g++编译器,是比较老的版本的 gcc version 4.8.5。启用 devtoolset-7 环境。

2024-03-23 16:38:06 650

原创 datax离线同步oracle表到clickhouse实践2

1、把历史数据 20240201 之前的数据一次性同步到 clickhouse。注:$PATH 环境变量信息,重定向到 crontab.log,方便调试。目标库根据要同步的表,按照clickhouse建表规范建表。编写增量同步shell脚本,加入 crond 定时任务。注:json文件只是修改了sql的条件,其他没有变化。加入到定时任务(分时天月周),每天6点执行。1、安装启动 oracle19c 容器。2、rpm包安装clickhouse。时间:2024.01。

2024-02-13 19:00:00 386

原创 datax离线同步oracle表到clickhouse实践1

DataX下载地址(http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz)Python(推荐Python2.6.X) 我使用的CentOS7自带的 Python 2.7.5。目标库根据要同步的表,按照clickhouse建表规范建表。三. 创建Oracle 19c镜像的容器。1、安装启动 oracle19c 容器。1、安装启动 oracle19c 容器。下载clickhouse的rpm包。5.4 查看数据文件位置。

2024-02-06 19:23:52 1525

原创 shell 实现对Hive表脱敏建视图

需求描述:在Hive中,对 input_db 库中的表在 export_db 建视图,对表中的 姓名、手机号、身份证号等字段进行 MD5 加密脱敏。

2024-01-30 19:06:58 160

原创 Linux vgchange命令

lsblk 查看不到卷组,逻辑卷;处于活动状态的卷组无法被删除,必须使用vgchange命令将卷组设置为非活动状态后才能删除。用于修改卷组的属性,经常被用来设置卷组是处于活动状态或非活动状态。vgchange -a y softvg 激活卷组softvg。vgchange -an softvg 将卷组设置为非活动状态。vgchange -ay softvg 激活卷组softvg。vgchange -ay 激活系统所有卷组。vgchange(选项)(参数)卷组:指定要设置属性的卷组。

2024-01-23 21:00:00 539 1

原创 linux系统磁盘扩容

使用 resize2fs或xfs_growfs 对挂载目录在线扩容。resize2fs 针对文件系统ext2 ext3 ext4。使用场景:lvm管理的逻辑卷空间不够使用了,进行扩展,加容量。3、扩展逻辑卷 /dev/softvg/softlv。实践操作:将新分区用于扩容挂载的目录 /soft。2、把新的物理卷加入 softvg 卷组中。xfs_growfs 针对文件系统xfs。1、为新增的分区创建物理卷。

2024-01-20 21:00:00 755

原创 Linux磁盘管理之LVM实践

ext4是第四代扩展文件系统(Fourth EXtended filesystem,缩写为ext4)是linux系统下的日志文件系统,是ext3文件系统的后继版本。磁盘分区,分区创建为pv,PV组合成VG,VG划分成LV,LV格式化成文件系统,lv的大小可以调整.过小需要从新划分磁盘分区,或者以软连接的方式将此分区的目录链接到另一个分区。可以让管理员弹性的管理逻辑卷的扩大缩小, 操作简单不损坏已有数据。可以随意将新磁盘添加到LVM中, 让其扩展已存在的逻辑卷。LVM不需要重启就可以让内核知道分区的存在。

2024-01-19 21:00:00 361

原创 Linux上磁盘分区、挂载

MBR 分区表类型,它的分区只有两种情况:4个主分区 或者 3个主分区 + 1个扩展分区。缺点:不能对磁盘空间进行动态的管理,分区后大小就固定了,空间不足时,不能进行扩充。逻辑分区是没有数量限制的,只要你扩展分区的空间足够,逻辑分区就可以一直添加下去。其它分区从2开始,数字越小越先检查,如果两个分区的数字相同,则同时检查。对硬盘进行分区,其实是划分逻辑边界,从哪个扇区到哪个扇区是一个分区。先对一个硬盘进行分区,然后再将该分区进行文件系统的格式化,最后挂载。扇区的单位是字节,一个扇区是512字节。

2024-01-18 21:00:00 756

原创 NVMe类型磁盘

mount –a 不报错说明成功,报错请根据提示内容检查且请勿重启!挂载完,要在/etc/fstab 文件配置挂载信息,要不然重启挂载就消失了。mount -a 测试是否挂载成功(如果出错,不要重启,否则就GG了)添加完毕以后可以试一下fstab文件是否能正常运行。1 直接对磁盘进行格式化,然后进行挂载。

2024-01-17 20:10:01 371

原创 top命令详解

top 3s刷新一次,用户空间进程在这3s内使用了CPU 1.5s,那么us等于50%=1.5s/3s。top命令经常用来监控linux的系统状况,是常用的性能分析工具,能够实时显示系统中各个进程的资源占用情况。用户空间占用CPU时间百分比,如果是多核,这个数值表示占用的平均百分比,可以按1进行多核统计和平均统计切换。st:这一显示项单位为百分比,它的值表明你的系统花了百分之多少等待得到真正的cpu资源。TIME+: 该进程启动后占用的总的CPU时间,即占用CPU使用时间的累加值。

2024-01-16 21:00:00 396

原创 Linux上对大于2T的硬盘分区

警告:fdisk 对GPT盘的支持是新增的,因此还处于实验性阶段。(以前fdisk命令不支持GPT盘,只支持MBR盘,fdisk (util-linux 2.23.2)版本新增了对GPT的支持)-L:后面接容量,容量的单位可以使M、G、T等,要注意的是,最小单位为PE,因此这个数量必须是PE的倍数,若不是则会计算最相近的容量。lvcreate -L number m,g,t -n LV名称 VG名称。-s:后面接PE的大小(size),单位可以是m、g、t(大小写均可)

2024-01-09 22:40:18 1075

原创 Notepad++ v7.7.1 安装及添加插件

工欲善其事必先利其器

2024-01-05 21:53:23 879

原创 Linux下查看CPU信息

Genuine Intel 真正的英特尔,其中:“Genuine”表述:美国“因特尔”原厂,黄金正版,顶级稳定,超级速度。NUMA (Non-Uniform Memory Access) 是一种计算机系统架构,其目的是优化多处理器系统中内存访问的效率。每个 CPU 插槽可以安装一个或多个 CPU 芯片,每个 CPU 芯片可以包含一个或多个 CPU 核心。# 表示CPU的功能特性,包括fpu、vme、de、pse、tsc、msr、pae等等。Vendor ID: GenuineIntel 供应商。

2024-01-02 21:39:48 778

原创 了解CPU架构

32 位的 CPU ISA 要么是已经过时的历史产物,被留下来要么只是为了支持旧的系统,要么只运用在微控制器中。可以说,所有新的硬件都已经是 64 位的了,特别是那些面向消费者的硬件。ARM 不仅是一家为 CPU ISA 制定规范的公司,它也设计并授权给其他厂商使用其 CPU 内核,甚至允许其他公司使用 ARM CPU ISA 设计自己的 CPU 内核。内存总线的宽度指的是 CPU 和 RAM 一次能传输的位数。x86_64/x86/amd64 64 位 AMD/英特尔 CPU 的别称。

2023-12-30 23:25:40 624

原创 UOS与深度操作系统

​Deepin项目是一个致力于为全球用户提供美观易用,安全可靠的Linux发行版,Deepin团队基于HTML5技术开发了全新深度桌面环境,以及音乐播放器,视频播放器,软件中心等一系列特色软件。2023年7月5日,统信UOS V20桌面操作系统迎来了1060版本的年度更新上线,带来了 6 大核心功能。2021年12月7日,UOS官方宣布,统信UOS个人版将于2021年12月内开放系统升级,届时统信UOS个人版将可以升级成统信UOS家庭版,系统开放升级后,个人版不再更新版本但可以继续使用。

2023-12-26 12:00:00 1158

原创 AI芯片、GPU、算力、大模型

自然语言是指人们日常使用的语言,如汉语、英语、法语等,可以说是我们在社会生活中接触到的最多的信息之一,人们迫切希望能够使得自然语言能为计算机所处理,实现真正的人机交互,也就是要实现数据(Data)→信息(Information)→知识(Knowledge)→“情报/智能”(Intelligence)的转换。(DL,Deep Learning)是机器学习(ML,Machine Learning)领域中一个新的研究方向,它的最终目标是让机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据。

2023-12-19 21:01:32 833

原创 华为研发成果

华为云已经推出了多个版本,如华为云1.0/2.0/3.0等,覆盖全球45个可用区和23个地域,提供了超过220种云服务和210种解决方案,支持云计算、大数据、AI、物联网等场景。华为的数据库,高斯(Gauss DB),是华为自主研发的一种面向多场景的分布式数据库,支持关系型、非关系型和时序型等数据模型。注:SoC:System on Chip的缩写,称为系统级芯片,也有称片上系统,意指它是一个产品,是一个有专用目标的集成电路,其中包含完整系统并有嵌入软件的全部内容。虚拟桌面软件,华为云桌面,连续8年第一。

2023-12-17 21:00:00 456

原创 银河麒麟操作系统

提供类似Windwos风格的用户体验,操作简便,上手快速,并在国产平台的功耗管理、内核锁及页拷贝、网络、VFS、NVME等方面开展优化,系统加载迅速,大幅提升了稳定性和性能;两个不同品牌的CPU,其产品的架构也不相同,例如,Intel、AMD的CPU是X86架构的,而IBM公司的CPU是PowerPC架构,ARM公司是ARM架构。市面上的CPU分类主要分有两大阵营,一个是intel、AMD为首的复杂指令集CPU,另一个是以IBM、ARM为首的精简指令集CPU。CPU架构(x86_64、aarch64)

2023-12-16 13:51:17 2737

原创 kubectl与Docker命令对比

备注:使用 kubectl 创建一个 Deployment,他能保证任何情况下有 N 个运行 nginx 的 pods(其中 N 是默认定义声明的副本数,默认为 1 个)。注意,不要直接删除 pod,使用 kubectl 删除拥有该 pod 的 Deployment。kubectl run 在 Kubernetes 集群 >= v1.2 上将创建名是 “nginx-app”的 Deployment。3、如何连接已经运行在容器中的进程?7、如何停止和删除正在运行的进程?2、如何列出当前运行的内容?

2023-12-14 19:48:50 390

原创 k8s常用命令

kubectl log <pod-name> -c <container_name> # 若 pod 只有一个容器,可以不加 -c。kubectl get pods,services -o wide (-o 输出格式 wide 表示 plain-text)kubectl exec name -c container_name -n kube-system -- 具体命令。kubectl apply -f xx.yaml --prune -l <labels>(一般不用这种方式删除)

2023-12-12 21:12:44 335

原创 正则表达式与脱敏

(([0-2][1-9])|10|20|30|31) 匹配出生日期,考虑了每个月的天数和闰年的情况。((0[1-9])|(1[0-2])) 匹配出生月份,01 至 12。(19|20)\d{2} 匹配出生年份,从 1900 年至今。​[],用于表示一个字符集合。- 在 [] 中表示字符范围。[1-9]\d{5} 匹配前六位地址码,第一位不能为 0。\d表示一位数字,\d{2}表示两位数字,$表示字符串结束。[Xx\d] 匹配校验码,最后一位可能为数字或字母 X。​\d 表示一位数字,等价于 [0-9]。

2023-12-07 20:43:09 652

原创 Hive表维护

需求描述:项目上 Hive 库 import_db 是个公共库,多个项目组在使用,时间久了,库里有2万多张表,占了1000多T空间,有的表好久就不使用了,想着清理一下。把导出的 import_db_modify_time_desc_$(date '+%Y%m%d_%H%M%S').txt 发给项目组确认,哪些表可以删除。把导出的2个文件的数据,复制到Excel,使用=VLOOKUP() 对比两列,找出只有数据文件没有表的目录,对此目录进行删除。1、跟项目组确认哪些表可以删除。2、删除没有表结构的数据文件。

2023-12-06 21:11:21 322

原创 hive库之间同步表

默认情况下,distcp命令使用所有可用的带宽,但是可以使用-Ddistcp.bandwidth选项来限制带宽使用率。默认情况下,此参数的值为0,表示没有限制。<max_running_jobs>是允许同时运行的最大MapReduce作业数,<src_path>是源路径,<dst_path>是目标路径。-m <arg>:限制同步启动的 map 数,默认每个文件对应一个 map,每台机器最多启动20个 map。Hadoop distcp是一个用于在Hadoop集群之间复制数据的工具。

2023-12-05 19:46:49 353

原创 hive beeline参数及示例用法

beeline 是一个用于连接 HiveServer2 的命令行工具。

2023-11-30 22:16:04 2040

原创 hdfs dfs 命令学习实践

查看目录或文件参数:参数释义:-C 仅显示文件和目录的路径-d 目录列为普通文件-h 以人类可读的方式显示文件大小,而不是按字节数-R 递归地列出目录的内容-t 按修改时间对文件排序(最近的第一次)-S 按大小对文件进行倒序排序-r 颠倒顺序排列-u 使用上次访问的时间而不是修改来显示和排序示例:1.1 以 K M G 可读方式显示文件大小(以首字母正序、倒序排列)

2023-11-28 20:16:16 1445

原创 import dgl Permission denied: ‘/home/.dgl‘

jupyterhub以容器的方式运行,jupyterhub支持2个内核,python3和pyspark。修改源码时,不同的提交用户,设置不同的路径,如 /tmp/04885/、/tmp/xiaoming/、/tmp/xiaogang/等等,分开打python包。创建了/tmp/.dgl,不同的提交用户使用的都是/tmp/.dgl,所以会有权限问题。后续遇到的问题,不同的用户使用dgl,又出现了权限问题。修改源码,设置为临时目录,有权限的路径 /tmp。改成自己有权限的路径。改成自己有权限的路径。

2023-11-21 21:00:00 90 1

原创 kubernetes master节点初始化操作,都干了什么?

无法从互联网上获取Kubernetes版本:无法获取URL "https://dl.k8s.io/release/stable-1.23.txt":得到“https://cdn.dl.k8s.io/release/stable-1.23.txt”:超过了截止日期(客户端。去默认的镜像源(k8s.gcr.io)拉去镜像(kubeadm config images pull),谷歌的镜像仓库很可能访问不到,可以通过国内的镜像源手动拉取下来。在 /etc/kubernetes/ 生成组件的配置文件。

2023-11-19 21:00:00 94

原创 Centos7 yum安装docker

yum-utils提供了很多有用的工具,比如yum-builddep、yum-complete-transaction和yumdownloader等,在Linux系统管理中发挥了至关重要的作用。(安装指定版本:yum install docker-ce-版本号 docker-ce-cli-版本号 containerd.io)问题原因:系统默认没有安装这个命令 yum-config-manager ,这个命令在 yum-utils 包里。指定版本安装,安装18.09.0版本的docker。

2023-11-18 19:29:07 86 1

原创 docker-19.03.9离线安装

1、下载docker-19.03.9离线包本地路径:D:\U\大数据\运维技术\docker soft\docker-19.03.9.tgz2、上传解压上传到服务器/home/images目录下3、查看docker目录下的可执行文件4、将docker文件,复制到/usr/bin目录下5、配置docker.service在/usr/lib/systemd/system/docker.service文件(没有目录新增)中添加以下内容,然后保存添加6、配置daemon.json。

2023-11-16 21:03:40 152

原创 Windows11 安装VMware workstation 16 pro 亲测可行

常见的虚拟机软件有Vmware workstation、微软的Hyper-v、甲骨文的Virtual Box、Parallels公司的Parallels Desktop。资源--产品下载,ctrl+F 搜下 workstation ,找到 VMware Workstation Pro,下载产品,选择版本16.0。兄弟们,双11买了新笔记本,win11系统,安装VMware虚拟机遇到了好多坑,分享让大家开心一下。根据自己操纵系统版本,选择适合版本的VMware,参考。兼容问题,安装适合版本的VMware。

2023-11-15 16:59:59 1505

原创 工作中遇到的hive问题

原因分析:多表关联,创建新表,关联的两个表有相同字段名的字段,hive为了区分就带上了表名前缀,导致建表字段不合法。select 查询时,识别不了字段名,抛出空指针异常。2. Union all情况下,前后2段的字段名、数据类型不匹配;查看表的存储格式,同时查看hdfs上数据文件的是什么格式?示例1:过滤掉不需要的列名(字段要用小括号包裹)验证结果是:会提示类型不匹配,不会报空指针异常。在hivesql里这样写,可能会报空指针错误。验证结果是:不会报错,能正常执行。解决方法:重跑分区数据。

2023-11-14 21:39:55 181 1

原创 pyspark订阅kafka相关主题的消息

value_serializer 表示对业务数据value进行序列化操作,这里利用JSON模块中的dumps将JSON格式的数据序列化,且编码指定为utf-8。将产生的数据通过send方法发布到主题为kf2pyspark的kafka消息队列上去,其中value数据为产生的vjson数据。pyspark订阅kafka相关主题的消息,对获取到的数据进行处理,最后再发布到kafka特定主题上,供其他程序调用。# 将字符串value列转换成一个JSON格式的值,这样就可以获取到value中的特定业务数据字段值。

2023-11-12 21:00:00 66 1

原创 利用决策树算法进行预测

从预测集合中选择 "prediction", "Survived", "features" 这三个字段进行显示。利用模型的transform方法对训练数据train进行预测。#DecisionTree模型。#打印treeModel。利用决策树算法进行预测。accuracy 精度。

2023-11-11 21:00:00 69 1

原创 应用逻辑回归算法进行预测

AUC(area under the ROC curve, AUC)即ROC曲线下面积, AUC越大越好,提示该实验值越高。模型训练完毕,且通过效果评估,预测准确率还可以接受的话,那么就可以利用训练好的模型对新的数据进行预测。#ROC曲线是FPR对TPR的plot(表现两个变量关系的)图表。# 显示ROC信息,它可以反映机器学习模型的预测效果。将训练好的模型进行持久化,保存到磁盘上。通过load方法加载训练好的模型。2、利用训练好的模型,进行预测。获取模型的一些描述信息。打印展示结果 20行。

2023-11-10 20:42:08 37

原创 pyspark分布式机器学习2

采集上来的数据往往会有缺失值,或者说数据格式不符合特定机器学习算法的要求,因此需要进行资料的清理与转换。训练数据中的文本规律为,有pyspark这个单词的文本标签字段为1.0,其他为0.0。只有高质量的数据,才能构建出高质量的机器学习模型,并用于生产环境。对于机器学习算法,数据集中若有字符串类型的标签数据,往往需要进行。训练数据上进行pipeline fit操作,产生一个model。#删除列,对预测结果没有关系的列进行删除,以降低内存占用。#模拟训练数据,有PySpark的文本为1,其他为0。

2023-11-09 20:36:41 37 1

原创 pyspark分布式机器学习1

打印出dataframe对象df_train的Schema信息。1、对数据进行观察,认识数据格式。#计算基本的统计描述信息,行数,# 默认输出20条数据。2、对数据进行描述统计。# 获取count列。

2023-11-08 21:41:10 39 1

原创 centos7安装 anaconda3-2019.10

https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ (推荐,清华大学开源软件镜像站进行下载并配置镜像)https://mirrors.tuna.tsinghua.edu.cn/anaconda/miniconda/ (mini版,清华大学开源软件镜像站)https://www.anaconda.com/download/ (不推荐,官网下载慢)这样可跳过软件安装路径确认阶段,直接安装到指定目录下。安装路径确认,可默认,也可输入自定义路径。

2023-11-07 21:41:01 70

原创 构建python397环境,安装GPU版本 torch

3、因为内网conda虚拟环境,pandas版本是 1.19.5,为了避免升级pandas,安装稍微低一点的版本 torchmetrics==0.11.4。安装命令参考官网 https://pytorch.org/get-started/previous-versions/查看历史版本 https://pypi.org/project/torchmetrics/#history。1、构建与内网conda虚拟环境版本一致的环境。在独立的python环境安装,报错,无法解决。5、上传到内网机器,进行安装。

2023-11-06 17:27:42 223

原创 centos7下安装python3.7和jupyter

使用root用户安装2.下载python包切换到用户家目录cd ~3.解压编译安装指定安装路径、编译安装4.安装完成,测试一下查看python版本查看已安装的包import ssl 看有没有报错。

2023-11-04 22:53:47 356 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除