自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(1292)
  • 收藏
  • 关注

原创 tablesample函数介绍

在 Spark SQL 中,TABLESAMPLE 函数用于从表中抽样数据。这对于大数据集上的快速近似查询非常有用。

2025-09-22 16:30:20 242

原创 Spark SQL 桶抽样(Bucket Sampling)

在Spark SQL中,桶抽样(Bucket Sampling)是一种基于哈希分桶的抽样方法,它可以将数据划分为若干个桶(bucket),然后抽取其中一个或多个桶的数据作为样本。桶抽样有两种主要形式:基于分桶列(Bucketed Column)的抽样:这种抽样要求表本身是分桶表(Bucketed Table),并且抽样是基于分桶时指定的列进行的。基于任意列的随机抽样:使用TABLESAMPLE语法,可以基于随机函数(如rand())或指定列进行分桶抽样,即使表不是分桶表也可以使用。

2025-09-22 15:02:22 522

原创 map_from_arrays和map_from_entries函数

每个结构体通常包含两个字段:第一个字段作为键,第二个字段作为值。array_of_entries:一个数组,数组中的每个元素都是具有两个字段的结构体。MAP_FROM_ARRAYS函数用于从两个数组(一个作为键,一个作为值)创建一个Map。键数组不能包含null元素,且键必须是基本数据类型(不能是复杂类型如数组、映射、结构体)。如果存在重复的键,则后面的键值对会覆盖前面的(保留最后一个)。键不能为NULL,且必须是基本数据类型(不能是复杂类型)。keys: 一个数组,包含Map的键。

2025-09-20 14:42:10 148

原创 spark sql之from_json函数

在Spark SQL中,from_json函数用于解析包含JSON字符串的列,并将其转换为Spark SQL的结构化类型(如struct、map或array)

2025-09-11 19:41:56 372

原创 Pytorch基础入门4

下面讲一个小案例:使用自动微分机制配套使用SGD随机梯度下降来求函数最小值。

2025-09-10 16:23:15 310

原创 Pytorch基础入门3

这里主要介绍了求导的两种对象,标量Tensor和非标量Tensor的求导。两者的主要区别是非标量Tensor求导的主要区别是加了一个gradient的Tensor,其尺寸与自变量X的尺寸一致。最后还有一种使用标量的求导方式解决非标量求导,只需了解。神经网络依赖反向传播求梯度来更新网络的参数,求梯度是个非常复杂的过程,在Pytorch中,提供了两种求梯度的方式,一个是backward,将求得的结果保存在自变量的grad属性中,另外一种方式是torch.autograd.grad。

2025-09-09 17:24:46 159

原创 Pytorch基础入门2

stack为拼接函数,函数的第一个参数为需要拼接的Tensor,第二个参数为细分到哪个维度。所有的带_符号的函数都会对原数据进行修改。

2025-08-05 19:28:39 356

原创 Pytorch基础入门1

Pytorch是torch的python版本,是由Facebook开源的神经网络框架,专门针对 GPU 加速的深度神经网络(DNN)编程。Torch 是一个经典的对多维矩阵数据进行操作的张量(tensor )库,在机器学习和其他数学密集型应用有广泛应用。与Tensorflow的静态计算图不同,pytorch的计算图是动态的,可以根据计算需要实时改变计算图。

2025-08-05 14:20:28 489

原创 大数据之Hive:Hive中week相关的几个函数

dayofweek返回值为:1-7,1 = 星期日, 2 = 星期一, …, 7 = 星期六,从星期日开始。weekday返回值为:0-6,0 = 星期一, 1 = 星期二, …, 6= 星期日,从星期一开始。功能统计:某天为某年的第几周。功能:统计某天为星期几。功能:统计某天为星期几。

2025-07-22 19:37:19 382

原创 shell脚本总结19:awk命令的使用方法1

awk 是 Shell 中用于文本分析和数据处理的强大工具,兼具脚本语言的灵活性。它特别适合处理结构化数据(如日志、CSV 文件)。

2025-07-02 16:34:31 223

原创 Spark SQL to_json 函数介绍

在Apache Hive中,并没有内置的to_json函数。在Apache Spark SQL中确实有to_json函数,它可以用来将结构化数据(如结构化类型或MAP类型)转换为JSON字符串。这个功能对于需要将表格数据输出为JSON格式的场景非常有用。

2025-06-26 17:13:26 525

原创 FIND_IN_SET函数介绍及array_contains函数

【代码】FIND_IN_SET函数介绍。

2025-06-26 14:20:18 242

原创 shell脚本总结18:sed使用案例

将文件 test 中的所有逗号(,)和句点(.)替换为空格,并直接修改原文件。命令分解:以sed -i ‘s/,|./ /g’ test为例。2.实现:以下3种方法均可实现。

2025-06-24 16:51:03 224

原创 shell脚本总结17:sed命令的使用方法2

sed 是一种强大的命令行工具,用于在 Unix 和 Linux 系统中进行文本处理。它主要用于对文本文件进行查找、替换、插入和删除操作。

2025-06-23 14:51:20 214

原创 shell脚本总结16:sed命令的使用方法1

sed 是一种强大的命令行工具,用于在 Unix 和 Linux 系统中进行文本处理。它主要用于对文本文件进行查找、替换、插入和删除操作。

2025-06-18 11:28:23 155

原创 shell脚本总结15:grep命令的使用方法

grep 是一种在 shell 脚本中非常常用的命令行工具,用于搜索文件中的文本。它通过正则表达式来匹配并显示符合条件的文本行。

2025-06-10 20:07:16 288

原创 shell脚本总结14:awk命令的使用方法

awk 是 Shell 中用于文本分析和数据处理的强大工具,兼具脚本语言的灵活性。它特别适合处理结构化数据(如日志、CSV 文件)。

2025-06-04 16:54:45 176

原创 shell脚本总结13:head -c 和cut -c的区别

shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。

2025-06-03 14:52:12 344

原创 shell脚本总结12:自定义函数

shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。

2025-05-29 20:05:03 708

原创 shell脚本总结11

shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。

2025-05-28 17:02:14 546

原创 shell脚本总结10:case … esac 多选择语句

shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。

2025-05-28 11:23:45 417

原创 shell脚本总结9:until循环语句

shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。

2025-05-27 16:40:18 339

原创 cron表达式详解

Cron表达式是一个字符串,字符串以5或6个空格隔开,分为6或7个域,每一个域代表一个含义,Cron有如下两种语法格式:(1) Seconds Minutes Hours DayofMonth Month DayofWeek Year(2)Seconds Minutes Hours DayofMonth Month DayofWeek字段 允许值 允许的特殊字符备注:DayofWeek中 1 = 星期日;

2025-05-27 15:55:06 353

原创 shell脚本总结8:while循环语句

shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。

2025-05-26 11:21:28 426

原创 shell脚本总结7:for循环语句

shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。

2025-05-23 17:31:51 339

原创 shell脚本总结6:if条件判断语句案例

shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。

2025-05-23 14:20:53 420

原创 shell脚本总结5:if 条件判断语句

shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。If条件判断语句# If条件判断语句,通常以if开头,fi结尾。也可加入else或者elif进行多条件的判断 # 单分支语句 ---比较大小 if(条件表达式);then语句1fi # 双分支if 语句 if(表达式) 语句1 else 语句2。

2025-05-22 20:01:15 397

原创 shell脚本总结4:算术运算

今天主要回顾一下shell脚本中的算术运算

2025-05-22 16:19:02 283

原创 shell脚本总结3

shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。

2025-05-21 11:51:08 498

原创 TensorFlow之微分求导

在TensorFlow中,微分是个非常重要的概念。它们分别用于自动求导(计算梯度)和高效地处理数据。下面我将分别介绍这两个主题。

2025-05-13 16:44:12 438

原创 TensorFlow中数据集的创建

TensorFlow 的 tf.data.Dataset API 提供了一种灵活且高效的方式来加载和预处理数据

2025-05-09 17:11:23 458

原创 Keras模型保存、加载介绍

在TensorFlow中,保存和加载模型是机器学习工作流程中的重要步骤。这不仅有助于持久化训练好的模型以便后续使用,还可以实现模型的版本控制、部署和服务。SavedModel:推荐用于生产环境,因为它保存了完整的模型信息,并且具有良好的跨平台兼容性。HDF5:适用于简单的模型保存和加载需求,特别是当你需要与旧版本的 TensorFlow 或其他库兼容时。

2025-04-29 17:26:33 534

原创 Keras.datasets.fashion_mnist 函数介绍

keras.datasets.fashion_mnist是Keras中用于加载Fashion MNIST数据集的模块。Fashion MNIST数据集由Zalando公司提供,是一个用来替代经典MNIST手写数字数据集的图像数据集。与MNIST数据集中的数字图像不同,Fashion MNIST数据集包含的是服装相关的图像,更贴近实际应用场景。图像大小:每张图像为28x28像素的灰度图。类别数量:共有10个类别的服装。类别标签:T恤/上衣 (T-shirt/top)裤子 (Trouser)

2025-04-29 16:08:58 258

原创 TensorFlow中使用Keras

keras集成在tf.keras中。

2025-04-21 10:28:04 471

原创 REGEXP_REPLACE 函数的用法

参数说明source: string类型,要替换的原始字符串。pattern: string类型常量,要匹配的正则模式,pattern为空串时抛异常。replace_string:string,将匹配的pattern替换成的字符串。occurrence: bigint类型常量,必须大于等于0。大于0:表示将第几次匹配替换成replace_string。等于0:表示替换掉所有的匹配子串。其它类型或小于0抛异常。返回值。

2025-04-21 10:14:35 851

原创 Keras函数式API

Sequential 顺序模型封装了太多东西,不够灵活,如果你想定义复杂模型可以使用Keras的函数式API。使用函数式API可以直接操作张量,也可以把层当做函数来使用,接收张量并返回张量。

2025-04-17 19:59:27 249

原创 Keras使用1

评估标准 metrics. 评估算法性能的衡量指标.对于分类问题, 建议设置为metrics =[‘accuracy’].评估标准可以是现有的标准的字符串标识符,也可以是自定义的评估标准函数。优化器 optimizer:可以是Keras定义好的优化器的字符串名字,比如’rmsprop’也可以是Optimizer类的实例对象.常见的优化器有: SGD,训练模型: 使用.fit()方法,将训练数据,训练次数(epoch), 批次尺寸(batch_size)传递给fit()方法即可.

2025-04-11 11:39:02 311

原创 Keras简介

Keras 是一个高级神经网络API,它以简单性和快速实验设计为目标。Keras 既可以作为独立工具使用,也可以作为 TensorFlow、Microsoft Cognitive Toolkit (CNTK) 和 Theano 等后端的接口。

2025-04-10 16:50:09 557

原创 TensorFlow实现逻辑回归

实现逻辑回归的套路和实现线性回归差不多, 只不过逻辑回归的目标函数和损失函数不一样而已.

2025-04-02 16:21:48 542

原创 TensorFlow 字符串操作

表示 Python 中的字节字符串(而非 Unicode 字符串)。

2025-04-02 15:15:37 331

代码.zip

代码.zip

2023-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除