- 博客(1292)
- 收藏
- 关注
原创 tablesample函数介绍
在 Spark SQL 中,TABLESAMPLE 函数用于从表中抽样数据。这对于大数据集上的快速近似查询非常有用。
2025-09-22 16:30:20
242
原创 Spark SQL 桶抽样(Bucket Sampling)
在Spark SQL中,桶抽样(Bucket Sampling)是一种基于哈希分桶的抽样方法,它可以将数据划分为若干个桶(bucket),然后抽取其中一个或多个桶的数据作为样本。桶抽样有两种主要形式:基于分桶列(Bucketed Column)的抽样:这种抽样要求表本身是分桶表(Bucketed Table),并且抽样是基于分桶时指定的列进行的。基于任意列的随机抽样:使用TABLESAMPLE语法,可以基于随机函数(如rand())或指定列进行分桶抽样,即使表不是分桶表也可以使用。
2025-09-22 15:02:22
522
原创 map_from_arrays和map_from_entries函数
每个结构体通常包含两个字段:第一个字段作为键,第二个字段作为值。array_of_entries:一个数组,数组中的每个元素都是具有两个字段的结构体。MAP_FROM_ARRAYS函数用于从两个数组(一个作为键,一个作为值)创建一个Map。键数组不能包含null元素,且键必须是基本数据类型(不能是复杂类型如数组、映射、结构体)。如果存在重复的键,则后面的键值对会覆盖前面的(保留最后一个)。键不能为NULL,且必须是基本数据类型(不能是复杂类型)。keys: 一个数组,包含Map的键。
2025-09-20 14:42:10
148
原创 spark sql之from_json函数
在Spark SQL中,from_json函数用于解析包含JSON字符串的列,并将其转换为Spark SQL的结构化类型(如struct、map或array)
2025-09-11 19:41:56
372
原创 Pytorch基础入门3
这里主要介绍了求导的两种对象,标量Tensor和非标量Tensor的求导。两者的主要区别是非标量Tensor求导的主要区别是加了一个gradient的Tensor,其尺寸与自变量X的尺寸一致。最后还有一种使用标量的求导方式解决非标量求导,只需了解。神经网络依赖反向传播求梯度来更新网络的参数,求梯度是个非常复杂的过程,在Pytorch中,提供了两种求梯度的方式,一个是backward,将求得的结果保存在自变量的grad属性中,另外一种方式是torch.autograd.grad。
2025-09-09 17:24:46
159
原创 Pytorch基础入门2
stack为拼接函数,函数的第一个参数为需要拼接的Tensor,第二个参数为细分到哪个维度。所有的带_符号的函数都会对原数据进行修改。
2025-08-05 19:28:39
356
原创 Pytorch基础入门1
Pytorch是torch的python版本,是由Facebook开源的神经网络框架,专门针对 GPU 加速的深度神经网络(DNN)编程。Torch 是一个经典的对多维矩阵数据进行操作的张量(tensor )库,在机器学习和其他数学密集型应用有广泛应用。与Tensorflow的静态计算图不同,pytorch的计算图是动态的,可以根据计算需要实时改变计算图。
2025-08-05 14:20:28
489
原创 大数据之Hive:Hive中week相关的几个函数
dayofweek返回值为:1-7,1 = 星期日, 2 = 星期一, …, 7 = 星期六,从星期日开始。weekday返回值为:0-6,0 = 星期一, 1 = 星期二, …, 6= 星期日,从星期一开始。功能统计:某天为某年的第几周。功能:统计某天为星期几。功能:统计某天为星期几。
2025-07-22 19:37:19
382
原创 shell脚本总结19:awk命令的使用方法1
awk 是 Shell 中用于文本分析和数据处理的强大工具,兼具脚本语言的灵活性。它特别适合处理结构化数据(如日志、CSV 文件)。
2025-07-02 16:34:31
223
原创 Spark SQL to_json 函数介绍
在Apache Hive中,并没有内置的to_json函数。在Apache Spark SQL中确实有to_json函数,它可以用来将结构化数据(如结构化类型或MAP类型)转换为JSON字符串。这个功能对于需要将表格数据输出为JSON格式的场景非常有用。
2025-06-26 17:13:26
525
原创 shell脚本总结18:sed使用案例
将文件 test 中的所有逗号(,)和句点(.)替换为空格,并直接修改原文件。命令分解:以sed -i ‘s/,|./ /g’ test为例。2.实现:以下3种方法均可实现。
2025-06-24 16:51:03
224
原创 shell脚本总结17:sed命令的使用方法2
sed 是一种强大的命令行工具,用于在 Unix 和 Linux 系统中进行文本处理。它主要用于对文本文件进行查找、替换、插入和删除操作。
2025-06-23 14:51:20
214
原创 shell脚本总结16:sed命令的使用方法1
sed 是一种强大的命令行工具,用于在 Unix 和 Linux 系统中进行文本处理。它主要用于对文本文件进行查找、替换、插入和删除操作。
2025-06-18 11:28:23
155
原创 shell脚本总结15:grep命令的使用方法
grep 是一种在 shell 脚本中非常常用的命令行工具,用于搜索文件中的文本。它通过正则表达式来匹配并显示符合条件的文本行。
2025-06-10 20:07:16
288
原创 shell脚本总结14:awk命令的使用方法
awk 是 Shell 中用于文本分析和数据处理的强大工具,兼具脚本语言的灵活性。它特别适合处理结构化数据(如日志、CSV 文件)。
2025-06-04 16:54:45
176
原创 shell脚本总结13:head -c 和cut -c的区别
shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。
2025-06-03 14:52:12
344
原创 shell脚本总结12:自定义函数
shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。
2025-05-29 20:05:03
708
原创 shell脚本总结11
shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。
2025-05-28 17:02:14
546
原创 shell脚本总结10:case … esac 多选择语句
shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。
2025-05-28 11:23:45
417
原创 shell脚本总结9:until循环语句
shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。
2025-05-27 16:40:18
339
原创 cron表达式详解
Cron表达式是一个字符串,字符串以5或6个空格隔开,分为6或7个域,每一个域代表一个含义,Cron有如下两种语法格式:(1) Seconds Minutes Hours DayofMonth Month DayofWeek Year(2)Seconds Minutes Hours DayofMonth Month DayofWeek字段 允许值 允许的特殊字符备注:DayofWeek中 1 = 星期日;
2025-05-27 15:55:06
353
原创 shell脚本总结8:while循环语句
shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。
2025-05-26 11:21:28
426
原创 shell脚本总结7:for循环语句
shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。
2025-05-23 17:31:51
339
原创 shell脚本总结6:if条件判断语句案例
shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。
2025-05-23 14:20:53
420
原创 shell脚本总结5:if 条件判断语句
shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。If条件判断语句# If条件判断语句,通常以if开头,fi结尾。也可加入else或者elif进行多条件的判断 # 单分支语句 ---比较大小 if(条件表达式);then语句1fi # 双分支if 语句 if(表达式) 语句1 else 语句2。
2025-05-22 20:01:15
397
原创 shell脚本总结3
shell 是一种脚本语言。脚本:本质是一个文件,文件里面存放的是 特定格式的指令,系统可以使用脚本解析器 翻译或解析 指令 并执行(它不需要编译)shell 既是应用程序 又是一种脚本语言(应用程序 解析 脚本语言)。
2025-05-21 11:51:08
498
原创 TensorFlow之微分求导
在TensorFlow中,微分是个非常重要的概念。它们分别用于自动求导(计算梯度)和高效地处理数据。下面我将分别介绍这两个主题。
2025-05-13 16:44:12
438
原创 TensorFlow中数据集的创建
TensorFlow 的 tf.data.Dataset API 提供了一种灵活且高效的方式来加载和预处理数据
2025-05-09 17:11:23
458
原创 Keras模型保存、加载介绍
在TensorFlow中,保存和加载模型是机器学习工作流程中的重要步骤。这不仅有助于持久化训练好的模型以便后续使用,还可以实现模型的版本控制、部署和服务。SavedModel:推荐用于生产环境,因为它保存了完整的模型信息,并且具有良好的跨平台兼容性。HDF5:适用于简单的模型保存和加载需求,特别是当你需要与旧版本的 TensorFlow 或其他库兼容时。
2025-04-29 17:26:33
534
原创 Keras.datasets.fashion_mnist 函数介绍
keras.datasets.fashion_mnist是Keras中用于加载Fashion MNIST数据集的模块。Fashion MNIST数据集由Zalando公司提供,是一个用来替代经典MNIST手写数字数据集的图像数据集。与MNIST数据集中的数字图像不同,Fashion MNIST数据集包含的是服装相关的图像,更贴近实际应用场景。图像大小:每张图像为28x28像素的灰度图。类别数量:共有10个类别的服装。类别标签:T恤/上衣 (T-shirt/top)裤子 (Trouser)
2025-04-29 16:08:58
258
原创 REGEXP_REPLACE 函数的用法
参数说明source: string类型,要替换的原始字符串。pattern: string类型常量,要匹配的正则模式,pattern为空串时抛异常。replace_string:string,将匹配的pattern替换成的字符串。occurrence: bigint类型常量,必须大于等于0。大于0:表示将第几次匹配替换成replace_string。等于0:表示替换掉所有的匹配子串。其它类型或小于0抛异常。返回值。
2025-04-21 10:14:35
851
原创 Keras函数式API
Sequential 顺序模型封装了太多东西,不够灵活,如果你想定义复杂模型可以使用Keras的函数式API。使用函数式API可以直接操作张量,也可以把层当做函数来使用,接收张量并返回张量。
2025-04-17 19:59:27
249
原创 Keras使用1
评估标准 metrics. 评估算法性能的衡量指标.对于分类问题, 建议设置为metrics =[‘accuracy’].评估标准可以是现有的标准的字符串标识符,也可以是自定义的评估标准函数。优化器 optimizer:可以是Keras定义好的优化器的字符串名字,比如’rmsprop’也可以是Optimizer类的实例对象.常见的优化器有: SGD,训练模型: 使用.fit()方法,将训练数据,训练次数(epoch), 批次尺寸(batch_size)传递给fit()方法即可.
2025-04-11 11:39:02
311
原创 Keras简介
Keras 是一个高级神经网络API,它以简单性和快速实验设计为目标。Keras 既可以作为独立工具使用,也可以作为 TensorFlow、Microsoft Cognitive Toolkit (CNTK) 和 Theano 等后端的接口。
2025-04-10 16:50:09
557
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人