吃pepper的dog酱-CSDN博客

原创 Hive分析窗口函数(LAG),(LEAD),(FRIST_VAIUE),(LAST_VAIUE)

数据准备结果如下所示。

2023-08-22 11:42:07 179

UNBOUNDED：起点，UNBOUNDED PRECEDING 表示从前面的起点， UNBOUNDED FOLLOWING：表示到后面的终点。对pv进行逐个相加，并以日期正序进行排序，其输出结果如下所示，pv1为pv中当前数据之前所有数据之和。sum函数实现分组内和的统计和连续累计的统计，可以做任意行相加。创建一个名为data的表，表内数据及存储位置可自定义。如果不指定ROWS BETWEEN,默认为从起点到当前行;如果不指定ORDER BY，则将分组内所有值累加;pv2数据为该数据加前三行的数据相加。

2023-08-22 09:35:04 302

原创 RDD文件创立

值得注意的是,在未给定分区数时,默认分区数为计算机中cpu核的数量,getNumPartition()方法返回分区数量。wholeTextfile同样是读取文件的API,该API适合读取大批量的小文件,其语法规则与textfile相同.参数2为最小分区数量,超出spark允许的范围时,参数2失效,该参数可以不设置。值得注意的是其文件路径选择为文件夹,而textfile文件路径选择为单个文件。其中参数1为文件路径,可以为hdfs文件路径,也可以为本地文件路径。导入pyspark包。

2023-07-15 20:11:09 134

原创 PySpark中RDD五大特性

RDD数据在确保并行计算能力下,读取的时候分区会尽量规划到存储数据所在的服务器上,可以通过本地读取避免网络读取,本地读取性能>>网络读取.定义的函数会作用到RDD所有分区中,例如map(lambda x : x * 10)函数将数据乘10。默认分区器为hash分区规则,手动设置分区器(rdd.partitionBy的方法来设置)RDD分区是数据存储的最小单位,一份RDD数据本质上是隔成了多个分区。RDD的迭代计算,由1个RDD通过不同方法生成其他RDD。分区是物理概念,是代码底层实体。

2023-07-15 17:37:33 273

原创图像边缘检测(canny检测附完整代码与输出样例)

本文从0开始实现了对图像的边缘检测并附上完整的代码与运行结果

2023-03-20 10:40:04 2002 2

原创 GIS中的深度学习与其应用

作为机器学习中很重要的一个分支，深度学习的应用在近20年有了爆发式的增长，深度学习算法也在提出的同时不断被完善，在具体的应用层面上得到了很多发展。GIS是控件地理信息系统的简称，它以地理空间为基础，采用地理模型分析方法，实时提供多种空间和动态的地理信息，是一种为地理研究和地理决策服务的计算机技术系统。近些年来深度学习与GIS相结合应用到许多领域中，例如在智能交通中的图像识别、语义分割，智能驾驶中的决策、感知，环境中的灾难监测预测等。证实了深度学习与GIS的结合是一个十分有潜力的方向。

2022-12-19 21:56:42 2833

原创基于机器学习的碳市场预测研究进展

碳排放交易是国际公认的一种有效的碳减排机制，自2005年欧盟碳排放交易体系成立以来，国际碳排放交易市场已经运行了12年，而中国的碳市场试点只有三年，仍面临碳交易价格形成机制不成熟、信息传导不通畅、碳交易工具不完善和碳市场活跃度不高等问题。由于碳排放水平高，我国碳排放交易市场发展空间巨大。欧盟和中国在经济结构和节能减排（ESER）情况上存在较大差异，在碳交易的背景和基本条件上仍存在诸多差异。欧盟和中国的一个共同点是，碳交易是缓解环境危机和促进ESER的成本效益措施。

2022-11-18 14:22:20 3577 6

原创训练深层网络

批量规范化（batch normalization）在训练深层网络时是一种很好的思路，可持续加速深层网络的收敛速度。批量规范化的原理是：在每次训练迭代中，首先规范化输入—即通过减去其均值并除以其标准差，其中两者均基于当前小批量处理。只有使用足够大的小批量，批量规范化这种方法才是有效且稳定的。

2022-11-03 15:54:33 220

原创卷积神经网络（GoogleNet）学习日志—基于pytorch框架

GoogLeNet将多个设计精细的Inception块与其他层（卷积层、全连接层）串联起来。其中Inception块的通道数分配之比是在ImageNet数据集上通过大量的实验得来的

2022-11-03 12:13:19 368

原创卷积神经网络（NiN）学习日记——基于pytorch框架

NiN去除了容易造成过拟合的全连接层，将它们替换为全局平均汇聚层（即在所有位置上进行求和），该汇聚层通道数量为所需的输出数量，移除全连接层可减少过拟合，同时显著减少NiN的参数。

2022-11-02 17:34:08 240

原创卷积神经网络（Alex Net）学习日记

AlexNet在设计理念上贯承了LeNet的结构，深度比LeNet更加深，AlexNet使用ReLU而不是sigmoid作为其激活函数，随着深度加深其卷积运算窗口逐渐减少。小结：AlexNet是由浅层网络到深度网络的关键一步，而采用ReLu作为激活函数能有效的解决梯度消失与初始化的问题。

2022-11-02 17:04:52 354

原创卷积神经网络学习日记（VGG）学习日记

VGG神经网络首次采用了卷积块定义网络，这给我们构建深度网络提供了良好的思路

2022-11-02 17:03:47 208

原创 python学习日记（分组运算）

基于Pandas与Numpy，我们可以执行许多复杂的分组运算GroupBy分组机制第一个阶段，pandas对象（无论是Series、DataFrame还是其他的）中的数据会根据我们所提供的一个或多个键被拆分（split）为多组。拆分操作是在对象的特定轴上执行的。例如，DataFrame可以在其行（axis=0）或列（axis=1）上进行分组。然后将一个函数应用（apply）到各个分组并产生一个新值。最后，所有这些函数的执行结果会被合并（combine）到最终的结果对象中。结果对象的形式一般取决于数据

2022-05-27 11:03:28 601

原创 python学习日记（基于pandas与seaborn库的绘图及可视化）

使用pandas与seaborn等库会使我们工作效率大大提高。在pandas中，我们有多列数据，还有行和列标签。pandas自身就有内置的方法，用于简化从DataFrame和Series绘制图形。另一个库seaborn（https://seaborn.pydata.org/），由MichaelWaskom创建的静态图形库。Seaborn简化了许多常见可视类型的创建。seaborn会修改matplotlib默认的颜色方案和绘图类型，以提高可读性和美观度。即使你不使用seaborn API，你.

2022-05-26 10:42:45 789

原创 python学习日记（绘图及可视化）Matplotlib方法

信息可视化（也叫绘图）是数据分析中最重要的工作之一。它可能是探索过程的一部分，例如，帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外，做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化，但我这里重要关注于matplotlib（http://matplotlib.org/）和基于它的库。1、安装及导入matplotlib与numpy库打开cmd，输入pip install matplotlib pip install numpy输入pi.

2022-05-25 20:37:03 371