- 博客(16)
- 收藏
- 关注
原创 Hive窗口函数(SUM)
UNBOUNDED:起点,UNBOUNDED PRECEDING 表示从前面的起点, UNBOUNDED FOLLOWING:表示到后面的终点。对pv进行逐个相加,并以日期正序进行排序,其输出结果如下所示,pv1为pv中当前数据之前所有数据之和。sum函数实现分组内和的统计和连续累计的统计,可以做任意行相加。创建一个名为data的表,表内数据及存储位置可自定义。如果不指定ROWS BETWEEN,默认为从起点到当前行;如果不指定ORDER BY,则将分组内所有值累加;pv2数据为该数据加前三行的数据相加。
2023-08-22 09:35:04 221
原创 RDD文件创立
值得注意的是,在未给定分区数时,默认分区数为计算机中cpu核的数量,getNumPartition()方法返回分区数量。wholeTextfile同样是读取文件的API,该API适合读取大批量的小文件,其语法规则与textfile相同.参数2为最小分区数量,超出spark允许的范围时,参数2失效,该参数可以不设置。值得注意的是其文件路径选择为文件夹,而textfile文件路径选择为单个文件。其中参数1为文件路径,可以为hdfs文件路径,也可以为本地文件路径。导入pyspark包。
2023-07-15 20:11:09 114
原创 PySpark中RDD五大特性
RDD数据在确保并行计算能力下,读取的时候分区会尽量规划到存储数据所在的服务器上,可以通过本地读取避免网络读取,本地读取性能>>网络读取.定义的函数会作用到RDD所有分区中,例如map(lambda x : x * 10)函数将数据乘10。默认分区器为hash分区规则,手动设置分区器(rdd.partitionBy的方法来设置)RDD分区是数据存储的最小单位,一份RDD数据本质上是隔成了多个分区。RDD的迭代计算,由1个RDD通过不同方法生成其他RDD。分区是物理概念,是 代码底层实体。
2023-07-15 17:37:33 232
原创 GIS中的深度学习与其应用
作为机器学习中很重要的一个分支,深度学习的应用在近20年有了爆发式的增长,深度学习算法也在提出的同时不断被完善,在具体的应用层面上得到了很多发展。GIS是控件地理信息系统的简称,它以地理空间为基础,采用地理模型分析方法,实时提供多种空间和动态的地理信息,是一种为地理研究和地理决策服务的计算机技术系统。近些年来深度学习与GIS相结合应用到许多领域中,例如在智能交通中的图像识别、语义分割,智能驾驶中的决策、感知,环境中的灾难监测预测等。证实了深度学习与GIS的结合是一个十分有潜力的方向。
2022-12-19 21:56:42 2361
原创 基于机器学习的碳市场预测研究进展
碳排放交易是国际公认的一种有效的碳减排机制,自2005年欧盟碳排放交易体系成立以来,国际碳排放交易市场已经运行了12年,而中国的碳市场试点只有三年,仍面临碳交易价格形成机制不成熟、信息传导不通畅、碳交易工具不完善和碳市场活跃度不高等问题。由于碳排放水平高,我国碳排放交易市场发展空间巨大。欧盟和中国在经济结构和节能减排(ESER)情况上存在较大差异,在碳交易的背景和基本条件上仍存在诸多差异。欧盟和中国的一个共同点是,碳交易是缓解环境危机和促进ESER的成本效益措施。
2022-11-18 14:22:20 2865 6
原创 训练深层网络
批量规范化(batch normalization)在训练深层网络时是一种很好的思路,可持续加速深层网络的收敛速度。批量规范化的原理是:在每次训练迭代中,首先规范化输入—即通过减去其均值并除以其标准差,其中两者均基于当前小批量处理。只有使用足够大的小批量,批量规范化这种方法才是有效且稳定的。
2022-11-03 15:54:33 191
原创 卷积神经网络(GoogleNet)学习日志—基于pytorch框架
GoogLeNet将多个设计精细的Inception块与其他层(卷积层、全连接层)串联起来。其中Inception块的通道数分配之比是在ImageNet数据集上通过大量的实验得来的
2022-11-03 12:13:19 334
原创 卷积神经网络(NiN)学习日记——基于pytorch框架
NiN去除了容易造成过拟合的全连接层,将它们替换为全局平均汇聚层(即在所有位置上进行求和),该汇聚层通道数量为所需的输出数量,移除全连接层可减少过拟合,同时显著减少NiN的参数。
2022-11-02 17:34:08 214
原创 卷积神经网络(Alex Net)学习日记
AlexNet在设计理念上贯承了LeNet的结构,深度比LeNet更加深,AlexNet使用ReLU而不是sigmoid作为其激活函数,随着深度加深其卷积运算窗口逐渐减少。小结:AlexNet是由浅层网络到深度网络的关键一步,而采用ReLu作为激活函数能有效的解决梯度消失与初始化的问题。
2022-11-02 17:04:52 314
原创 python学习日记(分组运算)
基于Pandas与Numpy,我们可以执行许多复杂的分组运算GroupBy分组机制第一个阶段,pandas对象(无论是Series、DataFrame还是其他的)中的数据会根据我们所提供的一个或多个键被拆分(split)为多组。拆分操作是在对象的特定轴上执行的。例如,DataFrame可以在其行(axis=0)或列(axis=1)上进行分组。然后将一个函数应用(apply)到各个分组并产生一个新值。最后,所有这些函数的执行结果会被合并(combine)到最终的结果对象中。结果对象的形式一般取决于数据
2022-05-27 11:03:28 556
原创 python学习日记(基于pandas与seaborn库的绘图及可视化)
使用pandas与seaborn等库会使我们工作效率大大提高。在pandas中,我们有多列数据,还有行和列标签。pandas自身就有内置的方法,用于简化从DataFrame和Series绘制图形。另一个库seaborn(https://seaborn.pydata.org/),由MichaelWaskom创建的静态图形库。Seaborn简化了许多常见可视类型的创建。seaborn会修改matplotlib默认的颜色方案和绘图类型,以提高可读性和美观度。即使你不使用seaborn API,你.
2022-05-26 10:42:45 746
原创 python学习日记(绘图及可视化)Matplotlib方法
信息可视化(也叫绘图)是数据分析中最重要的工作之一。它可能是探索过程的一部分,例如,帮助我们找出异常值、必要的数据转换、得出有关模型的idea等。另外,做一个可交互的数据可视化也许是工作的最终目标。Python有许多库进行静态或动态的数据可视化,但我这里重要关注于matplotlib(http://matplotlib.org/)和基于它的库。1、安装及导入matplotlib与numpy库打开cmd,输入pip install matplotlib pip install numpy输入pi.
2022-05-25 20:37:03 338
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人