泡在水果里的冰-CSDN博客

原创 spark dataframe某列转为scala list[string]

spark dataframe的某列转为 scala list[string]

2022-07-01 14:01:37 947

原创 hiveSQL中的split函数(split(‘‘,‘‘)[0]语法错误的问题)

hiveSQL中的split函数还挺矫情；首先，split之后必须跟as，例：SELECT split('my_q','_'); #报错SELECT split('my_q','_') as C #正确其次如果想取split之后数组中的元素，必须进行子查询：SELECT b.a_1[0] as a_1_1, #split之后再进行子查询，选择split之后数组中的元素 b.a_1[1] as a_1_2, b.a_2[0] as a_2_1, b

2022-02-22 14:13:14 4789 2

转载 pyspark的窗口函数--Window、over

1.Rank Function 与排序相关的窗口函数首先，假设我们的数据是如下形式：# spark = SparkSession.builder.appName('Window functions').getOrCreate()employee_salary = [ ("Ali", "Sales", 8000), ("Bob", "Sales", 7000), ("Cindy", "Sales", 7500), ("Davd", "Finance",

2022-02-07 19:33:22 2887

原创 pandas_udf频繁报错解决方案

唉，这玩意怎么就变成玄学了呢… 还是我太菜啊；百度说：要把pyarrow降到0.14.0，就奇了怪了，我一安装0.14.0，我的程序就完全找不见pyarrow了…因此一怒之下还是直接用最新的pyarrow7.0.0版本；然后根据百度提示，设置spark_session:spark_session = SparkSession.builder \ .master("yarn") \ .config('spark.yarn.appMasterEnv.A

2022-02-07 17:43:49 1733

转载 pandas给dataframe赋值

转载：https://blog.csdn.net/u012300744/article/details/80803498今天在给dataframe进行条件赋值时遇到如下问题：如果df_need中的字段1为空值，那么就把字段2的值赋值给字段1：df_need[df_need['字段1'].isnull()].loc[:,'字段1']=df_need[df_need['字段2'].isnull()].loc[:,'字段2']但是这样的作法是完全无用的，df_need的值没有发生任何变化。于是找到了如

2022-01-20 10:39:24 1969

原创 pyhive报错Could not start SASL: b‘Error in sasl_client_start (-4) SASL(-4) ~ 挣扎了一个月终于解决

在用pyhive访问hive时，需要安装sasl，在安装sasl时，提示要安装visual studio 才行，但是由于安装visual studio 需要管理员权限，遂放弃；同事说，他是从官网下载了sasl wheel文件，然后直接安装sasl包，就可以用了；另一位同事做了亲自验证，也可用，可是，在我的电脑上怎么都不行！！！于是今天，还是找了IT安装了visual studio，然后从官网下载了sasl包，直接OK！网上说的什么修改注册表之类的对我统统无用！！乖乖安装visual studio吧

2022-01-19 15:29:47 2473 1

原创 OS模块系统学习

1.获取当前的工作路径：os.getcwd()os.getcwd()输出结果：**************************** 得到当前的工作路径 **************************************************D:\电源系统-大数据\大数据\ZRTpycharm\try获取某一路径下的所有文件夹和文件：os.listdir()os.listdir('D:\ExtraWarningRoutine\OriginData\SWD1')输出结果：*

2022-01-10 17:28:37 188

原创箱型图绘制过程中的python程序整理-2021/11/26

1.设置Matplotlib字体为黑体：matplotlib.rcParams['font.family'] = 'SimHei'2.按照某一列进行聚类，并提出某一类：比如dataframe有一列为 [a,b,c,c,d,a,a,b,b]，按照a,b,c,d对该dataframe进行聚类，并提取a列：list=np.array(df.loc[:,'abc'].unique() ##某一列uniquedf_1=df.groupby([list]) ##按照list进行聚类df_1.get_gro

2021-11-26 12:46:03 1296

原创输出keras模型每一层名称

run_code ="model_CNN_New.h5"##模型名称model = load_model(run_code) ##读取模型print(model.summary()) ##输出模型结构

2021-04-05 21:19:27 790

原创判断两个dataframe中是否有不相等的数，如果有，则将某列添加标签1

####比较a，b数组a=pd.DataFrame([[1,2,3,4],[1,2,3,4],[1,2,3,4]])b=pd.DataFrame([[5,6,3,4],[5,6,3,4],[1,2,3,4]])###判断a,b数组是否相等，保存至c中c=pd.DataFrame(a==b)###给c添加l列，l列中保存标签c['l']=''###一列一列查看for i in np.arange(c.shape[0]): if c[i].all()==True: .

2021-03-24 16:30:41 365

原创 matplotlib（绘制sigmoid函数）(更改坐标轴为十字型坐标轴、添加x、y标注位置)

x=np.arange(-5,5,0.2)y=1/(1+np.exp(-x)) #生成x,yfig, ax = plt.subplots()plt.plot(x,y,label='sigmiod函数') #plot绘制基本图ax.spines['right'].set_visible(False)ax.spines['top'].set_color('none')ax.xaxis.set_ticks_position('bottom')ax.spines['bottom'].set_p.

2021-03-22 15:57:41 2277

原创 Matplotlib常用汇总（更改x轴刻度显示的内容、刻度旋转、）

import pandas as pdimport numpy as npimport matplotlib.pyplot as plt更改x轴刻度显示内容：x轴要显示为如下name中的标签；同时刻度要旋转30度；注意name为一个listnames=['0-20','20-40','40-60','60-80','80-100','100-120','120-140','140-160','160-180','180-200','200-220','220-240','240-260'...

2021-03-19 10:12:42 13390

原创（我的代码记录）CNN可视化——健康数据各个维度可视化

print('data is ready')run_code='model_CNN_health_2.h5'# run_code=Nonefrom keras.models import Modelmodel = load_model(run_code)layer_name='flatten'intermediate_layer_model = Model(inputs=model.input,outputs=model.get_layer(layer_name).output).

2021-03-01 14:21:28 460

原创 dataframe布尔索引赋值

df_2.loc[df_2['TQMOD_VAR_TRQ_ACT_W']>1500,'TQMOD_VAR_TRQ_ACT_W']=df_2.loc[df_2['TQMOD_VAR_TRQ_ACT_W']>1500,'TQMOD_VAR_TRQ_ACT_W']-800

2020-12-22 21:19:01 682

原创将dataframe 写入excle中

import numpy as npimport pandas as pddef read_56008(): df_2=pd.read_csv('56008/Diesel_LFWSRXSJ1K1E56008_2020-04-23_394.csv') return df_2corr_label=(['API_PosnThrFb','AIC_MfCyl','AIC_MfEgr','AIC_MfExh','API_PEgFb','EBP_VAR_W','EGRPR_VAR_FILT_.

2020-11-16 14:19:20 1062

原创 python 调用sklearn 归一化和标准化、训练集验证集随机划分

#Z-Score标准化from sklearn.preprocessing import StandardScalerscaler = StandardScaler()scaler.fit(train_X)data_1 = scaler.transform(data_1)#最大最小值归一化from sklearn.preprocessing import MinMaxScalerscaler = MinMaxScaler()data_1 = scaler.transform(data.

2020-09-20 16:08:46 1402

原创我的代码记录——离散型自编码器模型训练

import matplotlib.pyplot as pltimport numpy as npimport pandas as pddf_1=pd.read_csv('51412/Diesel_LFWSRXSJ1K1F51412_2020-03-02_382.csv')df_2=pd.read_csv('51412/Diesel_LFWSRXSJ1K1F51412_2020-02-29_382.csv')df_3=pd.read_csv('51412/Diesel_LFWSRXSJ1K1F.

2020-09-16 08:52:36 423 1

原创我的代码记录——离散点重构误差计算代码、滤波

import matplotlib.pyplot as pltimport numpy as npimport pandas as pdfont1 = {'family' : 'SimSun','weight' : 'normal','size' : 15}df_1=pd.read_csv('51412/Diesel_LFWSRXSJ1K1F51412_2020-03-01_382.csv')df_2=pd.read_csv('51412/Diesel_LFWSRXSJ1K1F51412_.

2020-09-15 22:16:00 652

原创每日工作记录

2020/09/11

2020-09-11 10:37:45 173

原创我的代码整理（将数字保存在excel表中）

import xlwtworkbook = xlwt.Workbook(encoding = 'UTF-8')worksheet = workbook.add_sheet('My Worksheet')#worksheet.write(0, 0, file_name) # 不带样式的写入worksheet.write(0, 1, 'start') # 对第0行第0列进行不带样式的写入worksheet.write(0, 2, 'end') # 不带样式的写入worksheet.write(.

2020-09-11 10:34:06 227

原创我的代码整理（图片字体设置、转速条形图、饼状图、扭矩条形图、饼状图、某一天的所有状态参数、三维图）

代码调用import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport osimport copy字体设置#################代码及说明font1 = {'family' : 'SimSun','weight' : 'normal','size': 15,} #SimSun宋体 Times New Roman新罗马字体定义一个font字典来存储字体格式设置字体.

2020-09-11 10:30:30 213

原创【自留】DataFrame索引及常见错误

1. 想要用第几行第几列的形式索引：如第一行第二列df=pd.read_csv('the_ans.csv')print(df.iloc[1,2]) #iloc ：用position来去定位iloc与loc的区别：df.iloc[ 0：5]，选择0-5行的所有值df.iloc[ ：, 0：2]，选择前两列的所有值df.loc[0]，按索引选择index为0的那一行的值df.loc[0，‘列名’]，选择按索引选择index为0那一行‘列名’那列的值例：有一个数据表如下：

2020-09-11 09:44:33 1691

原创 python日常小技巧总结

2020/6/19 让填充之后的数据以列的形式显示提取数据之后，利用append()进行填充；但填充完之后是横向排列的，阅读起来十分不方便。想要让它变成竖向排列，可以将其添加标签，变为dataframe形式。x=[1,2,3,4,5,6,7,8,9]y=[]for i in x: y.append(i)print(y) #这样输出的y是横向排列的y=pd.dataframe(y,index=[x]) #这样会以dataframe的形式竖向排列。...

2020-06-19 17:24:17 193

原创 python中一次存储多张图片（for循环生成的图片）

在for循环语句中，每循环一次就要生成一张图片，可以按照以下方法将照片自动保存：1.plt.savefig("D:/figures/temp{}.png".format(i))2.plt.clf()示例：#导入两个包import matplotlib.pyplot as pltimport numpy as np#数据准备x = np.arange(27)x = np.reshape(x, (3,9))#建立for循环语句，绘制x的前三列for i...

2020-05-29 12:45:03 19906 1

原创 win10 Tensorboard结果可视化记录

条件：1. pycharm2.谷歌浏览器+vpn3.修改计算机名称为localhost——————————————————————————————————————————————————————正文：如果你是使用pycharm的话，恭喜你，做了正确的选择........假如要打开的Log文件存储在C盘，那一般win10打开默认路径就是C盘，不需要做改动，但如果Log文件保存在D盘或者E盘，一定要先把路径更改到你的文件保存的盘中，例如，我的log文件保存在D盘，那么先输入：#

2020-05-24 12:37:26 295

原创代码学习笔记之np.vstack的妙用（逐次填充空数组）

这里写自定义目录标题新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 for j in range(batches_per_epoch):#batch_size的意思应该是一批就要训练80个，如果一批训练40个

2020-05-22 11:25:37 1348

weixin_45736572的博客