python代码制作数据集的测试和数据质量检测思路 本文指的数据集为通用数据集,并不单是给机器学习领域使用。包含科研和工业领域需要自己制作数据集的。首先,在制作大型数据集时,代码错误和数据问题可能会非常复杂。前期逻辑总是简单的,库库一顿写,等排查的时候两眼无泪。后期慢慢摸排和检查的时候不断完善代码,前期代码主要是完成功能,后期是增加维护性和检测性。这部分工作其实前期可以考虑进去。以下提供一些血泪经验。
python程序对服务器cpu和内存资源占用的管理。 cgroups(控制组)是一种Linux内核功能,用于限制、记录和隔离进程组的资源使用(如CPU、内存、磁盘I/O等)。在服务器上部署了一套目标检测的程序,做成while true 的轮询检测数据更新的定时任务。所以寻思给程序加个资源占用的限制,跑慢一点没关系。服务器上设置则更适合于生产环境,因为它利用了操作系统提供的资源管理工具,更加灵活和强大。如果你的Python程序是通过systemd管理的,可以在服务文件中设置资源限制。代码中设置适用于需要更细粒度的控制,并且不依赖于操作系统特性的情况。
笔记2024 pip源][docker]查看镜像:docker psbuild:导出父镜像(本地192.100.30.208 root/admin):导入父镜像:拉取代码:构建镜像:在代码所在目录,前提是有Dockerfile文件。
时间步长问题。tensorflow训练lstm时序模型,输出层实际输出维度和期待维度不一致 input_shape填两个参数值,第一个值代表指定的时间步长。后来对比了以前跑过的文件。发现LSTM少定义一个参数。输入y 维度(2250,) 和 (2250,1)但模型预测出的结果维度都是(2250,48,1)模型预测值维度为(2250,1)但结果跑出来的输出维度每次都是三维的。输入x维度(2250,48,2)我就很纳闷= =!第二个值是特征数目。
解决 pandas concat | ValueError: cannot insert,already exists 报错原因:索引数据在原表中已经存在,reset_index函数默认重置索引的时候会把索引数据放回表里。如果已经存在就会报错。只需要添加drop参数即可。
重采样的常用算法resample 三次样条插值(Cubic Spline Interpolation):通过构建一个三次多项式函数来拟合已知数据点,并使用该函数来计算新数据点的值。线性插值(Linear Interpolation):通过在两个已知数据点之间插入新的数据点,使得新数据点的值在这两个已知数据点之间线性分布。最近邻插值(Nearest-neighbor Interpolation):将新数据点的值设置为距离最近的已知数据点的值。这种方法适用于数据变化较为剧烈的情况,但可能会导致数据的突变。
gradio运行示例及解决gradio运行报错:UnicodeDecodeError:‘gbk‘ codec can‘t decode byte 0xb2 in position 1972 解决gradio报错问题
解决tensorflow/keras报错:ValueError: Input 0 of layer sequential is incompatible with the layer 解决报错 ValueError: Input 0 of layer sequential is incompatible with the layer: expected ndim=3, found ndim=2. Full shape received: (None, 72)