算法工程师老潘总结的一些经验

最新推荐文章于 2024-09-02 21:02:41 发布

www_xuhss_com

最新推荐文章于 2024-09-02 21:02:41 发布

阅读量254

点赞数

分类专栏： it 文章标签：算法 python flask 计算机

本文链接：https://blog.csdn.net/www_xuhss_com/article/details/125057268

版权

本文是算法工程师老潘的经验总结，涉及数据处理、模型训练、模型优化、部署策略等方面。老潘强调了数据预处理的重要性，分享了如何处理坏图、预标框数据的技巧，并指出模型指标的选择应结合实际应用场景。他还提醒，loss和准确率并非正比关系，测试集的选取至关重要。此外，文章讨论了模型上线的各种方式，如pytorch+flask、TensorRT等，并提到了模型转换后的输出差异。最后，老潘强调了训练集、验证集和测试集的角色，并推荐了相关资源。

摘要由CSDN通过智能技术生成

🚀 优质资源分享 🚀

学习路线指引（点击解锁）	知识定位	人群定位
🧡 Python实战微信订餐小程序 🧡	进阶级	本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。
💛Python量化交易实战💛	入门级	手把手带你打造一个易扩展、更安全、效率更高的量化交易系统

算法工程师老潘总结的一些经验

前一段时间一直在优化部署模型。这几天终于来了需求，又要开始重操训练一些新模型了。趁着这次机会总结了下之前的一些训练模型的笔记，可能比较杂，抛砖引玉！当然这是不完全统计的经验，除了训练部分，还有很多部署的坑没有写。

算法工程师50%的时间是和数据打交道，有时候拷贝数据（分别从多个文件夹拷贝到某一文件夹）；有时候筛选数据（过滤掉一些质量不好的数据）；有时候把数据换个名字、加个前缀（为了后续训练的时候区分数据的特性，比如多尺度、多种图像增强策略）等等，这些工作可能一个月要重复n多次，因此最好总结起来；可以用Python或者shell脚本来处理，或者用jupyter notebook存自己常用的文件处理代码。
如果你不清楚拿到数据的来源和可靠度，可以先用 find ./ -size -1k -exec rm {} \ 等命令简单过滤一下，刚才这个命令是扫描1k（或者其他值）以下的损坏图像并删除掉，当然也可以设置其他的参数。很多时候给你的图不一定都是正常的图，最好提前筛一遍，要不然后续处理很麻烦。
并不所有的数据都已经有标注信息，如果收集了一批数据要拿去标注，正好公司也有标注人力，可以尝试将这批数据打上预标框让他们再去调整或者补充标框，这样效率更高些。至于预标框怎么打，可以先让模型训练一小批数据，训练个召回率高的小模型，然后预测打框就可以，也可以用一些老模型打框；不过有一个现象比较神奇，标注人员在标注的时候，对于有预标框的数据，标注的质量反而变差了，虽然速度上来了，这是因为大部分标注人员不想调整，这时候需要你好好监督一下，要不然后续模型精度上不去大概率就是数据的问题。
有时候模型的指标不仅仅看准招，当模型给别人提供服务的时候，要看PM那边怎么看待这个模型输出结果在实际场景中的使用效果；对于检测模型最终的输出分数，最终给到使用方的框一般是根据你取得分数阈值来设，设的低一点，那么框就多一点（召回率高），设的高一点，那么框就少一点（准确度高）；不同方式不同场景设置不同的阈值有不同的效果，说

最低0.47元/天解锁文章

www_xuhss_com

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
算法工程师老潘总结的一些经验

🚀 优质资源分享 🚀学习路线指引（点击解锁）知识定位人群定位🧡 Python实战微信订餐小程序 🧡进阶级本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯云部署上线，打造一个全栈订餐系统。💛Python量化交易实战💛入门级手把手带你打造一个易扩展、更安全、效率更高的量化交易系统算法工程师老潘总结的一些经验前一段时间一直在优化部署模型。这几天终于来了需求，又要开始重操训练一些新模型了。趁着这次机会总结了下之前的一些训练模型的笔记，可能比较杂，
复制链接

扫一扫