研究一：我与cv（Computer Vision）的前生今世_计算机视觉方向研一新生的暑期总结和新学期规划-CSDN博客

本文链接：https://blog.csdn.net/y18855021710/article/details/130485022

作者在研究生期间选择了计算机视觉作为研究方向，最初因缺乏基础知识和指导感到焦虑。通过学习，他了解到计算机视觉涉及深度学习和图像识别，但面临硬件限制和复杂算法的挑战。在尝试部署算法到硬件上时遇到困难，对深度学习的热情也因此减退，最终决定转向其他研究方向。

摘要由CSDN通过智能技术生成

研究生生涯：学习总结

计算机视觉这个方向是一个非常大的研究方向，我在研一上学期就开始研究这个命题，并准备作为自己的研究方向，但是后来发现这个研究方向比较坑爹，所以才在转到其他的方向。具体这个行业，或者说这个方向有什么坑爹的地方，看完我的学习记录你就明白了。

前言

什么是计算机视觉？什么是计算机视觉(CV)？计算机视觉的价值、原理、应用和研究-网易伏羲 (163.com)

计算机视觉(CV)是人工智能(AI)的一个领域，使计算机能够复制人类视觉系统，以帮助计算机理解和解释数字图像和视频的内容。整个过程涉及图像获取、筛选、分析、识别和提取信息。如果说人工智能(AI)使计算机能够思考，那么计算机视觉则使它们能够看到、观察和理解。

一、我与她既定的相遇

曾记得研0的我去问一个研三的师姐我应该在暑假忙些什么的时候，师姐让我去看看关于使用图像识别的论文。我记得非常坑爹的是我学校不好，连最基础的深度学习，卷积神经网络都没听过，所以师姐说一些图片分类还有几个重点的关键词让我搜搜来看论文了解。但是啥也不懂的我直接看那些论文看蒙了。

也正因为看到的论文都是关于图片分类的，所以我单纯的建立起来了一种观念：计算机视觉（cv）就是关于图像识别并且做分类的，具体用到的方法就是深度学习，机器学习啥的。

二、我与她深一步的交流

1.我的焦虑

研一上学期是我最焦虑的时候，经常半夜睡不好。主要原因是选择方向，因为不想走嵌入式这个方向，总觉得没啥意思。问了师兄，有一个师兄做的是SLAM方向，虽然听过，且了解一些，但是听说实验室没有小车（SLAM对硬件要求非常高），都是在做理论算法分析的，所以立马转向了CV这个反向。

2.思而不得

任何一个方向都需要有人帮你入门，CV这个方向前置要求是深度学习。关于这点我当时一点头绪都没有，尤其是问那位师姐，她一直在给我打马虎眼。后来我也明白她也懂得不多，学的就只是凑乎凑乎毕业用的，找工作cv尤其卷，她后面找的也是嵌入式方面的工作。一听这个方向找不到工作+啥也不会，所以压力瞬间上来了。有段时间头一直疼，吃了抗抑郁的药都不管用，加上研一分配得到实验室就我一个人去的。可想而知，当时整个人都沉到了低谷。

啥都不会那就去学呀，但可怕的是一个可以交流的人都没有。所以焦虑一直持续到了十月底，后面到第二年的一月份（在学校期间）都在学习了解机器学习（期间还一直上学校要求的课）

主要跟的课是：台湾李宏毅老师的机器学习的课（目前已经更新到了2023版本了，”啥都生“分享的课程：）
【授权】李宏毅2023春机器学习课程_哔哩哔哩_bilibili

我才开始明白机器学习、深度血迹、卷积神经网络、是什么东西。当时粗略的了解了一下什么是CPU、什么是GPU。突然意识到一件事情：我电脑5899买的好像跑不了yolov3（当时师姐毕业改进的算法），准确说是训练不了权重，而且测试cpu识别的效果贼卡。

研一上学期就这样过去了，啥都没学到，可能就懂了一些深度学习是个啥，python大致学了一遍也没能得多明白。但同寝室的室友不同老师带的已经开始弄资金项目了，所以更难受了。值得庆幸的是我联系到了另外两个同门，向他们传递焦虑.jpeg。（哈哈哈）

3.揭开面纱

因为毕业的要求，我明白师姐的方向在继续研究下去要么就是修改yolo框架实现进一步有效的算法优化，要么就是在师姐算法的基础之上实现部署（将深度学习算法部署当硬件上），所以我自掏腰包买了一个树莓派4，以及nano(Nvidia Jetson Nano)，花了老长时间研究环境配置（当时实验室没网，手机100G流量一周跑光），但是发现两个都跑不起来，非常的卡。适逢涨价了一波，计划着二手就卖出去了。老师听说我买了一个nano，问我效果好不好，我说不好，他说他也想弄个硬件来部署算法（于是老师耗费巨资买了一块NX）。估计是想让我混搭混搭毕业就好。那怎么可以，我那么会整事。

所以在博客早期见到的都是关于jetson怎么刷系统、换载板、部署问题。

(102条消息) NX torchvision巨坑_灵性花火的博客-CSDN博客

写文章-CSDN创作中心

这个阶段每天都是负面情绪，就和坐牢一样，所以就没敢多写博客，都是泪。

三、爱理不理

部署上插上了一个usb摄像头，发现效果还是挺卡（后来研究发现是没开GPU模式）。加上深入了解这个算法才发现这个算法基本上是改不了的（大佬优化到极致的代码），顶多我们来修改部分结构，换个网络，但是最终效果嘛，不好说。

还有一件事情忘记说了，深度学习在图片分类这块和数据集联系非常密切，可以说好的数据集就意味着成功了一半。离谱是师姐居然训练一个奇差无比的数据集，最后效果能达到90%以上。我自己训练第一次能把我自己识别成缺陷，第二次训练识别自己是个人的概率才40%多（合着我就不是人了呗）。（更重要的是她不给我权重）所以我就立马跑了路。

或许这可能是我到现在都不喜欢深度学习的原因了吧