百度飞桨应用实战暨《Python小白逆袭大神》课程学习记录及心得

本文链接：https://blog.csdn.net/weixin_45729807/article/details/105817249

课程介绍

本次课程是百度深度学习7日打卡第六期，由飞桨深度学习学院的老师进行授课。
课程定位：带领零基础学员从Python进入人工智能领域，即使不懂人工智能也能学会。
课程形式：B站直播加回放，微信群答疑
课程亮点：使用源于产业实践的开源深度学习平台飞桨（PaddlePaddle）简单学习深度学习

深度学习背景介绍

深度学习是机器学习领域的一个新的研究方向，在搜索技术，数据挖掘，机器学习，机器翻译，自然语言处理，多媒体处理，语音和个性化推荐等领域取得了很多成果。如此前沿的知识不断吸引着小白的关注，但是深度学习对数学等学科的要求太高，形成了“了解深度学习的时刻也就是放弃深度学习的时刻”的局面，入门深度学习变成了一种奢望，但是飞桨平台的出现改善了这种局面。

百度深度学习平台飞桨（PaddlePaddle）介绍

飞桨是全面开源开放、技术领先、功能完备的产业级深度学习平台，集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台与于一体。深度学习模型的训练创建需要深厚的数学功底，模型的训练需要大量数据，这是让小白不知道怎么入门的两个因素，而飞桨则为我们提供了以下模型，只需要稍作处理就能直接使用：

计算机视觉
- 视频动作分析
- 视频分类
- 图像生成
- 目标检测
- 关键点检测
- 图像分类
- 图像语义分割
- 图像生成
- 场景文字识别
- 度量学习
自然语言处理
- 中文词法分析
- 情感倾向分析
- 机器翻译
- 阅读理解
- 语义匹配
推荐
- 个性化推荐
其他模型
- 强化学习
- 语音识别

作业记录

Day1-Python基础练习

学习了包含多种操作系统功能接口函数的os模块，使用了os.walk()方法进行了文件遍历
Day2-《青春有你2》选手信息爬取

使用requests向网页发送请求得到response响应对象，之后使用BeautifulSoup进行解析获取到了所要下载图片的url，这里有个坑点，下面心得会提到
Day3-《青春有你2》选手数据分析

使用了matplotlib对Day2作业中获取到的数据进了可视化，绘制了饼状图
Day4-《青春有你2》选手识别

使用Day2作业获取的选手照片，借助PaddleHub进行图像分类任务
Day5-综合大作业

首先爬取爱奇艺《青春有你2》任意一期正片视频下不少于1000条评论，之后进行文本清理，去除评论中的特殊字符，之后使用jieba进行分词，统计词频，绘制Top10的高频词汇条形图和词云，最后结合PaddleHub，对评论进行内容审核

本次课程的收获

一方面是对自身有了新的认识，由几天前担心无法完成作业，听不懂课程，到现在顺利完成作业，我发现每个人的潜力都是无限的，虽然课程和作业并不困难，但是对于一个小白来说还是有着很大的心理压力的，尤其是在看到别人以飞快地速度完成了作业，但是自己确还一筹莫展，不知道该做些什么，该怎么做的时候，心里就会恨自己以前为什么没有多学一点。后来想想小白是每个人都会经历的过程，以前没有学，现在学也不晚，我们只需要让未来的自己不再后悔就好了。
另一方面是通过完成每天的作业学习到了很多新的知识，在应用中去学习大大提高了学习的效率。

心得

1. 实践是检验真理的唯一标准

在完成作业的实践过程中我发现有些知识虽然我学习过，但是使用起来发现并不是那么回事，由知识点到应用的过程中会出现很多意想不到的问题，而这些问题是老师和课本不会讲到的，因为每个人有每个人的环境，出现的问题也会不一样，只有真正动手实践遇到这些问题了，通过自己的努力解决这些问题了才可以算是真的掌握了相关知识。
在完成Day4作业的过程中我就遇到了文件路径问题，数据集中的文件路径应该是一个关于base_path的相对路径，但是最初我用的都是绝对路径，在仔细看过各种各样的报错信息后，我发现了自定义数据是有明确要求的，但是在此之前我并没有注意到，这种问题的介绍在知识点中是一定不会涉及到的，只有我们亲手做了才可能遇到。

2. 要学会使用工具

我们使用python进行深度学习，机器学习，网络爬虫的原因就是它具有丰富的第三方库可以帮助我们实，现相应的功能，以飞桨为例，它为我们提供了丰富的模型，这些模型是我们个人难以获得的，我们只需要对这些模型稍加处理就可以使用，大大减少我们的工作量，提高工作的效率。

3. 真理有时恰恰掌握在少数人手中

上面提到的坑点在此：Day2的作业是爬取选手图片，很多同学获得的都是482张，但是我却找到了490张，起初我的第一反应就是我的程序哪里出了问题导致图片重复了，为了解决问题，找到那多出来的8张，我就使用split（）方法把所有图片路径中的选手姓名提取出来，循环删除相同的照片，经验证后发现最终结果的确应该是490张，那8张照片到底出了什么问题，为什么爬取不到？微信群中有同学发现缺少的8张图片的url与前一张图片的url是一样的，如果只请求一次，那8张图片就没办法获得了。通过这个过程可以发现，在自己与其他人得到的结果不一致时，不要急于否定自己，或许自己得到的恰恰是正确答案。