课程介绍
本次课程是百度深度学习7日打卡第六期,由飞桨深度学习学院的老师进行授课。
课程定位:带领零基础学员从Python进入人工智能领域,即使不懂人工智能也能学会。
课程形式:B站直播加回放,微信群答疑
课程亮点:使用源于产业实践的开源深度学习平台飞桨(PaddlePaddle)简单学习深度学习
深度学习背景介绍
深度学习是机器学习领域的一个新的研究方向,在搜索技术,数据挖掘,机器学习,机器翻译,自然语言处理,多媒体处理,语音和个性化推荐等领域取得了很多成果。如此前沿的知识不断吸引着小白的关注,但是深度学习对数学等学科的要求太高,形成了“了解深度学习的时刻也就是放弃深度学习的时刻”的局面,入门深度学习变成了一种奢望,但是飞桨平台的出现改善了这种局面。
百度深度学习平台飞桨(PaddlePaddle)介绍
飞桨是全面开源开放、技术领先、功能完备的产业级深度学习平台,集深度学习核心框架、基础模型库、端到端开发套件、工具组件和服务平台与于一体。深度学习模型的训练创建需要深厚的数学功底,模型的训练需要大量数据,这是让小白不知道怎么入门的两个因素,而飞桨则为我们提供了以下模型,只需要稍作处理就能直接使用:
-
计算机视觉
- 视频动作分析
- 视频分类
- 图像生成
- 目标检测
- 关键点检测
- 图像分类
- 图像语义分割
- 图像生成
- 场景文字识别
- 度量学习
-
自然语言处理
- 中文词法分析
- 情感倾向分析
- 机器翻译
- 阅读理解
- 语义匹配
-
推荐
- 个性化推荐
-
其他模型
- 强化学习
- 语音识别
作业记录
-
Day1-Python基础练习
学习了包含多种操作系统功能接口函数的os模块,使用了os.walk()方法进行了文件遍历
-
Day2-《青春有你2》选手信息爬取
使用requests向网页发送请求得到response响应对象,之后使用BeautifulSoup进行解析获取到了所要下载图片的url,这里有个坑点,下面心得会提到
-
Day3-《青春有你2》选手数据分析
使用了matplotlib对Day2作业中获取到的数据进了可视化,绘制了饼状图
-
Day4-《青春有你2》选手识别
使用Day2作业获取的选手照片,借助PaddleHub进行图像分类任务
-
Day5-综合大作业
首先爬取爱奇艺《青春有你2》任意一期正片视频下不少于1000条评论,之后进行文本清理,去除评论中的特殊字符,之后使用jieba进行分词,统计词频,绘制Top10的高频词汇条形图和词云,最后结合PaddleHub,对评论进行内容审核
本次课程的收获
一方面是对自身有了新的认识,由几天前担心无法完成作业,听不懂课程,到现在顺利完成作业,我发现每个人的潜力都是无限的,虽然课程和作业并不困难,但是对于一个小白来说还是有着很大的心理压力的,尤其是在看到别人以飞快地速度完成了作业,但是自己确还一筹莫展,不知道该做些什么,该怎么做的时候,心里就会恨自己以前为什么没有多学一点。后来想想小白是每个人都会经历的过程,以前没有学,现在学也不晚,我们只需要让未来的自己不再后悔就好了。
另一方面是通过完成每天的作业学习到了很多新的知识,在应用中去学习大大提高了学习的效率。
心得
1. 实践是检验真理的唯一标准
在完成作业的实践过程中我发现有些知识虽然我学习过,但是使用起来发现并不是那么回事,由知识点到应用的过程中会出现很多意想不到的问题,而这些问题是老师和课本不会讲到的,因为每个人有每个人的环境,出现的问题也会不一样,只有真正动手实践遇到这些问题了,通过自己的努力解决这些问题了才可以算是真的掌握了相关知识。
在完成Day4作业的过程中我就遇到了文件路径问题,数据集中的文件路径应该是一个关于base_path的相对路径,但是最初我用的都是绝对路径,在仔细看过各种各样的报错信息后,我发现了自定义数据是有明确要求的,但是在此之前我并没有注意到,这种问题的介绍在知识点中是一定不会涉及到的,只有我们亲手做了才可能遇到。
2. 要学会使用工具
我们使用python进行深度学习,机器学习,网络爬虫的原因就是它具有丰富的第三方库可以帮助我们实,现相应的功能,以飞桨为例,它为我们提供了丰富的模型,这些模型是我们个人难以获得的,我们只需要对这些模型稍加处理就可以使用,大大减少我们的工作量,提高工作的效率。
3. 真理有时恰恰掌握在少数人手中
上面提到的坑点在此:Day2的作业是爬取选手图片,很多同学获得的都是482张,但是我却找到了490张,起初我的第一反应就是我的程序哪里出了问题导致图片重复了,为了解决问题,找到那多出来的8张,我就使用split()方法把所有图片路径中的选手姓名提取出来,循环删除相同的照片,经验证后发现最终结果的确应该是490张,那8张照片到底出了什么问题,为什么爬取不到?微信群中有同学发现缺少的8张图片的url与前一张图片的url是一样的,如果只请求一次,那8张图片就没办法获得了。通过这个过程可以发现,在自己与其他人得到的结果不一致时,不要急于否定自己,或许自己得到的恰恰是正确答案。