python_2开发简单爬虫
2017年12月03日 16:43:01 独行侠的守望
学习地址:http://www.imooc.com/learn/563 慕课网
★第1章
课程内容:进行简单的爬虫讲解----不需要登录的静态网页抓取
★第2章 简单爬虫架构
python简单爬虫架构 动态运行流程 【时序图】
★第3章 url管理器和实现方法
3-1 url管理
管理待抓取url结合 和 已经抓取的url集合 ,防止重复抓取和循环抓取
url管理器支持的功能 至少5个
3-2 url管理器的实现方式
目前有三种。
★第4章 网页下载器和 urllib2 模块
4-1 网页下载器简介 将互联网上url对应的网页下载到本地的工具
python有哪些网页下载器?
4-2 urllib2 下载器网页的三种方法
①最简洁方法:把url传递给urllib2模块的urlopen方法 urllib2.urlopen(url)
②
③
三种方法功能依次更大更强
4.3 urllib2实例代码演示
ps:我安装的是Python3.5.2 ,使用第一种urllib2.urlopen()报错,搜索发现官方3.0版本已经把urllib2,urlparse等五个模块都并入了urllib中,也就是整合了,参考 http://blog.csdn.net/pythonniu/article/details/51855035 ,正确用法
- import urllib.request
- url="http://www.baidu.com"
- get=urllib.request.urlopen(url).read()
- print(get)
★第5章 网页解析器和 beautifulsoup 第三方模块
5.1网页解析器简介
①正则表达式
②Python自带 html.parser
③第三方插件 beautifulsoup 强大,能使用② 和 ④
④第三方插件 lxml
①是模糊匹配,②③④是结构化解析。DOM树 ,熟悉吧๑乛◡乛๑
5.2beautifulsoup模块简介和安装
该模块属于Python第三方模块,用于从HTML或xml提取数据。
官网 http://www.crummmy.com/software/BeautifulSoup
在线安装 beautifulsoup模块,截图如下【前提:已经有pip】
5.3beautifulsoup语法
流程:HTML网页 →创建beautifulsoup对象(生成dom树) →搜索节点(find_all 方法 和 find方法,可以按照 名称、属性、文字 来搜索) → 访问节点名称、属性、文字
例子:
代码如下:
5.4beautifulsoup实例测试
总结:课程教程是Python 2 版本,目前不建议再使用了。自己是3.x版本,总体还是从小白到 对python爬虫整体概况有所了解一点吧。