python_2开发简单爬虫

python_2开发简单爬虫

2017年12月03日 16:43:01 独行侠的守望 
学习地址:http://www.imooc.com/learn/563 慕课网

★第1章
课程内容:进行简单的爬虫讲解----不需要登录的静态网页抓取

★第2章    简单爬虫架构

 

python简单爬虫架构 动态运行流程 【时序图】

★第3章  url管理器和实现方法

3-1  url管理

管理待抓取url结合  和  已经抓取的url集合  ,防止重复抓取和循环抓取

url管理器支持的功能 至少5个

3-2 url管理器的实现方式

目前有三种。

 

★第4章 网页下载器和  urllib2  模块  

4-1 网页下载器简介          将互联网上url对应的网页下载到本地的工具

 

python有哪些网页下载器?

 

4-2  urllib2  下载器网页的三种方法

①最简洁方法:把url传递给urllib2模块的urlopen方法   urllib2.urlopen(url)

 

 

三种方法功能依次更大更强

4.3 urllib2实例代码演示

ps:我安装的是Python3.5.2  ,使用第一种urllib2.urlopen()报错,搜索发现官方3.0版本已经把urllib2,urlparse等五个模块都并入了urllib中,也就是整合了,参考   http://blog.csdn.net/pythonniu/article/details/51855035  ,正确用法

  1. import urllib.request  
  2. url="http://www.baidu.com"  
  3. get=urllib.request.urlopen(url).read()  
  4. print(get)  

★第5章  网页解析器和  beautifulsoup  第三方模块

5.1网页解析器简介

①正则表达式  

②Python自带 html.parser

③第三方插件  beautifulsoup  强大,能使用② 和 ④

④第三方插件   lxml

 

①是模糊匹配,②③④是结构化解析。DOM树 ,熟悉吧๑乛◡乛๑

5.2beautifulsoup模块简介和安装

该模块属于Python第三方模块,用于从HTML或xml提取数据。

官网 http://www.crummmy.com/software/BeautifulSoup

在线安装 beautifulsoup模块,截图如下【前提:已经有pip】

5.3beautifulsoup语法

流程:HTML网页   →创建beautifulsoup对象(生成dom树)  →搜索节点(find_all 方法 和 find方法,可以按照  名称、属性、文字  来搜索)   → 访问节点名称、属性、文字

例子

代码如下:

 

5.4beautifulsoup实例测试

 

总结:课程教程是Python 2 版本,目前不建议再使用了。自己是3.x版本,总体还是从小白到 对python爬虫整体概况有所了解一点吧。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值