python_2开发简单爬虫

最新推荐文章于 2022-07-21 18:20:43 发布

独行侠的守望

最新推荐文章于 2022-07-21 18:20:43 发布

阅读量135

点赞数

分类专栏： 04、python

本文为博主原创文章，转载请注明文章链接。

本文链接：https://blog.csdn.net/xiaoanzi123/article/details/100171691

版权

04、python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

python_2开发简单爬虫

2017年12月03日 16:43:01 独行侠的守望
学习地址：http://www.imooc.com/learn/563 慕课网

★第1章
课程内容：进行简单的爬虫讲解----不需要登录的静态网页抓取

★第2章简单爬虫架构

python简单爬虫架构动态运行流程【时序图】

★第3章 url管理器和实现方法

3-1 url管理

管理待抓取url结合和已经抓取的url集合，防止重复抓取和循环抓取

url管理器支持的功能至少5个

3-2 url管理器的实现方式

目前有三种。

★第4章网页下载器和 urllib2 模块

4-1 网页下载器简介将互联网上url对应的网页下载到本地的工具

python有哪些网页下载器？

4-2 urllib2 下载器网页的三种方法

①最简洁方法：把url传递给urllib2模块的urlopen方法 urllib2.urlopen(url)

②

③

三种方法功能依次更大更强

4.3 urllib2实例代码演示

ps:我安装的是Python3.5.2 ，使用第一种urllib2.urlopen（）报错，搜索发现官方3.0版本已经把urllib2,urlparse等五个模块都并入了urllib中，也就是整合了，参考 http://blog.csdn.net/pythonniu/article/details/51855035 ，正确用法

import urllib.request
url="http://www.baidu.com"
get=urllib.request.urlopen(url).read()
print(get)

★第5章网页解析器和 beautifulsoup 第三方模块

5.1网页解析器简介

①正则表达式

②Python自带 html.parser

③第三方插件 beautifulsoup 强大，能使用② 和 ④

④第三方插件 lxml

①是模糊匹配，②③④是结构化解析。DOM树，熟悉吧๑乛◡乛๑

5.2beautifulsoup模块简介和安装

该模块属于Python第三方模块，用于从HTML或xml提取数据。

官网 http://www.crummmy.com/software/BeautifulSoup

在线安装 beautifulsoup模块，截图如下【前提：已经有pip】

5.3beautifulsoup语法

流程：HTML网页 →创建beautifulsoup对象（生成dom树） →搜索节点（find_all 方法和 find方法，可以按照名称、属性、文字来搜索） → 访问节点名称、属性、文字

例子：

代码如下：

5.4beautifulsoup实例测试

总结：课程教程是Python 2 版本，目前不建议再使用了。自己是3.x版本，总体还是从小白到对python爬虫整体概况有所了解一点吧。

独行侠的守望

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python_2开发简单爬虫

python_2开发简单爬虫2017年12月03日 16:43:01 独行侠的守望阅读数：204 标签： python爬虫更多个人分类： Python编辑版权声明：本文为博主原创文章，转载请注明文章链接。 https://blog.csdn.net/xiaoanzi123/article/details/78700863学习地址：http://www.imooc.com/learn...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。