Python网络爬虫和正则表达式学习总结

最新推荐文章于 2022-03-10 15:21:08 发布

Python新世界

最新推荐文章于 2022-03-10 15:21:08 发布

阅读量588

点赞数

文章标签： python Python编程编程语言正则表达式

本文链接：https://blog.csdn.net/weixin_46089319/article/details/108111102

版权

阅读目录

　　以前在学校做科研都是直接利用网上共享的一些数据，就像我们经常说的dataset、beachmark等等。但是，对于实际的工业需求来说，爬取网络的数据是必须的并且是首要的。最近在国内一家互联网公司实习，我的mentor交给我的第一件事就是去网络上爬取数据，并对爬取的数据进行相关的分析和解析。

很多人学习python，不知道从何学起。
很多人学习python，掌握了基本语法过后，不知道在哪里寻找案例上手。
很多已经做案例的人，却不知道如何去学习更加高深的知识。
那么针对这三类人，我给大家提供一个好的学习平台，免费领取视频教程，电子书籍，以及课程的源代码！
QQ群：101677771

回到顶部

1.利用urllib2对指定的URL抓取网页内容

　　网络爬虫（Web Spider），顾名思义就是将庞大的互联网看做是一张大网，而我们要做的就是用代码去构造一个类似于爬虫的实体，在这张大网上爬取我们需要的数据。

　　所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。Python中提供了专门抓取网络的组件urllib和urllib2。

　　最简单的抓取网络的Python代码，四行就可以搞定：

1 import urllib2  
2 response = urllib2.urlopen('http://www.toutiao.com/')  
3 html = response.read()  
4 print html

　　显示抓取的结果：

　　我们可以打开百度主页，右击，选择查看源代码（火狐OR谷歌浏览器均可），会发现也是完全一样的内容。也就是说，上面这四行代码将我们访问百度时浏览器收到的代码们全部打印了出来。这就是一个最简单的利用urllib2进行网页爬取的例子。

　　当然，有的网站为了防止爬虫，可能会拒绝爬虫的请求，这就需要我们来修改http中的Header项了。还有一些站点有所谓的反盗链设置，其实说穿了很简单，就是检查你发送请求的header里面，referer站点是不是他自己，所以我们只需要像把headers的referer改成该网站即可。有关Header项的修改请转至下边的链接查看，里边详细地介绍了Header的修改、Cookie和表单的处理，等等。

　　1）urllib2的使用细节和抓站技巧

　　2）

最低0.47元/天解锁文章

Python新世界

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Python网络爬虫和正则表达式学习总结

阅读目录1.利用urllib2对指定的URL抓取网页内容 2. 使用正则表达式过滤抓取到的网页信息 2.1 正则表达式介绍 2.2 Python的re模块 2.3 Python正则表达式汇总　　以前在学校做科研都是直接利用网上共享的一些数据，就像我们经常说的dataset、beachmark等等。但是，对于实际的工业需求来说，爬取网络的数据是必须的并且是首要的。最近在国内一家互联网公司实习，我的mentor交给我的第一件事就是去网络上爬取数据，并对爬取的数据进行相关的分析和解析。很多人学习
复制链接

扫一扫