python爬虫
xckkcxxck
这个作者很懒,什么都没留下…
展开
-
python3爬虫基础
首先介绍urllib库,用于操作url,在做爬虫时经常会用到。本文用python3进行介绍。 一:快速使用urllib爬取网页: 1.倒入相应模块: import urllib.request2.使用urlopen打开并爬取一个网页: file=urllib.request.urlopen('http://www.baidu.com') 3.将网页内容读出来,赋值给data: data原创 2017-05-28 11:45:47 · 306 阅读 · 0 评论 -
python爬虫2之简单模拟浏览器
有时在利用爬虫爬取一些网站时,会出现403错误:Forbidden。这是因为一些网站进行了一些反爬虫的设置。 于是需要将爬虫伪装成浏览器,可以设置User-Agent信息。 比如可以得到百度的User-Agent为:Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.245原创 2017-05-28 14:39:15 · 532 阅读 · 0 评论 -
python爬虫3之http get请求模拟
如果要进行客户端和服务端的消息传递,我们可以使用Http协议请求进行。 GET请求会通过URL网址传递信息比如在百度上查找一个关键字hello,使用爬虫自动实现这个过程。 思路如下: (1)构建对应的url地址,该URL地址包含GET请求的字段名和字段内容等信息,并且URl满足get请求的格式,即“http://网址? 字段名1=字段内容&字段名2=字段内容2“ (2)以对应的URL为参数原创 2017-05-28 15:20:29 · 1031 阅读 · 0 评论