自从毕业以后感觉自己就变懒了,所以为了督促自己的学习。想将自己的学习过程记下来
前段时间看到了一个比较好的爬虫文章:
https://cuiqingcai.com/1052.html
基础内容我也不在这里多做详解,我写这个完全是为了帮助自己复习和学习新知识
由于现在python官方不在更新python2.同时上面的爬虫文章也不是python3.所以我这里写一些改变
python2:import urllib2
python3:import urllib.request
其中比较重要的是urllib.request.Request函数
import urllib.request
request = urllib.request.Request("https://cuiqingcai.com/1052.html")
print(response.read())
POST和GET数据传送
urlopen(url, data, timeout)
第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。
第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。
print response.read()
GET方式是直接以链接形式访问,链接中包含了所有的参数,当然如果包含了密码的话是一种不安全的选择,不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数,不过如果你想直接查看提交了什么就不太方便了,大家可以酌情选择。
其中要踩一个坑的是request = urllib.request.Request(url,data.encode(encoding='UTF8'))
import urllib.request, urllib.parse, urllib.error values = {"username":"1016903103@qq.com","password":"XXXX"} data = urllib.parse.urlencode(values) url = "http://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn" request = urllib.request.Request(url,data.encode(encoding='UTF8')) response = urllib.request.urlopen(request) print(response.read())
下面是GET方式获取
import urllib.request, urllib.parse, urllib.error values={} values['username'] = "1016903103@qq.com" values['password']="XXXX" data = urllib.parse.urlencode(values) url = "http://passport.csdn.net/account/login" geturl = url + "?"+data request = urllib.request.Request(geturl) response = urllib.request.urlopen(request) print(geturl)
下面保存页面
import urllib.request url = "http://www.2345.com" # 请求该url,并返回页面数据 data = urllib.request.urlopen(url) # 将data数据读取出来 html = data.read() print(html) # 将网页放入一个文件 file = open("./1.html", 'wb') file.write(html) file.close()