python 爬虫学习第一步

最新推荐文章于 2024-07-24 08:56:18 发布

明日之主

最新推荐文章于 2024-07-24 08:56:18 发布

阅读量123

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/weixin_44268168/article/details/100529689

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

自从毕业以后感觉自己就变懒了，所以为了督促自己的学习。想将自己的学习过程记下来

前段时间看到了一个比较好的爬虫文章：

https://cuiqingcai.com/1052.html

基础内容我也不在这里多做详解，我写这个完全是为了帮助自己复习和学习新知识

由于现在python官方不在更新python2.同时上面的爬虫文章也不是python3.所以我这里写一些改变

python2：import urllib2

python3：import urllib.request

其中比较重要的是urllib.request.Request函数

import urllib.request

request = urllib.request.Request("https://cuiqingcai.com/1052.html")

print(response.read())

POST和GET数据传送

urlopen(url, data, timeout)
第一个参数url即为URL，第二个参数data是访问URL时要传送的数据，第三个timeout是设置超时时间。
第二三个参数是可以不传送的，data默认为空None，timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要传送的，在这个例子里面我们传送了百度的URL，执行urlopen方法之后，返回一个response对象，返回信息便保存在这里面。
print response.read()

GET方式是直接以链接形式访问，链接中包含了所有的参数，当然如果包含了密码的话是一种不安全的选择，不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数，不过如果你想直接查看提交了什么就不太方便了，大家可以酌情选择。

其中要踩一个坑的是request = urllib.request.Request(url,data.encode(encoding='UTF8'))

import urllib.request, urllib.parse, urllib.error

values = {"username":"1016903103@qq.com","password":"XXXX"}
data = urllib.parse.urlencode(values)
url = "http://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib.request.Request(url,data.encode(encoding='UTF8'))
response = urllib.request.urlopen(request)
print(response.read())

下面是GET方式获取

import urllib.request, urllib.parse, urllib.error
values={}
values['username'] = "1016903103@qq.com"
values['password']="XXXX"
data = urllib.parse.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib.request.Request(geturl)
response = urllib.request.urlopen(request)
print(geturl)

下面保存页面

import urllib.request

url = "http://www.2345.com"
# 请求该url，并返回页面数据
data = urllib.request.urlopen(url)
# 将data数据读取出来
html = data.read()
print(html)

# 将网页放入一个文件
file = open("./1.html", 'wb')
file.write(html)
file.close()