python 爬虫学习第一步

自从毕业以后感觉自己就变懒了,所以为了督促自己的学习。想将自己的学习过程记下来

前段时间看到了一个比较好的爬虫文章:

https://cuiqingcai.com/1052.html

基础内容我也不在这里多做详解,我写这个完全是为了帮助自己复习和学习新知识

由于现在python官方不在更新python2.同时上面的爬虫文章也不是python3.所以我这里写一些改变

python2:import urllib2

python3:import urllib.request

其中比较重要的是urllib.request.Request函数

import urllib.request

request = urllib.request.Request("https://cuiqingcai.com/1052.html")

print(response.read())

POST和GET数据传送

urlopen(url, data, timeout)
第一个参数url即为URL,第二个参数data是访问URL时要传送的数据,第三个timeout是设置超时时间。
第二三个参数是可以不传送的,data默认为空None,timeout默认为 socket._GLOBAL_DEFAULT_TIMEOUT
第一个参数URL是必须要传送的,在这个例子里面我们传送了百度的URL,执行urlopen方法之后,返回一个response对象,返回信息便保存在这里面。
print response.read()

GET方式是直接以链接形式访问,链接中包含了所有的参数,当然如果包含了密码的话是一种不安全的选择,不过你可以直观地看到自己提交了什么内容。POST则不会在网址上显示所有的参数,不过如果你想直接查看提交了什么就不太方便了,大家可以酌情选择。

其中要踩一个坑的是request = urllib.request.Request(url,data.encode(encoding='UTF8'))

import urllib.request, urllib.parse, urllib.error

values = {"username":"1016903103@qq.com","password":"XXXX"}
data = urllib.parse.urlencode(values)
url = "http://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn"
request = urllib.request.Request(url,data.encode(encoding='UTF8'))
response = urllib.request.urlopen(request)
print(response.read())

下面是GET方式获取

import urllib.request, urllib.parse, urllib.error
values={}
values['username'] = "1016903103@qq.com"
values['password']="XXXX"
data = urllib.parse.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url + "?"+data
request = urllib.request.Request(geturl)
response = urllib.request.urlopen(request)
print(geturl)

下面保存页面

import urllib.request

url = "http://www.2345.com"
# 请求该url,并返回页面数据
data = urllib.request.urlopen(url)
# 将data数据读取出来
html = data.read()
print(html)

# 将网页放入一个文件
file = open("./1.html", 'wb')
file.write(html)
file.close()

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值