python模拟浏览器访问网站

最新推荐文章于 2024-05-21 13:56:02 发布

它山之石,可以攻玉

最新推荐文章于 2024-05-21 13:56:02 发布

阅读量3.7k

点赞数 2

分类专栏： python 文章标签： python os

本文链接：https://blog.csdn.net/y534560449/article/details/53399706

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

import os  
import urllib  
class AppURLopener(urllib.FancyURLopener):  
    version = "Mozilla/5.0"  
urllib._urlopener = AppURLopener()  
url = "http://blog.csdn.net/eastmount/article/details/44492787"  
content = urllib.urlopen(url).read()
open('test.html','w+').write(content)

伪装成浏览器访问
某些网站反感爬虫的到访，于是对爬虫一律拒绝请求
这时候我们需要伪装成浏览器，这可以通过修改http包中的header来实现

#…  
  
headers = {  
	'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'  
}  
req = urllib2.Request(  
	url = 'http://www.csdn.net',  
	data = postdata,  
	headers = headers  
)  
#...

对付"反盗链"
某些站点有所谓的反盗链设置，其实说穿了很简单，

就是检查你发送请求的header里面，referer站点是不是他自己，

所以我们只需要像把headers的referer改成该网站即可，以cnbeta为例：

#...
headers = {
    'Referer':'http://www.cnbeta.com/articles'
}
#...

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

它山之石,可以攻玉

关注关注

2
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python模拟浏览器访问网站

import os import urllib class AppURLopener(urllib.FancyURLopener): version = "Mozilla/5.0" urllib._urlopener = AppURLopener() url = "http://blog.csdn.net/eastmount/article/details/444927
复制链接

扫一扫