python 爬虫cookie的简单使用

最新推荐文章于 2024-03-28 14:38:39 发布

蚂蚁快跑007

最新推荐文章于 2024-03-28 14:38:39 发布

阅读量523

点赞数 1

分类专栏： python 爬虫文章标签：爬虫 python cookie

python 爬虫专栏收录该内容

3 篇文章 0 订阅

订阅专栏

#coding=utf-8

import urllib

import urllib2

import cookielib

from bs4 import BeautifulSoup

url ="http://www.baidu.com"

values = {

'userName':'aaaaaa',

'password':'bbbbbb'

}

postdata =urllib.urlencode(values)

user_agent = "Mozilla/5.0(Windows NT 6.1; WOW64)"

headers ={"User-Agent":user_agent}

#以下为创建opener

file_name = 'cookie.txt'

cookie =cookielib.MozillaCookieJar(file_name)

handler =urllib2.HTTPCookieProcessor(cookie)

opener =urllib2.build_opener(handler)

#请求url

try:

request = urllib2.Request(url, data = None,headers=headers)

response = opener.open(request, timeout =2)

except urllib2.HTTPError, e:

print e.code

except urllib2.URLError, e:

print e.reason

except:

print "Error"

#保存cookie到文件中

cookie.save(ignore_discard=True,ignore_expires=True)

data = response.read()

soup = BeautifulSoup(data,"lxml")

for link in soup.find_all('a'):

print link

更多详细内容请参考 http://cuiqingcai.com/1052.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

蚂蚁快跑007

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Python爬虫之cookie操作

景天科技苑

12-29

1万+

session可以处理大部分反爬机制，session处理不了的，我们可以用selenium 两者结合基本是无敌的。#2.使用session发起的请求，目的是为了捕获到cookie，且将其存储到session对象中。#3.就是使用携带了cookie的session对象发起的请求（就是携带者cookie发起的请求）没有cookie的网站，我们就不要用session。滚轮下滑，会加载新的热帖，由此可见热帖是动态加载的。#查看session携带的cookie。查看session携带的cookie。

Python爬虫如何搞定动态Cookie？小白也能学会！

最新发布

xyh2004的博客

06-14

3897

Chrome DevTools Protocol (CDP) 是Chrome浏览器提供的一套调试协议，允许开发者与浏览器进行深度交互，包括检查和控制页面元素、网络请求、性能分析等。通过这个协议，我们可以实时监听浏览器的Network事件，包括Cookie的生成和变化。接入CDP通常需要借助支持此协议的库，如Python的pyppeteer或，这些库提供了与Chrome DevTools Protocol交互的高级API。以下以pyppeteer为例说明如何开始：首先，安装pyppeteer。

参与评论您还未登录，请先登录后发表或查看评论

爬虫—cookie设置

HuQi

03-21

1318

一、Session模块 #识别人人网中的验证码图片 from lxml import etree from urllib import request url = 'http://www.renren.com/' headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...

Python3 Cookie爬虫

gxk1992的博客

01-28

349

自动登录更新这里写代码片定时验证筛选这里写代码片提供外部接口这里写代码片 Cookies 池架构帐号队列—生成器—-Cookies队列—定时器

网络爬虫之cookie

jayvee's Blog

11-15

863

cookies是什么 Cookies是一种能够让网站服务器把少量数据储存到客户端的硬盘或内存，或是从客户端的硬盘读取数据的一种技术。Cookies是当你浏览某网站时，由Web服务器置于你硬盘上的一个非常小的文本文件，它可以记录你的用户ID、密码、浏览过的网页、停留的时间等信息。当你再次来到该网站时，网站通过读取Cookies，得知你的相关信息，就可以做出相应的动作，如在页面显示欢迎你的标语，或者让...

python爬虫cookie池搭建_爬虫——cookies池的搭建

weixin_39554172的博客

12-07

183

Excel 数据关联=INDEX(Sheet2!$A$2:$A$77,MATCH(A4,Sheet2!$C$2:$C$77,0))跨域iframe的高度自适应If you cannot hear the sound of the genuine in you, you will all of your life spend your days on the ...如何配置多个ssh key上一篇...

python爬虫从0到1 -urllib_Cookie登录

苏凉.py的博客

02-27

378

Cookie反反爬策略，建议收藏！

玩转python爬虫之cookie使用方法

09-21

总结，Cookie在Python爬虫中扮演着重要的角色，它们允许爬虫模拟用户登录状态，访问需要验证的页面。通过理解Cookie的工作原理和如何在Python中使用它们，我们可以编写出更加智能和强大的爬虫程序。无论你是使用`...

python爬虫cookie池与ip绑定_学会使用ip池和cookie池伪装

weixin_39854951的博客

12-07

800

在进入正题之前，我们先复习一个关于requests模块的相关知识点：requests中解决编码的三种方法：①response.content类型：bytes解码类型：没有指定如何修改编码方式：response.content.decode()②response.content.decode()类型：str解码类型：解码成python文本的字符串类型如何修改编码方式:respsonse.conten...

把玩之python爬虫cookie篇

bob于的专栏

06-17

3506

原文链接：静觅 » Python爬虫入门六之Cookie的使用为什么要使用cookie？ cookie是指网站为了辨别用户身份、进行session跟踪而存储在用户本地终端上的数据（通常是经过加密的）如果你未登录，想获取某个页面的内容是不被允许的。我们可以利用urllib2保存登录的cookie信息，然后获取页面内容。 1，Opener

python爬虫cookie池搭建_从cookie池搭建说起

weixin_39945523的博客

12-07

323

这几天接手了一个很急的项目，要在几天爬取某网站的数据。该站是我知道国内反爬比较严重的网站之一，我也做好了心理准备。分析该网站数据需要登录才能查看，APP抓包了但是没有发现相关数据，所以选择从PC站入手。既然需要登录，那就需要验证一个新鲜的cookies可以访问多少链接；验证方法是：直接拷贝已经登录该网站请求的Curl，转换为Python代码，加一个循环，测试，单个账号可以跑多少页经过10多次测试，...

爬虫之cookie处理

youhebuke225的博客

04-08

3592

一般我们请求的时候，请求头的信息不够就会导致访问不成功在请求的时候有两个比较重要的信息cookie、referer 两个重要的信息 cookie携带着你的登录信息，如果我们登录之后有cookie，那么在请求的时候应该在请求头上携带cookie的信息 referer一般用来判断当前路径是不是由上一个路径进来的，一般做图片防盗链，他所表示的是上一个页面例子我们写一个微博的cookie登录 import urllib.request url = 'https://weibo.cn/645149.

爬虫与cookie登录

h_666666的博客

10-16

695

爬虫： #!/usr/bin/env python # -*- coding:utf-8 -*- # time: 2018/10/15 from bs4 import BeautifulSoup import requests import re for j in range(11,5515): data = { "id":j } head = { "Accept": "*/...

python爬虫中的cookie详解

lidiya007的博客

01-17

1万+

Cookies基础 cookie数据长什么样：　　清除浏览器历史数据　　登录豆瓣查看cookies数据　　查看第一个请求，这里是比较干净的，它没有cookie，应答也没有cookie，应答码是301，实际请求是location这个地方，所以我们的浏览器发送了第二个请求。　　第二个请求里面也没有cookie，但是它的应答包含了Set-cookie，这比较像我们的浏览器保存了

爬虫中获取cookie的方式

m0_46135508的博客

07-19

5961

为什么要获取cookie？因为有的页面爬取的时候，需要登录后才能爬，比如知乎，如何判断一个页面是否已经登录，通过判断是否含有cookies就可以，我们获取到cookie后就可以携带cookie来访问需要登录后的页面了。方式一使用session 这里的session并不是django中的session，而是requests中的session import requests url = 'https://www.processon.com/login' login_email = '283867@qq.c

【python】爬虫系列Day04-- cookie介绍

weixin_53000329的博客

08-24

1757

🙋作者：爱编程的小贤 ⛳知识点:python爬虫— cookie介绍 🥇：每天学一点，早日成大佬

爬取网站总是被封？大神教你搭建Cookies池，以后远离IP被封

weixin_34220963的博客

01-12

669

摘要本文作者：崔庆才GitHub地址：https://github.com/Python3WebSpider/CookiesPool小编推荐一本崔大大写的网络爬虫的书籍《Python3网络爬虫开发实战》推荐下我自己创建的Python学习交流群960410445，这是Python学习交流的地方，不管你是小白还是大牛，小编都欢迎，不定期分享干货，包括我整理的一份适合零基础学习Python的资料和入门教...

【爬虫基础】第8讲 Cookie的使用

a272329874a的博客

03-28

1278

首先需要获取登录页面的 cookie，可以使用抓包工具（如 Fiddler、Charles）或浏览器的开发者工具，在登录页面登录账号后查看请求头部的 cookie 信息。在爬虫代码中，使用 requests 库发送 GET 或 POST 请求时，可以通过 headers 参数设置请求头部信息，将 cookie 添加到 headers 中。爬虫可以通过请求的头部信息中添加 cookie 来模拟用户登录状态，从而实现登录后才能访问的页面的爬取。拿到已登录的cookie 去实现已登录状态。

python爬虫之cookie和session介绍——以12306验证码破解和浏览车次为例

热门推荐

Claire_chen_jia的博客

05-08

2万+

python爬虫之cookie和session介绍1 cookie介绍1.1 定义1.2 应用2 session介绍2.1 定义2.2 session和cookie关系3 综合应用——以12306为例3.1 12306的验证码破解3.1.1 设置参数，请求目标url3.1.2 拿到12306的验证码3.1.3 输入正确验证码3.1.4 完整练习3.2 浏览12306的车次列表本节重点讲的是pyt...

python爬虫 cookie的使用

06-28