10.scrapy 模拟登陆

最新推荐文章于 2024-07-07 21:04:35 发布

zmjames2000

最新推荐文章于 2024-07-07 21:04:35 发布

阅读量96

点赞数

分类专栏：爬虫 python 文章标签： scrapy cookies response 登陆

本文链接：https://blog.csdn.net/zmjames2000/article/details/100690259

版权

python 同时被 2 个专栏收录

56 篇文章 0 订阅

订阅专栏

爬虫

18 篇文章 0 订阅

订阅专栏

登陆之后的信息会保存在cookie中，

所以需要保存cookie

import scrapy,random
from pachong_scrapy.items import PachongScrapyItem
from scrapy.http import Request
from scrapy import FormRequest

class DdSpider(scrapy.Spider):
    name = 'dd'
    allowed_domains = ['iqianyue.com']
    start_urls = ['http://edu.iqianyue.com/index_user_login'] #第一页
    uapools = [
        "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36",
        "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.140 Safari/537.36 Edge/17.17134",
    ]
    thisua = random.choice(uapools)
    header = {"user-agent": thisua}

    def start_requests(self): #第一次登陆用这个方法，设置cookiejar，和回调函数
        return [Request("http://edu.iqianyue.com/index_user_login",meta={"cookiejar":1}, callback=self.parse)]

    def parse(self, response):  #通过fiddler抓取 控件名称
        login_data = {
            "number":"weijc",
            "passwd":"weijc7789",
        }
        print("loging....")
        return [FormRequest.from_response(response,
                                          meta={"cookiejar":response.meta["cookiejar"]},
                                          headers = self.header,
                                          formdata= login_data,
                                          callback = self.next,
                                          )]
    def next(self, response): #登陆成功的话，去转向或者响应个人中心页面，保持登陆状态
        yield Request("http://edu.iqianyue.com/index_user_index",
                            meta = {"cookiejar":True},
                            callback = self.next2)
    def next2(self, response):
        #这里是刚才转过来的登陆中心的页面。
        print(response.xpath("/html/head/title/text()").extract())

A = response.body 是该页面所有的数据

zmjames2000

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
10.scrapy 模拟登陆

登陆之后的信息会保存在cookie中，所以需要保存cookieimport scrapy,randomfrom pachong_scrapy.items import PachongScrapyItemfrom scrapy.http import Requestfrom scrapy import FormRequestclass DdSpider(scrapy.Spider):...
复制链接

扫一扫

专栏目录