爬取西瓜视频影视分类

许久没有更新过博客了,今天帮朋友爬了西瓜视频,希望对喜欢python爬虫的朋友有所指引,希望大神批评指正。

每一个网站都或多或少有一点反爬虫机制,并持续添加新的爬虫机制,所以说针对每一个网站,爬虫规则并不是一成不变的。

我也会持续更新中!!!!

本次爬虫采用:python3+scrapy+selenum,闲话少说,贴代码。

核心逻辑代码xigua.py:

# -*- coding: utf-8 -*-
import scrapy
import json
import xlwt
import datetime

from ..items import XiguaspiderItem

# https://www.ixigua.com/api/pc/feed/?min_behot_time=0&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A1356CB8354CB7B&cp=5C85ECBB27BB0E1&_signature=ojnZNhAa.ssIFpm2yASWDqI52S
# https://www.ixigua.com/api/pc/feed/?max_behot_time=1552274468&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A1157C68A5DD8CE&cp=5C85EDA82C2E5E1&_signature=ojnZNhAa.ssIFpm2yAQSOKI52S

"""
西瓜视频:xigua
"""

class XiguaSpider(scrapy.Spider):
    name = 'xigua'
    allowed_domains = ['ixigua.com']
    start_urls = ['https://www.ixigua.com/api/pc/feed/?min_behot_time=0&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A1153CD8459DA0F&cp=5C85ED8AE0BF1E1&_signature=ojnZNhAa.ssIFpm2yASWDqI52S']
    doc_url = 'https://www.ixigua.com/api/pc/feed/?max_behot_time={}&category=subv_xg_movie&utm_source=toutiao&widen=1&tadrequire=true&as=A185AC288847AA0&cp=5C88172A3A40AE1&_signature=YaQQuxAbPTDLi1A75tbnUmGkEK'
    base_url = 'https://www.ixigua.com'

    custom_settings &#
  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值