爬虫
walk_on_os
python+C
展开
-
scrapy 插件scrapy-redis 正确用法,秒变分布式
scrapy 插件 首先安装 pip install scrapy-redis 然后在 setting.py加上几句话 SCHEDULER = "scrapy_redis.scheduler.Scheduler" STATS_CLASS = "scrapy_redis.stats.RedisStatsCollector" DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter" SCHEDULER_PERSIST = True ok,运行起原创 2021-07-28 14:50:44 · 213 阅读 · 0 评论 -
Google 关键词趋势数据下载 同步版本 与异步版本
requests 版本 #!/usr/bin/env python # coding=utf-8 import requests import pandas as pd from pandas import DataFrame, Series import json from datetime import timedelta from datetime import datetime from initengine import engine_africa_ec_data_whuanet_spider_s原创 2021-07-27 14:36:06 · 553 阅读 · 0 评论 -
爬虫项目ubuntu18.04服务器下配置爬虚拟界面谷歌浏览器有头模式 xvfb+chromedriver+google-chrom
鉴于正在编写一个scrapy+selenium爬虫项目的需要,需要在 linux无界面服务器 环境下配置爬虫环境,本文参考了 centos 下的配置文章 https://www.cnblogs.com/ybyn/p/13690914.html 总共分为几个步骤 安装 google-chrome 方法有很多种 1、从源安装 #添加google-chrome 源 sudo wget http://www.linuxidc.com/files/repo/google-chrome.list -P /etc/apt原创 2021-04-14 18:58:17 · 353 阅读 · 0 评论