爬虫
小脏辫儿
web开发,爬虫,多多指教,
展开
-
scrapy实现分布式
scrapy实现分布式其实主要是需要redis的队列来实现,想做这个,建议先了解下redis的基础形式 我的上篇博客说过,spider的基础流程 而,分布式其实就是将spider获取的url包装成requests,发送给调度器scheduler的时候,使用redis的队列进行分发,分发给多个单机爬虫调度器,同时将存储的结构化数据保存到redis 继承自父类为RedisSpider 2.增加了一...原创 2019-09-22 10:39:15 · 710 阅读 · 0 评论 -
scrapy框架
首先我们先了解下scrapy的基本知识,scrapy框架的作用:通过少量代码实现快速抓取 1.简单爬虫的基本流程: 或者是这样 而scarpy的流程是另一种模式 1.调度器把requests–>引擎–>下载中间件—>下载器 2.下载器发送请求,获取响应---->下载中间件---->引擎—>爬虫中间件—>爬虫 3.爬虫提取url地址,组装成reques...原创 2019-09-22 10:16:17 · 126 阅读 · 0 评论 -
爬虫登陆问题,selenium截取图片验证码
获取登陆验证码,需要了解前端的基本构造,css的模块尺寸中间件,需要自己补足一下前端的基本知识能力 上代码 #!/usr/bin/python3 # -*- coding: utf-8 -*- from selenium import webdriver from PIL import Image # import pytesseract import time from io import ...原创 2019-09-21 11:16:37 · 534 阅读 · 0 评论 -
爬虫处理iframe的方法
iframe是前端内嵌页面,访问域名与主网页不同,requests请求无法获取,技术可以的话,可以从解析js抓取iframe域名,要技术过硬啊,需要的参数很多以后再说 上代码 #!/usr/bin/python3 # -*- coding: utf-8 -*- from selenium import webdriver browser = webdriver.Chrome('./chrom...原创 2019-09-21 11:01:59 · 11092 阅读 · 2 评论 -
seliunm的基本使用
这篇写一个selenium简单爬虫,至于安装什么的,直接下,网上有不少资源,chromedriver的下载,主要写一个基本的写法 1.模拟浏览器 2.获取爬虫的url,模拟浏览器 3.模拟浏览器,点击切换页面, 4获取内容,写成item保存 5.文本写入 # !/usr/bin/python3 # -*- coding: utf-8 -*- import csv import json impor...原创 2019-09-21 10:47:56 · 951 阅读 · 1 评论 -
百度贴吧爬虫
爬虫基本格式上篇有了,这篇记录图片的爬取,同样没啥技术点,上代码 import requests from lxml import etree from pprint import pprint class TiebaSpider(object): def __init__(self): self.kw = "魔兽世界" self.base_url = ...原创 2019-09-21 10:07:08 · 239 阅读 · 0 评论 -
起点爬虫爬取全部书籍
起点的爬虫没有什么特殊的难点,就以基本的爬虫步骤简单的看一下,不说上代码 // A code block import csv import json from lxml import etree import requests class QiDianSpider(object): def __init__(self): self.base_url="https://www.qidian...原创 2019-09-21 09:55:30 · 2399 阅读 · 0 评论 -
illegal multibyte sequence
抓取数据时遇到的问题 gbk无法解码,illegal multibyte sequence 原因:1.utf-8编码 2.gbk编码,但是有多字符和特殊字符gbk无法解码 解决方式:打开网页:F12 在console输入document.charset 查看编码方式 确定编码方式后,如果是utf-8 就改编码语言,如果是gbk那么问题就出在第二项上 解决方式: 改用复杂度更高的gb18030,解码...原创 2018-11-26 10:14:51 · 31858 阅读 · 1 评论 -
python爬虫js逆向
js逆向要想是想,要非常熟悉web的运行流程,针对不同网站,有不同的思路,这个博客是针对人人直播的一个爬取,先直接上代码,然后在讲解, import requests import js2py import json headers = { "User-Agent":"Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) Apple...原创 2019-09-22 11:20:05 · 1062 阅读 · 0 评论