scrapy
nio006
这个作者很懒,什么都没留下…
展开
-
scrapy集成selenium
1.首先要明确scrapy的流程spider将request发给downloader middleware去下载,然后后者再将response交还给spider去解析。2.因此,在middleware收到request之后,可以不用直接去下载,而使用selenium.webdriver去下载,然后返回response,这涉及到一个模块scrapy.http.HtmlResponse.3.同时,...原创 2019-03-31 22:49:09 · 337 阅读 · 0 评论 -
001
# coding=utf8from socket import *import struct,sys, string, logging, json,pdbsys.path.append("../server/")reload(sys)sys.setdefaultencoding('utf8')import osimport hashlibimport timeimport gea...原创 2019-03-28 21:42:42 · 91 阅读 · 0 评论 -
oo1
import argparse,os,datetime,logging,timefrom urllib.parse import quotefrom scrapy.cmdline import executefrom crawler import settingsnow=datetime.datetime.now()# 设置日志logger=logging.getLogger('c...原创 2019-03-28 21:43:58 · 222 阅读 · 0 评论 -
003
# -*- coding: utf-8 -*-# Define your item pipelines here## Don't forget to add your pipeline to the ITEM_PIPELINES setting# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.htmlimport ...原创 2019-03-28 21:45:56 · 108 阅读 · 0 评论 -
搜狗微信公众号爬虫(完美越过各种验证码,日采集文章数万)
# -*- coding: utf-8 -*-import time,reimport random,base64,zlibimport requestsimport scrapyfrom urllib.parse import quotefrom scrapy import Requestfrom weixin_0530.items import Weixin0530Itemf...原创 2019-05-31 18:20:35 · 7557 阅读 · 25 评论 -
enumerate之大文件行数统计
count=0data=open(filepath,‘r’)for k,v in enumerate(data): count+=1print(count)原创 2019-06-03 22:38:56 · 241 阅读 · 0 评论 -
以pd的格式写入与txt格式写入的比较
当我们将内存中的集合,列表存储到本地时,存储为txt还是pandas.DataFrame的格式,我们需要考虑好。否则再次使用时,很麻烦。最好是转为DataFrame或者Numpy,这样拿出来时可以直接用。不然,写为txt,读出来就是字符串,格式变了,还得自己想办法转回来,会很麻烦。...原创 2019-03-15 16:33:33 · 1145 阅读 · 0 评论 -
多线程与多进程
多线程之间可以共享资源,进程指的是一个程序多次执行,多进程之间无法共享。多进程之间要解决进曾之间的通讯问题。原创 2018-12-21 19:54:32 · 92 阅读 · 0 评论 -
TCP协议的三次握手和四次挥手
TCP协议中标志位如下: 1.SYN(synchronous)建立联机 2.ACK(acknowledgement)确认 3.PSH(push传送) 4.FIN(finish结束) 5.RST(reset重置)‘ 6.URG(urgent紧急)三次挥手(1.发送建立连接请求2.一方确认3.另一方也确认)1.client将SYN标志位置为1,向server发送SYN=1,seq nu...原创 2018-12-22 09:43:44 · 116 阅读 · 0 评论 -
scrapy使用流程
1.scrapy使用时,首先打开settings,关闭robert协议,加header请求头,以及打开piplines2.spiders写好后,Request交给引擎,转到Schaduler,在转给引擎,再给downloader,下载后,交给引擎,再给piplines。3.piplines是存储用的,使用时,要在settings里打开...原创 2019-03-04 23:05:07 · 98 阅读 · 0 评论 -
scrapy直接在ipython中用
在根目录创建一个新的py文件from scrapy import cmdlinecmdline.execute(["scrapy","crawl","BaiduBaike"])原创 2019-03-04 23:15:08 · 337 阅读 · 0 评论 -
Scrapy使用过程中一些问题总结
1.显示没有crawl命令。解决办法:切换到项目里再执行2.原创 2019-03-03 21:47:04 · 160 阅读 · 1 评论 -
scrapy断点爬取需要注意的问题
1.执行命令scrapy crawl bdbk -s JOBDIR=job_info/0012.重新爬取时,一定要注意文件里是否有数据,如果有的话,千万不要以w或wb形式写入,否则原先内容会被覆盖。要以a或ab形式写入。...原创 2019-03-06 20:38:35 · 563 阅读 · 0 评论 -
scrapy爬取大规模数据存储于文本形式时,如何保证一个文本达到一定大小后,自动存储于另一个新文本中
import osfrom scrapy.exporters import JsonLinesItemExporterclass BkPipeline(object): def __init__(self): self.time_stamp=0 self.fp=open("file_{}.json".format(str(self.time_stamp)...原创 2019-03-06 20:55:05 · 352 阅读 · 0 评论 -
scrapy.spider中不同解析函数之间数据的传递之—meta
def parse_00(self,response): yield Request(url,self.parse_01,meta={'item':item}) def parse_01(self,response): response.meta['item']原创 2019-03-07 23:07:38 · 1114 阅读 · 0 评论 -
解决scrapy有关twisted报错的问题
from twisted.internet import asyncioreactorasyncioreactor.install()原创 2019-08-07 10:34:32 · 530 阅读 · 0 评论