自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 编写Python脚本查询最近七天或者最近1天的百度收录量

最近需要每天提交查询一批网站的百度最近7天的收录量,网站现在还不确定数量,可能比较多。编写Python脚本,定时自动运行,将结果存入excel或者mysql数据库都可以。在网上也找了相关的代码,但是大部分都是查询所有的收录量,没有定制日期的查询。说下自己的代码思路吧。1.将一批网站存入txt文档中,在Python中打开2.site:本链接,发送请求,获取想要的数据3.存到本地。先分析了si...

2019-01-11 15:31:05 876

原创 scrapy项目多个spider同时运行的问题

最近需要爬取大概10个网站的数据,如果创建10个项目的话,pipelines文件和items文件还有middleware,settings文件都是可以共用的。没必要每个项目都写一遍。所以用scrapy只创建一个项目,创建多个spider,启动爬虫时只写一个启动脚本就可以全部同时启动。但是问题出现了,编写完多个spider文件之后,启动时报错。查完网上各种解答方案,找到解决办法。最后会发上参考的...

2019-01-10 13:44:40 4509 6

原创 记录使用scrapy爬取新闻网站最新新闻存入MySQL数据库,每天定时爬取自动更新

爬取每天更新的新闻,使用scrapy框架,Python2.7,存入MySQL数据库,将每次的爬虫日志和爬取过程中的bug信息存为log文件下。定义bat批处理文件,添加到计划任务程序中,自动爬取。额…1.在items文件中,定义需要爬取的类2.在settings文件中设置默认项,设置日志输出格式,打开pipeline文件,设置delay时间,设置数据库信息,设置请求头等信息3.编写自己...

2019-01-08 13:36:52 3385

原创 准备写个脚本定时运行scrapy,但是写完之后scrapy无法运行,启动后无任何相应

写的脚本import osos.system("scrapy crawl touchuang")运行脚本时,出现类似这样的错误:0: UserWarning: You do not have a working installation of the service_identity module: 'cannot import name 'opentype''. Please ins...

2019-01-05 10:51:32 1011

原创 Python爬取新闻网站的标题和链接存入Excel

最近爬取的一个新闻网站的标题和新闻页的链接还有发布时间。用到了BS4和re,在对要进行爬取的网页url处理时,我选择的是放入Quene中,调用。其实放入set()或者存为txt都可以。正则用的不是太66,所以正则部分显得有点牵强。数据存储选择为Excel,可以存为MySQL的,代码还没写,稍后会添加进来。代码还有不足之处,在做修改。# coding:utf-8import reques...

2018-12-19 15:48:56 3597 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除