- 博客(5)
- 收藏
- 关注
原创 编写Python脚本查询最近七天或者最近1天的百度收录量
最近需要每天提交查询一批网站的百度最近7天的收录量,网站现在还不确定数量,可能比较多。编写Python脚本,定时自动运行,将结果存入excel或者mysql数据库都可以。在网上也找了相关的代码,但是大部分都是查询所有的收录量,没有定制日期的查询。说下自己的代码思路吧。1.将一批网站存入txt文档中,在Python中打开2.site:本链接,发送请求,获取想要的数据3.存到本地。先分析了si...
2019-01-11 15:31:05 899
原创 scrapy项目多个spider同时运行的问题
最近需要爬取大概10个网站的数据,如果创建10个项目的话,pipelines文件和items文件还有middleware,settings文件都是可以共用的。没必要每个项目都写一遍。所以用scrapy只创建一个项目,创建多个spider,启动爬虫时只写一个启动脚本就可以全部同时启动。但是问题出现了,编写完多个spider文件之后,启动时报错。查完网上各种解答方案,找到解决办法。最后会发上参考的...
2019-01-10 13:44:40 4631 6
原创 记录使用scrapy爬取新闻网站最新新闻存入MySQL数据库,每天定时爬取自动更新
爬取每天更新的新闻,使用scrapy框架,Python2.7,存入MySQL数据库,将每次的爬虫日志和爬取过程中的bug信息存为log文件下。定义bat批处理文件,添加到计划任务程序中,自动爬取。额…1.在items文件中,定义需要爬取的类2.在settings文件中设置默认项,设置日志输出格式,打开pipeline文件,设置delay时间,设置数据库信息,设置请求头等信息3.编写自己...
2019-01-08 13:36:52 3392
原创 准备写个脚本定时运行scrapy,但是写完之后scrapy无法运行,启动后无任何相应
写的脚本import osos.system("scrapy crawl touchuang")运行脚本时,出现类似这样的错误:0: UserWarning: You do not have a working installation of the service_identity module: 'cannot import name 'opentype''. Please ins...
2019-01-05 10:51:32 1047
原创 Python爬取新闻网站的标题和链接存入Excel
最近爬取的一个新闻网站的标题和新闻页的链接还有发布时间。用到了BS4和re,在对要进行爬取的网页url处理时,我选择的是放入Quene中,调用。其实放入set()或者存为txt都可以。正则用的不是太66,所以正则部分显得有点牵强。数据存储选择为Excel,可以存为MySQL的,代码还没写,稍后会添加进来。代码还有不足之处,在做修改。# coding:utf-8import reques...
2018-12-19 15:48:56 3638 3
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人