我是修行千年的板蓝根-CSDN博客

原创编写Python脚本查询最近七天或者最近1天的百度收录量

最近需要每天提交查询一批网站的百度最近7天的收录量，网站现在还不确定数量，可能比较多。编写Python脚本，定时自动运行，将结果存入excel或者mysql数据库都可以。在网上也找了相关的代码，但是大部分都是查询所有的收录量，没有定制日期的查询。说下自己的代码思路吧。1.将一批网站存入txt文档中，在Python中打开2.site:本链接，发送请求，获取想要的数据3.存到本地。先分析了si...

2019-01-11 15:31:05 899

原创 scrapy项目多个spider同时运行的问题

最近需要爬取大概10个网站的数据，如果创建10个项目的话，pipelines文件和items文件还有middleware，settings文件都是可以共用的。没必要每个项目都写一遍。所以用scrapy只创建一个项目，创建多个spider，启动爬虫时只写一个启动脚本就可以全部同时启动。但是问题出现了，编写完多个spider文件之后，启动时报错。查完网上各种解答方案，找到解决办法。最后会发上参考的...

2019-01-10 13:44:40 4631 6

原创记录使用scrapy爬取新闻网站最新新闻存入MySQL数据库，每天定时爬取自动更新

爬取每天更新的新闻，使用scrapy框架，Python2.7，存入MySQL数据库，将每次的爬虫日志和爬取过程中的bug信息存为log文件下。定义bat批处理文件，添加到计划任务程序中，自动爬取。额…1.在items文件中，定义需要爬取的类2.在settings文件中设置默认项，设置日志输出格式，打开pipeline文件，设置delay时间，设置数据库信息，设置请求头等信息3.编写自己...

2019-01-08 13:36:52 3392

原创准备写个脚本定时运行scrapy，但是写完之后scrapy无法运行，启动后无任何相应

写的脚本import osos.system("scrapy crawl touchuang")运行脚本时，出现类似这样的错误:0: UserWarning: You do not have a working installation of the service_identity module: 'cannot import name 'opentype''. Please ins...

2019-01-05 10:51:32 1047

原创 Python爬取新闻网站的标题和链接存入Excel

最近爬取的一个新闻网站的标题和新闻页的链接还有发布时间。用到了BS4和re，在对要进行爬取的网页url处理时，我选择的是放入Quene中，调用。其实放入set()或者存为txt都可以。正则用的不是太66，所以正则部分显得有点牵强。数据存储选择为Excel，可以存为MySQL的，代码还没写，稍后会添加进来。代码还有不足之处，在做修改。# coding:utf-8import reques...

2018-12-19 15:48:56 3638 3

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 编写Python脚本查询最近七天或者最近1天的百度收录量

原创 scrapy项目多个spider同时运行的问题

原创 记录使用scrapy爬取新闻网站最新新闻存入MySQL数据库，每天定时爬取自动更新

原创 准备写个脚本定时运行scrapy，但是写完之后scrapy无法运行，启动后无任何相应

原创 Python爬取新闻网站的标题和链接存入Excel

空空如也

空空如也

原创编写Python脚本查询最近七天或者最近1天的百度收录量

原创记录使用scrapy爬取新闻网站最新新闻存入MySQL数据库，每天定时爬取自动更新

原创准备写个脚本定时运行scrapy，但是写完之后scrapy无法运行，启动后无任何相应