记录使用scrapy爬取新闻网站最新新闻存入MySQL数据库，每天定时爬取自动更新

最新推荐文章于 2022-01-02 05:08:53 发布

我是修行千年的板蓝根

最新推荐文章于 2022-01-02 05:08:53 发布

阅读量3.3k

点赞数 2

文章标签： python爬虫 scrapy 定时执行

本文链接：https://blog.csdn.net/weixin_43857152/article/details/86071216

版权

爬取每天更新的新闻，使用scrapy框架，Python2.7，存入MySQL数据库，将每次的爬虫日志和爬取过程中的bug信息存为log文件下。定义bat批处理文件，添加到计划任务程序中，自动爬取。
在这里插入图片描述
额…
1.在items文件中，定义需要爬取的类

2.在settings文件中设置默认项，设置日志输出格式，打开pipeline文件，设置delay时间，设置数据库信息，设置请求头等信息
3.编写自己的spider文件

class TouchuangSpider(scrapy.Spider):
    name = 'touchuang'
    allowed_domains = ['xunjk.com']
    url = {
        "1": "http://www.xunjk.com/xinwen/rongzi/",     # 融资
        "2": "http://www.xunjk.com/shangye/",           # 商业
        "3": "http://www.xunjk.com/xinwen/yanjiu/",      # 研究
        "4": "http://www.xunjk.com/xinwen/keji/",       # 科技
        "5": "http://www.xunjk.com/xinwen/jinrong/",    # 金融

最低0.47元/天解锁文章

我是修行千年的板蓝根

关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
记录使用scrapy爬取新闻网站最新新闻存入MySQL数据库，每天定时爬取自动更新

爬取每天更新的新闻，使用scrapy框架，Python2.7，存入MySQL数据库，将每次的爬虫日志和爬取过程中的bug信息存为log文件下。定义bat批处理文件，添加到计划任务程序中，自动爬取。额…1.在items文件中，定义需要爬取的类2.在settings文件中设置默认项，设置日志输出格式，打开pipeline文件，设置delay时间，设置数据库信息，设置请求头等信息3.编写自己...
复制链接

扫一扫