记录使用scrapy爬取新闻网站最新新闻存入MySQL数据库,每天定时爬取自动更新

爬取每天更新的新闻,使用scrapy框架,Python2.7,存入MySQL数据库,将每次的爬虫日志和爬取过程中的bug信息存为log文件下。定义bat批处理文件,添加到计划任务程序中,自动爬取。
在这里插入图片描述
额…
1.在items文件中,定义需要爬取的类
在这里插入图片描述
2.在settings文件中设置默认项,设置日志输出格式,打开pipeline文件,设置delay时间,设置数据库信息,设置请求头等信息
3.编写自己的spider文件

class TouchuangSpider(scrapy.Spider):
    name = 'touchuang'
    allowed_domains = ['xunjk.com']
    url = {
        "1": "http://www.xunjk.com/xinwen/rongzi/",     # 融资
        "2": "http://www.xunjk.com/shangye/",           # 商业
        "3": "http://www.xunjk.com/xinwen/yanjiu/",      # 研究
        "4": "http://www.xunjk.com/xinwen/keji/",       # 科技
        "5": "http://www.xunjk.com/xinwen/jinrong/",    # 金融
      
  • 2
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值