(初学爬虫)爬取湘药监局药品经营及GSP的信息

爬虫里的问题:
1.因为表格里第一行是items的名称,不需要,因此使用if语句跳过第一个tr:
          ……
 rows = response.css('.MsoNormalTable')[0].xpath('//tbody/tr')
        a = 0
        for r in rows:
            if a == 0:
                a = 1
                continue   #跳过第一个循环
            item['qymc'] = r.xpath('td[1]/p/span/text()').extract()
           ……
2.控制台可显示items里的内容,数据库里却没有数据。经百度,原因在于爬下来的某些item的内容是断开的,分成了一块块的,为list类型,无法存入数据库。因此用join()的方法把他们变成一个string类型的字符串后再存入item:
            item['qymc'] = r.xpath('td[1]/p/span/text()').extract()
            item['jyfs'] = r.xpath('td[2]/p/span/text()').extract()

            str2='、'.join(['%s' %i for i in r.xpath('td[3]/p/span/text()').extract()])
            item['jyfw'

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值