2021-07-08山东大学暑期实训第二周2

文章目录


前言

前面主要描述了如何从网页上爬取下云服务器的价格等信息,但是,爬下来的数据又不能直接存储到数据库中,还需要对数据进行清理、转换等。


数据处理

存储数据的格式
在这里插入图片描述
存储数据的数据字典
在这里插入图片描述
在我们爬取的数据里有些信息时没有的,我们给他们赋一个默认值。cpu_type是没有的,我们赋值为“无”,pps是没有的,我们赋值为“1”,product_type是没有的,我们赋值为“无”

像location、product_type是直接能从我们爬取的数据里拿的

像product_id、company、spider_date是需要我们从外面进行赋值。product_id是递增的,company是云服务器所属的公司、spider_date是爬取的日期

cpu_core和ram需要经过简单的处理。我们爬取的这两项内容都是文本类型,但要求的是int类型,具体的做法是去除数据的最后一个字符(单位),然后有文本转换为int

        rol=[]
        rol.append(i+14583)
        rol.append("huawei")
        rol.append(int(rows[i][7][:-1]))
        rol.append("无")
        rol.append(rows[i][1])
        rol.append(1)
        rol.append("无")
        rol.append(rows[i][6])
        rol.append(int(rows[i][8][:-2]))
        rol.append("2021-07-07")
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值