前言
前面主要描述了如何从网页上爬取下云服务器的价格等信息,但是,爬下来的数据又不能直接存储到数据库中,还需要对数据进行清理、转换等。
数据处理
存储数据的格式
存储数据的数据字典
在我们爬取的数据里有些信息时没有的,我们给他们赋一个默认值。cpu_type是没有的,我们赋值为“无”,pps是没有的,我们赋值为“1”,product_type是没有的,我们赋值为“无”
像location、product_type是直接能从我们爬取的数据里拿的
像product_id、company、spider_date是需要我们从外面进行赋值。product_id是递增的,company是云服务器所属的公司、spider_date是爬取的日期
cpu_core和ram需要经过简单的处理。我们爬取的这两项内容都是文本类型,但要求的是int类型,具体的做法是去除数据的最后一个字符(单位),然后有文本转换为int
rol=[]
rol.append(i+14583)
rol.append("huawei")
rol.append(int(rows[i][7][:-1]))
rol.append("无")
rol.append(rows[i][1])
rol.append(1)
rol.append("无")
rol.append(rows[i][6])
rol.append(int(rows[i][8][:-2]))
rol.append("2021-07-07")