已爬取数据的清洗与存储

最新推荐文章于 2023-06-06 10:48:01 发布

sdu2018lzq

最新推荐文章于 2023-06-06 10:48:01 发布

阅读量3.1k

点赞数 2

分类专栏：项目实训个人博客

本文链接：https://blog.csdn.net/weixin_46287795/article/details/115642953

版权

本文介绍了在完成招聘信息爬取后，如何进行数据清洗和数据库存储。内容包括数据清洗（去除无效和错误信息，统一数据格式），数据库表设计，信息导入（使用Scrapy数据管道连接MySQL数据库存储数据），以及最终成功存储1685条有效数据的执行结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

4月12日

实现了招聘信息的爬取功能之后，我们需要把爬取到的数据进行数据清洗与数据库存储。首先，整理获得的数据，将少数不规整的无效信息去除；其次，优化数据的表现形式，将不同格式的数据处理成统一的形式；然后，设计数据库表的存储形式，并在数据库中建立表；最后，通过Scrapy框架的数据管道连接数据库，将处理好后的数据存储至数据库中。

数据清洗：

数据清洗指的是通过程序将数据文件中可识别的错误发现并纠正，处理无效值和缺失值，并提供数据一致性。对于此次项目从招聘网站中获取的信息，我们需要去除不规整的无效数据，再将不同格式的数据处理成统一的形式。

我对通过爬取获得的数据进行观察与分析，有些网页的数据项不齐全，在处理过程中无法获取到该条招聘信息完整的数据；有些数据由于网页信息的展示不规整，爬取到的数据项错位，对于这些无效或是错误的数据，我们应该将其去除。对此，通过在存储数据之前进行的判断，确定数据的有效项目数是否齐全，跳过无效或是错误数据的存储，代码体现在数据管道的存入过程中。

由于从各个网页中获取到的数据表现形式不一，我经过如下分析与处理，优化数据的表现形式，保证数据的一致性。

从网页中获取的head_count项数据都是以字符串的形式表现的，且有些数据条目中没有确切的量，而在数据库中使用int型存储将会有更好的比较与筛选效果。所以，我将head_count项的数据进行处理，去除无关的字符，并将数字部分转换成int类型，其中“若干人”用-1来存储表示。实现代码如下：

head_count = q('.j_info div div span::text').extract()[0]
head_count = head_count.replace('人', '').replace('若干', '-1')
item['head_count'] = head_count