Task03:打卡

本文介绍了数据采集过程中的关键步骤,如京东关键词循环和豆瓣数据格式化,强调了正则表达式在数据清理和格式化中的重要作用。通过替换、正则表达式替换、正则表达式匹配等功能,可以有效地提取和整理所需信息。此外,还探讨了正则表达式的用途,不仅限于数据采集,还可用于文本匹配、查找和替换,提高工作效率。
摘要由CSDN通过智能技术生成

一.学习链接

3.自定义数据采集

3.1京东关键词循环与特殊字段

3.2豆瓣数据格式化

3.3正则表达式*

3.4练习与思考

参考链接:

https://www.bazhuayu.com/tutorial8/81srgjc

https://www.bazhuayu.com/tutorial8/81gshsj

本文学习内容分享均来自上面学习链接的分享!

二.学习视频

(一)京东关键词循环

视频

(二)豆瓣数据格式化(摘抄)

采集中我们发现作者和出版社等信息都混到了一起,如果我们只想要其中的一部分怎么办?

字段提取完成以后,鼠标移动到目标字段上,然后点击 【...】按钮,选择【格式化数据】,就会进入【格式化数据】配置页面。

原始值:原始字段

结果:经过格式化步骤后,输出的字段结果

添加步骤:提供8个数据格式化选项:替换、正则表达式替换、正则表达式匹配、去除空格、添加前缀、添加后缀、日期时间格式化、Html。

以下将配合具体案例,详解这8个选项如何使用

1.替换

将字段中的部分或全部内容替换为其他内容,支持文字、数字、符号、空格、换行符的替换

例如:如果我们想将字段【436665人评价】中的文本【人评价】去掉,只留下数字【43665】。

具体步骤为:

2、正则表达式替换

用正则表达式将字段中的部分或全部内容找出来,然后将其替换为其他内容,支持文字、数字、符号、空格、换行符的替换。相比简单的【替换】,【正则表达式替换】更为强大灵活。

在提取书籍信息时,我们发现采集到的数据中有很多空格,我们想将空格去除掉

【正则表达式】:\s+(这条正则表达式的意思是,找到字段中所有的空格)

3、正则表达式匹配

用正则表达式将字段中的部分或全部内容提取出来

实例:在采集数据中,我们只需要作者这一行的信息

首先使用正则表达式替换,将空格全部替换为空

接着使用正则表达式匹配将作者的相关信息提取出来

4、去除空格

包括三种,分别是【去除开头空格】、【去除结尾空格】、【去除两头空格】

5、添加前缀

增加前缀,就是在采集的字段前增加相关信息,如下图所示

6、添加后缀

怎么理解增加前缀,就是在采集的字段后增加相关信息

7、日期时间格式化

选中时间字段,选择【日期时间格式化】,将日期转化成需要的格式或者仅提取日期时间中的某一部分。

8、HTML转码

html页面中会有html带有相关的特殊标记,需要将这些特殊的标记进行转换,比如gt;转化为>,nbsp;转化为空格等等,当然这种类型也能用替换来解决。

三正则表达式

1、正则表达式简介

正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个【规则字符串】,这个【规则字符串】用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式,该模式描述在搜索文本时要匹配的一个或多个字符串。

2、正则表达式的用途

字符串匹配(字符匹配)

字符串查找

字符串替换

四.练习与思考

1.在数据采集过程中,数据格式化作用是什么?为什么要进行数据格式化?

在实际的采集过程中,采集到的数据可能不满足我们的需求,因此需要对数据进行格式化。

2.除了在数据采集中,正则表达式能用在学习和生活中的哪些方面?

正则表达式明确编译后,它可以描述和分析复杂的文本,提高工作和学习效率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值