pandas task8:文本数据

一、str对象

1. str对象的设计意图

str对象是定义在Index或Series上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其str对象。在Python标准库中也有str模块,为了使用上的便利,有许多函数的用法pandas照搬了它的设计,例如字母转为大写的操作:

var = 'abcd'
str.upper(var) # Python内置str模块

2. []索引器

对于str对象而言,可理解为其对字符串进行了序列化的操作,例如在一般的字符串中,通过[]可以取出某个位置的元素:

var[0]

从零开始~

var[-1: 0: -2]

output:
‘db’

关于切片:

记住后面的式子:[start_index: stop_index: step]
start_index是切片的起始位置
stop_index是切片的结束位置(不包括)
step可以不提供,默认值是1,步长值不能为0,不然会报错ValueError

例如,a = [1,2,3,4,5]
a[-2:]表示start_index=-2,一直取值到结束,step=1,所以结果为[4,5]
a[:-2]表示stop_index=-2,start_index为默认的0,step=1,所以结果为[1,2,3]

关于step:

step为正,则从左到右切片,如果 start > end,则为空
step为负,则从右到左切片,如果 start < end,则为空
start 和 end 填空,前者表示最开始,后者表示最后一个, 同时为空的时候,表示取所有。至于方向,取决于 step

3. string类型

从pandas的1.0.0版本开始,引入了string类型,其引入的动机在于:原来所有的字符串类型都会以object类型的Series进行存储,但object类型只应当存储混合类型,例如同时存储浮点、字符串、字典、列表、自定义类型等,因此字符串有必要同数值型或category一样,具有自己的数据存放类型,从而引入了string类型。

总体上说,绝大多数对于object和string类型的序列使用str对象方法产生的结果是一致,但是在下面提到的两点上有较大差异:

首先,应当尽量保证每一个序列中的值都是字符串的情况下才使用str属性,但这并不是必须的,其必要条件是序列中至少有一个可迭代(Iterable)对象,包括但不限于字符串、字典、列表。对于一个可迭代对象,string类型的str对象和object类型的str对象返回结果可能是不同的。

s = pd.Series([{1: 'temp_1', 2: 'temp_2'}, ['a', 'b'], 0.5, 'my_string'])
s.str[1]

output:
在这里插入图片描述
注意:对于全体元素为数值类型的序列,即使其类型为object或者category也不允许直接使用str属性。如果需要把数字当成string类型处理,可以使用astype强制转换为string类型的Series:

s = pd.Series([12, 345, 6789])
s.astype('string').str[1]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值