一、str对象
1. str对象的设计意图
str对象是定义在Index或Series上的属性,专门用于逐元素处理文本内容,其内部定义了大量方法,因此对一个序列进行文本处理,首先需要获取其str对象。在Python标准库中也有str模块,为了使用上的便利,有许多函数的用法pandas照搬了它的设计,例如字母转为大写的操作:
var = 'abcd'
str.upper(var) # Python内置str模块
2. []索引器
对于str对象而言,可理解为其对字符串进行了序列化的操作,例如在一般的字符串中,通过[]可以取出某个位置的元素:
var[0]
从零开始~
var[-1: 0: -2]
output:
‘db’
关于切片:
记住后面的式子:[start_index: stop_index: step]
start_index是切片的起始位置
stop_index是切片的结束位置(不包括)
step可以不提供,默认值是1,步长值不能为0,不然会报错ValueError
例如,a = [1,2,3,4,5]
a[-2:]表示start_index=-2,一直取值到结束,step=1,所以结果为[4,5]
a[:-2]表示stop_index=-2,start_index为默认的0,step=1,所以结果为[1,2,3]
关于step:
step为正,则从左到右切片,如果 start > end,则为空
step为负,则从右到左切片,如果 start < end,则为空
start 和 end 填空,前者表示最开始,后者表示最后一个, 同时为空的时候,表示取所有。至于方向,取决于 step
3. string类型
从pandas的1.0.0版本开始,引入了string类型,其引入的动机在于:原来所有的字符串类型都会以object类型的Series进行存储,但object类型只应当存储混合类型,例如同时存储浮点、字符串、字典、列表、自定义类型等,因此字符串有必要同数值型或category一样,具有自己的数据存放类型,从而引入了string类型。
总体上说,绝大多数对于object和string类型的序列使用str对象方法产生的结果是一致,但是在下面提到的两点上有较大差异:
首先,应当尽量保证每一个序列中的值都是字符串的情况下才使用str属性,但这并不是必须的,其必要条件是序列中至少有一个可迭代(Iterable)对象,包括但不限于字符串、字典、列表。对于一个可迭代对象,string类型的str对象和object类型的str对象返回结果可能是不同的。
s = pd.Series([{1: 'temp_1', 2: 'temp_2'}, ['a', 'b'], 0.5, 'my_string'])
s.str[1]
output:
注意:对于全体元素为数值类型的序列,即使其类型为object或者category也不允许直接使用str属性。如果需要把数字当成string类型处理,可以使用astype强制转换为string类型的Series:
s = pd.Series([12, 345, 6789])
s.astype('string').str[1]