pandas task8：文本数据

最新推荐文章于 2024-09-14 19:55:48 发布

小五的眼里有星星

最新推荐文章于 2024-09-14 19:55:48 发布

阅读量90

点赞数

分类专栏： DW_pandas学习记录文章标签： python 字符串

本文链接：https://blog.csdn.net/xiaowu_55555/article/details/112299650

版权

DW_pandas学习记录专栏收录该内容

12 篇文章 0 订阅

订阅专栏

一、str对象

1. str对象的设计意图

str对象是定义在Index或Series上的属性，专门用于逐元素处理文本内容，其内部定义了大量方法，因此对一个序列进行文本处理，首先需要获取其str对象。在Python标准库中也有str模块，为了使用上的便利，有许多函数的用法pandas照搬了它的设计，例如字母转为大写的操作：

var = 'abcd'
str.upper(var) # Python内置str模块

2. []索引器

对于str对象而言，可理解为其对字符串进行了序列化的操作，例如在一般的字符串中，通过[]可以取出某个位置的元素：

var[0]

从零开始~

var[-1: 0: -2]

output：
‘db’

关于切片：

记住后面的式子：[start_index: stop_index: step]
start_index是切片的起始位置
stop_index是切片的结束位置（不包括）
step可以不提供，默认值是1，步长值不能为0，不然会报错ValueError

例如，a = [1,2,3,4,5]
a[-2:]表示start_index=-2，一直取值到结束，step=1，所以结果为[4,5]
a[:-2]表示stop_index=-2，start_index为默认的0，step=1，所以结果为[1,2,3]

关于step：

step为正，则从左到右切片，如果 start > end，则为空
step为负，则从右到左切片，如果 start < end，则为空
start 和 end 填空，前者表示最开始，后者表示最后一个, 同时为空的时候，表示取所有。至于方向，取决于 step

3. string类型

从pandas的1.0.0版本开始，引入了string类型，其引入的动机在于：原来所有的字符串类型都会以object类型的Series进行存储，但object类型只应当存储混合类型，例如同时存储浮点、字符串、字典、列表、自定义类型等，因此字符串有必要同数值型或category一样，具有自己的数据存放类型，从而引入了string类型。

总体上说，绝大多数对于object和string类型的序列使用str对象方法产生的结果是一致，但是在下面提到的两点上有较大差异：

首先，应当尽量保证每一个序列中的值都是字符串的情况下才使用str属性，但这并不是必须的，其必要条件是序列中至少有一个可迭代（Iterable）对象，包括但不限于字符串、字典、列表。对于一个可迭代对象，string类型的str对象和object类型的str对象返回结果可能是不同的。

s = pd.Series([{1: 'temp_1', 2: 'temp_2'}, ['a', 'b'], 0.5, 'my_string'])
s.str[1]

output：
在这里插入图片描述
注意：对于全体元素为数值类型的序列，即使其类型为object或者category也不允许直接使用str属性。如果需要把数字当成string类型处理，可以使用astype强制转换为string类型的Series：

s = pd.Series([12, 345, 6789])
s.astype('string').str[1]

小五的眼里有星星

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录