python数据分析学习day04:文件操作

weixin_44748589

已于 2022-07-03 10:04:46 修改

阅读量1k

点赞数 1

分类专栏： nlp学习笔记文章标签： python numpy

于 2022-06-30 15:11:27 首次发布

本文链接：https://blog.csdn.net/weixin_44748589/article/details/125537719

版权

nlp学习笔记专栏收录该内容

13 篇文章 3 订阅

订阅专栏

本文详细介绍了NumPy的loadtxt函数，用于读取txt和csv文件。通过设置dtype、delimiter、converters等参数实现不同类型和格式的数据读取。例如，自定义数据类型读取带有列名的数据，使用converters处理空值，以及选择性读取特定列。同时，文章展示了如何计算特定列的统计信息，如女性平均身高。

摘要由CSDN通过智能技术生成

loadtxt读取txt文本、csv文件

loadtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0,encoding='bytes')

参数：

fname：指定文件名称或字符串。支持压缩文件，包括gz、bz格式。
dtype：数据类型。默认float。
comments：字符串或字符串组成的列表。表示注释字符集开始的标志，默认为#。
delimiter：字符串。分隔符。
converters：字典。将特定列的数据转换为字典中对应的函数的浮点型数据。例如将空值转换为0，默认为空。
skiprows：跳过特定行数据。例如跳过前1行（可能是标题或注释）。默认为0。如果没有指定该参数，默认不读取注释行和空行；如果指定了该参数，应从第一行（包括注释行和空行）数起
usecols：元组。用来指定要读取数据的列，第一列为0。例如（1， 3， 5），默认为空。
unpack：布尔型。指定是否转置数组，如果为真则转置，默认为False。
ndmin：整数型。指定返回的数组至少包含特定维度的数组。值域为0、1、2，默认为0。
encoding:编码, 确认文件是gbk还是utf-8 格式

返回：从文件中读取的数组。

# 读取普通文件文件 ,可以不用设置分隔符(空格 制表符)
data = np.loadtxt(r'D:\data1.txt',dtype=np.int32)
print(data,data.shape)
'''
    [[ 0  1  3  3  4  5  6  7  8  9]
     [20 21 22 23 24 25 26 27 28 29]] (2, 10)
'''
# 读取csv文件 ,设置分隔符,csv默认为,号
data = np.loadtxt('csv_test.csv',dtype=np.int32,delimiter=',')
print(data,data.shape)
'''
    [[ 0  1  2  3  4  5  6  7  8  9]
     [10 11 12 13 14 15 16 17 18 19]
     [20 21 22 23 24 25 26 27 28 29]] (3, 10)
'''

不同列标识不同信息数据读取

数据如下:

姓名年龄性别身高

小王 21 男 170

.....

老王 50 男 180

# 1. 以上数据由于不同列数据标识的含义和类型不同,因此需要自定义数据类型
user_info = np.dtype([('name','U10'),('age','i1'),('gender','U1'),('height','i2')])

# 2. 使用自定义的数据类型 读取数据
data = np.loadtxt('has_title.txt',dtype=user_info,skiprows=1, encoding='utf-8')
# 注意以上参数中:dtype 设置类型;  skiprows 跳过第一行; encoding 编码
print(data['age']) # [21 25 19 40 24 21 19 26 21 21 19 20]

# 计算女生的平均身高
isgirl = data['gender'] == '女'

print(isgirl) # [False  True  True False False  True  True False False  True  True  True]

print(data['height']) # [170 165 167 180 168 167 159 170 168 175 160 167]

girl_mean = np.mean(data['height'][isgirl])
'{:.2f}'.format(girl_mean) # '165.71'

读取指定的列

# 读取指定的列 usecols=(1,3) 标识只读取第2列和第4列
user_info = np.dtype([('age','i1'),('height','i2')])
print(user_info) # [('age', 'i1'), ('height', '<i2')]

# 使用自定义的数据类型 读取数据,
data = np.loadtxt('has_title.csv',dtype=user_info,delimiter=',',skiprows=1,usecols=(1,3))
# 注意以上参数中:dtype 设置类型;  skiprows 跳过第一行; delimiter 分隔符 ; usecols 指定读取列 
print(data) # [(22, 170) (25, 165) (19, 167) (20, 169) (21, 161) (19, 159) (27, 177)]

数据中存在空值进行处理

需要借助用于 converters参数,传递一个字典,key为列索引,value为对列中值得处理

比如:

csv中学生信息中存在空的年龄信息:

姓名年龄性别身高

小王 21 男 170

...

小谭男 169

...

小陈 27 男 177

# 读取指定的列 usecols=(1,3) 标识只读取第2列和第4列
user_info = np.dtype([('age','i1'),('height','i2')])
has_empty_data = np.loadtxt('has_empty_data.csv',dtype=user_info,delimiter=',',skiprows=1, usecols=(1,3))
has_empty_data

报错：

ValueError: could not convert string to float:

# 处理空数据,需要创建一个函数,接收列的参数,并加以处理.
def parse_age(age):
    try:
        return int(age)
    except:
        return 0

# 使用自定义的数据类型 读取数据,
data = np.loadtxt('has_empty_data.csv',dtype=user_info,delimiter=',',skiprows=1,usecols=(1,3),converters={1:parse_age,3:parse_age})
print(data) # [(21, 170) (25, 165) (19, 167) ( 0, 169) (21, 161) (19,   0) (27, 177)]

weixin_44748589

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
python数据分析学习day04:文件操作

loadtxt读取txt文本、、csv文件参数：fname：指定文件名称或字符串。支持压缩文件，包括gz、bz格式。dtype：数据类型。默认float。comments：字符串或字符串组成的列表。表示注释字符集开始的标志，默认为#。delimiter：字符串。分隔符。converters：字典。将特定列的数据转换为字典中对应的函数的浮点型数据。例如将空值转换为0，默认为空。skiprows：跳过特定行数据。例如跳过前1行（可能是标题或注释）。默认为0。如果没有指定该参数，默认不读取注释行和空行；如
复制链接

扫一扫