loadtxt读取txt文本、csv文件
loadtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0,encoding='bytes')
参数:
-
fname:指定文件名称或字符串。支持压缩文件,包括gz、bz格式。
-
dtype:数据类型。 默认float。
-
comments:字符串或字符串组成的列表。表示注释字符集开始的标志,默认为#。
-
delimiter:字符串。分隔符。
-
converters:字典。将特定列的数据转换为字典中对应的函数的浮点型数据。例如将空值转换为0,默认为空。
-
skiprows:跳过特定行数据。例如跳过前1行(可能是标题或注释)。默认为0。如果没有指定该参数,默认不读取注释行和空行;如果指定了该参数,应从第一行(包括注释行和空行)数起
-
usecols:元组。用来指定要读取数据的列,第一列为0。例如(1, 3, 5),默认为空。
-
unpack:布尔型。指定是否转置数组,如果为真则转置,默认为False。
-
ndmin:整数型。指定返回的数组至少包含特定维度的数组。值域为0、1、2,默认为0。
-
encoding:编码, 确认文件是gbk还是utf-8 格式
返回:从文件中读取的数组。
# 读取普通文件文件 ,可以不用设置分隔符(空格 制表符)
data = np.loadtxt(r'D:\data1.txt',dtype=np.int32)
print(data,data.shape)
'''
[[ 0 1 3 3 4 5 6 7 8 9]
[20 21 22 23 24 25 26 27 28 29]] (2, 10)
'''
# 读取csv文件 ,设置分隔符,csv默认为,号
data = np.loadtxt('csv_test.csv',dtype=np.int32,delimiter=',')
print(data,data.shape)
'''
[[ 0 1 2 3 4 5 6 7 8 9]
[10 11 12 13 14 15 16 17 18 19]
[20 21 22 23 24 25 26 27 28 29]] (3, 10)
'''
不同列标识不同信息 数据读取
数据如下:
姓名 年龄 性别 身高
小王 21 男 170
.....
老王 50 男 180
# 1. 以上数据由于不同列数据标识的含义和类型不同,因此需要自定义数据类型
user_info = np.dtype([('name','U10'),('age','i1'),('gender','U1'),('height','i2')])
# 2. 使用自定义的数据类型 读取数据
data = np.loadtxt('has_title.txt',dtype=user_info,skiprows=1, encoding='utf-8')
# 注意以上参数中:dtype 设置类型; skiprows 跳过第一行; encoding 编码
print(data['age']) # [21 25 19 40 24 21 19 26 21 21 19 20]
# 计算女生的平均身高
isgirl = data['gender'] == '女'
print(isgirl) # [False True True False False True True False False True True True]
print(data['height']) # [170 165 167 180 168 167 159 170 168 175 160 167]
girl_mean = np.mean(data['height'][isgirl])
'{:.2f}'.format(girl_mean) # '165.71'
读取指定的列
# 读取指定的列 usecols=(1,3) 标识只读取第2列和第4列
user_info = np.dtype([('age','i1'),('height','i2')])
print(user_info) # [('age', 'i1'), ('height', '<i2')]
# 使用自定义的数据类型 读取数据,
data = np.loadtxt('has_title.csv',dtype=user_info,delimiter=',',skiprows=1,usecols=(1,3))
# 注意以上参数中:dtype 设置类型; skiprows 跳过第一行; delimiter 分隔符 ; usecols 指定读取列
print(data) # [(22, 170) (25, 165) (19, 167) (20, 169) (21, 161) (19, 159) (27, 177)]
数据中存在空值进行处理
需要借助用于 converters参数,传递一个字典,key为列索引,value为对列中值得处理
比如:
csv中学生信息中存在空的年龄信息:
姓名 年龄 性别 身高
小王 21 男 170
...
小谭 男 169
...
小陈 27 男 177
# 读取指定的列 usecols=(1,3) 标识只读取第2列和第4列
user_info = np.dtype([('age','i1'),('height','i2')])
has_empty_data = np.loadtxt('has_empty_data.csv',dtype=user_info,delimiter=',',skiprows=1, usecols=(1,3))
has_empty_data
报错:
ValueError: could not convert string to float:
# 处理空数据,需要创建一个函数,接收列的参数,并加以处理.
def parse_age(age):
try:
return int(age)
except:
return 0
# 使用自定义的数据类型 读取数据,
data = np.loadtxt('has_empty_data.csv',dtype=user_info,delimiter=',',skiprows=1,usecols=(1,3),converters={1:parse_age,3:parse_age})
print(data) # [(21, 170) (25, 165) (19, 167) ( 0, 169) (21, 161) (19, 0) (27, 177)]