python数据分析学习day04:文件操作

  loadtxt读取txt文本、csv文件

loadtxt(fname, dtype=<type 'float'>, comments='#', delimiter=None, converters=None, skiprows=0, usecols=None, unpack=False, ndmin=0,encoding='bytes')

参数:

  • fname:指定文件名称或字符串。支持压缩文件,包括gz、bz格式。

  • dtype:数据类型。 默认float。

  • comments:字符串或字符串组成的列表。表示注释字符集开始的标志,默认为#。

  • delimiter:字符串。分隔符。

  • converters:字典。将特定列的数据转换为字典中对应的函数的浮点型数据。例如将空值转换为0,默认为空。

  • skiprows:跳过特定行数据。例如跳过前1行(可能是标题或注释)。默认为0。如果没有指定该参数,默认不读取注释行和空行;如果指定了该参数,应从第一行(包括注释行和空行)数起

  • usecols:元组。用来指定要读取数据的列,第一列为0。例如(1, 3, 5),默认为空。

  • unpack:布尔型。指定是否转置数组,如果为真则转置,默认为False。

  • ndmin:整数型。指定返回的数组至少包含特定维度的数组。值域为0、1、2,默认为0。

  • encoding:编码, 确认文件是gbk还是utf-8 格式

返回:从文件中读取的数组。

# 读取普通文件文件 ,可以不用设置分隔符(空格 制表符)
data = np.loadtxt(r'D:\data1.txt',dtype=np.int32)
print(data,data.shape)
'''
    [[ 0  1  3  3  4  5  6  7  8  9]
     [20 21 22 23 24 25 26 27 28 29]] (2, 10)
'''
# 读取csv文件 ,设置分隔符,csv默认为,号
data = np.loadtxt('csv_test.csv',dtype=np.int32,delimiter=',')
print(data,data.shape)
'''
    [[ 0  1  2  3  4  5  6  7  8  9]
     [10 11 12 13 14 15 16 17 18 19]
     [20 21 22 23 24 25 26 27 28 29]] (3, 10)
'''

不同列标识不同信息 数据读取

数据如下:

姓名 年龄 性别 身高

小王 21 男 170

.....

老王 50 男 180

# 1. 以上数据由于不同列数据标识的含义和类型不同,因此需要自定义数据类型
user_info = np.dtype([('name','U10'),('age','i1'),('gender','U1'),('height','i2')])

# 2. 使用自定义的数据类型 读取数据
data = np.loadtxt('has_title.txt',dtype=user_info,skiprows=1, encoding='utf-8')
# 注意以上参数中:dtype 设置类型;  skiprows 跳过第一行; encoding 编码
print(data['age']) # [21 25 19 40 24 21 19 26 21 21 19 20]

# 计算女生的平均身高
isgirl = data['gender'] == '女'

print(isgirl) # [False  True  True False False  True  True False False  True  True  True]

print(data['height']) # [170 165 167 180 168 167 159 170 168 175 160 167]

girl_mean = np.mean(data['height'][isgirl])
'{:.2f}'.format(girl_mean) # '165.71'

读取指定的列

# 读取指定的列 usecols=(1,3) 标识只读取第2列和第4列
user_info = np.dtype([('age','i1'),('height','i2')])
print(user_info) # [('age', 'i1'), ('height', '<i2')]

# 使用自定义的数据类型 读取数据,
data = np.loadtxt('has_title.csv',dtype=user_info,delimiter=',',skiprows=1,usecols=(1,3))
# 注意以上参数中:dtype 设置类型;  skiprows 跳过第一行; delimiter 分隔符 ; usecols 指定读取列 
print(data) # [(22, 170) (25, 165) (19, 167) (20, 169) (21, 161) (19, 159) (27, 177)]

数据中存在空值进行处理

需要借助用于 converters参数,传递一个字典,key为列索引,value为对列中值得处理

比如:

csv中学生信息中存在空的年龄信息:

姓名 年龄 性别 身高

小王 21 男 170

...

小谭 男 169

...

小陈 27 男 177

# 读取指定的列 usecols=(1,3) 标识只读取第2列和第4列
user_info = np.dtype([('age','i1'),('height','i2')])
has_empty_data = np.loadtxt('has_empty_data.csv',dtype=user_info,delimiter=',',skiprows=1, usecols=(1,3))
has_empty_data

报错:

ValueError: could not convert string to float: 
# 处理空数据,需要创建一个函数,接收列的参数,并加以处理.
def parse_age(age):
    try:
        return int(age)
    except:
        return 0

# 使用自定义的数据类型 读取数据,
data = np.loadtxt('has_empty_data.csv',dtype=user_info,delimiter=',',skiprows=1,usecols=(1,3),converters={1:parse_age,3:parse_age})
print(data) # [(21, 170) (25, 165) (19, 167) ( 0, 169) (21, 161) (19,   0) (27, 177)]

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值