目录
1. 案例
1.1 案例1 read_table
df = pd.read_table(r'E:\data\2012_08_10.dat', sep=',', skiprows=1)
- 首先,用记事本打开 dat 信息,查看内容。发现第一行为无用信息,跳过第一行, skiprows=1,
- 第二行和第三行看似杂乱,值的数量却和下面的行是一致的,需要保留。
- 内容都是由 逗号 隔开,所以 sep=‘,’ 。
1.2 案例2 read_csv
- error_bad_lines=False # 跳过出错的行,超出header字段的行(默认情况下,字段过多的行(例如,逗号过多的 csv 行)会引发异常,并且不会返回任何 DataFrame。 如果为 False,那么这些“坏行”将从返回的 DataFrame 中删除,然后返回正常的这部分数据。)
- skiprows 如果不加参数skiprows的话会报错,可以看出这是16*2的数据,如果想要去除多几行,如下图,在列表里添加你想要删除的哪几行,不支持切片[0:2]或者[0,1,3:6]
- parse_dates:默认是False,将该列解析为datetime格式
- parse_dates:将数据解析为datetimes格式,即datetime64[ns],可以将多个列合成为一个时间列,或者只解析一列。
- skipfooter:该参数只能是部分取消读入,且只能从后向前地设定取消读入部分,取消末尾的多少行。
- names:对列名进行命名。
- header:header关键字的主要功能有两个:
- 第一是将指定行的数据作为读取数据各列的列名,由最初读取数据显示出的信息表明,edu文件文件中第一排的“姓名”“居住地”“年级”“年龄”“是否住校”依次成为了各列的列名,这是因为header默认参数为0,即将edu文件中第一排作为列名的缘故。
- 第二个功能,那就是确定数据开始行,在将“阴晓彤”同学的数据变为新列名的同时,原本的列名“姓名”“居住地”“年级”“年龄”“是否住校”这一行却因为将第一排(实际的第二排)作为列名而消失了,这是因为同时本行也成为了读取数据的开始行。
data = pd.read_csv('F:\\0008_S.dat', error_bad_lines=False, skiprows=[0, 2, 3], nrows=10)
data['TIMESTAMP'] = pd.to_datetime(data['TIMESTAMP'], errors='coerce')
data1 = data.dropna(axis=0, subset=['TIMESTAMP'])
data2 = data1[(data1['TIMESTAMP'] >= pd.to_datetime('2017-12-31 00:00:01')) & (data1['TIMESTAMP'] < pd.to_datetime('2018-01-02 00:00:00'))]
当我修改参数 skiprows=3后,列名变得很奇怪
data = pd.read_csv('F:\\0008_S.dat', error_bad_lines=False, skiprows=3, nrows=10)
说明只跳过了[0, 1, 2]三行,3这一行为当前的列名[‘Unnamed: 0’, ‘Unnamed: 1’, ‘Avg’, ……],这一行(3)应该被跳过,而第1行应该保留。故应该skiprows=[0, 2, 3]
2. pandas.read_table() 详解
2.1 sep介绍
当字段是以多种不同数量的空格分开时,可以向read_table传入一个正则表达式作为分隔符。正则表达式为 \s+,因此我们可以得到:
In [21]: result = pd.read_table('examples/ex3.txt', sep='\s+')
In [22]: result
Out[22]:
A B C
aaa -0.264438 -1.026059 -0.619500
bbb 0.927272 0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382 1.100491
参数列表:适用于read_csv()和read_table()
3. read_csv()读取dat数据、写入dat
3.1 案例
import pandas as pd
#1:读取指定行
print("----读取指定的单行,数据会存在列表里面----")
df=pd.read_csv('测试.dat')#
data=df.loc[0].values#0表示第一行 这里读取数据并不包含表头,要注意哦!
print("读取指定行的数据:\n{0}".format(data))
写入
#写入dat文件
#index=0:索引不写入
#sep='|':写入具有分隔符的数据
df.to_csv('xxx.dat',header=None,encoding='utf-8',sep='|',quoting=3,index=0)
3.2 error_bad_lines参数
# 跳过超出header字段的行,如4个字段,579行出现了 5个
pd.read_table(, error_bad_lines=False)
# 显示的跳过信息
b'Skipping line 579: expected 4 fields, saw 5\n'
4. with + open()方法
文件中既包含表头
又有数据字段
,分隔符
包括数量不等的空格
、逗号
以及空格+逗号
,使用 read_csv 方法无法准确的获取数据。
解决办法就是直接使用 open() 方法对文件进行按行读取,再根据文件结构解析数据。如下:
import numpy as np
import pandas as pd
from pandas import DataFrame
import chardet
datalist = []
columnlist = []
with open('e:\data\StoneFlakes.dat','r') as f_write:
# 获取第一行表头数据
firstline = f_write.readline()
# 删除字符串头尾的特定字符
firstline = firstline.strip('\n')
# 将字符串按照空格进行分割
columnlist = firstline.split()
for line in f_write:
encoding_type = chardet.detect(line)['encoding'] # 获取该行的编码方式
line = eval(line.strip().decode(encoding_type)) # eval()将''TOA5', '瓜州'' 变为('TOA5', '瓜州')
f_write.close()
df = DataFrame(datalist, columns=columnlist)
附录:
for line in tqdm(f_write):
encoding_type = chardet.detect(line)['encoding']
if encoding_type == 'utf-8':
line = eval(line.strip().decode(encoding_type))
# line = line.split(',')
# ans.append(line)
# print('utf8', len(line), line)
elif encoding_type == 'ascii':
line = eval(line.strip().decode(encoding_type))
# line = line.split(',')
# ans.append(line)
# print('ascii', len(line), line)
else:
continue
if len(line) == 10:
ans.append(line)
else:
print(len(line), line)
f_write.close()
# ans_df = pd.DataFrame(ans[3:], columns=ans[0])
4.2 with + open() 获取最后一行
步骤:
- open打开日志文件。
- 移动文件读取指针到文件末尾。
- 从后往前移动指针直到合适的位置。
- 读取文件,提取指定行的数据。
优点:时间相对固定,适合处理大文件容贴出来:
fname = 'test.html'
with open(fname, 'r', encoding='utf-8') as f: # 打开文件
lines = f.readlines() # 读取所有行
first_line = lines[0] # 取第一行
last_line = lines[-1] # 取最后一行
print('文件' + fname + '第一行为:'+ first_line)
print('文件' + fname + '最后一行为:' + last_line)
with open(fname, 'rb') as f: # 打开文件
# 在文本文件中,没有使用b模式选项打开的文件,只允许从文件头开始,只能seek(offset,0)
first_line = f.readline() # 取第一行
offset = -50 # 设置偏移量
while True:
"""
file.seek(off, whence=0):从文件中移动off个操作标记(文件指针),正往结束方向移动,负往开始方向移动。
如果设定了whence参数,就以whence设定的起始位为准,0代表从头开始,1代表当前位置,2代表文件最末尾位置。
"""
f.seek(offset, 2) # seek(offset, 2)表示文件指针:从文件末尾(2)开始向前50个字符(-50)
lines = f.readlines() # 读取文件指针范围内所有行
if len(lines) >= 2: # 判断是否最后至少有两行,这样保证了最后一行是完整的
last_line = lines[-1] # 取最后一行
break
# 如果off为50时得到的readlines只有一行内容,那么不能保证最后一行是完整的
# 所以off翻倍重新运行,直到readlines不止一行
offset *= 2
print('文件' + fname + '第一行为:' + first_line.decode())
print('文件' + fname + '最后一行为:' + last_line.decode())
5. 特殊案例
这里 sep
用的 \t+
data = pd.read_table(f, encoding='gbk', parse_dates={'time': ['年月日', '时间戳']}, error_bad_lines=False, sep='\t+',skiprows=10)
filepath_or_buffer---->CSV文件的路径或URL地址。
sep---->CSV文件中字段分隔符,默认为逗号。
delimiter---->CSV文件中字段分隔符,默认为None。
header---->指定哪一行作为列名,默认为0,即第一行。
names---->自定义列名,如果header=None,则可以使用该参数
。
index_col---->用作行索引的列编号或列名。
usecols---->读取指定的列,可以是列名或列编号。
dtype
---->指定每列的数据类型,可以是字典或者函数。
na_values---->用于替换缺失值的值。
skiprows---->跳过指定的行数。
skipfooter---->跳过文件末尾的指定行数。
nrows---->读取指定的行数。
parse_dates---->指定哪些列需要转换为日期类型。
infer_datetime_format---->尝试解析日期时间格式(提高效率)。
dayfirst---->将日期解析为“日-月-年”而不是“月-日-年”的格式。
encoding---->CSV文件的编码方式,默认为None,使用系统默认编码。
squeeze---->如果文件只包含一列,则返回Series对象而不是DataFrame对象。
thousands---->千位分隔符。
decimal---->小数点分隔符。
参考链接
[1] panda.read_table 2022.6