python利用read_table和read_csv和open读取dat文件

1. 案例

1.1 案例1 read_table

df = pd.read_table(r'E:\data\2012_08_10.dat', sep=',', skiprows=1)
  • 首先,用记事本打开 dat 信息,查看内容。发现第一行为无用信息,跳过第一行, skiprows=1,
  • 第二行和第三行看似杂乱,值的数量却和下面的行是一致的,需要保留。
  • 内容都是由 逗号 隔开,所以 sep=‘,’ 。

在这里插入图片描述

1.2 案例2 read_csv

在这里插入图片描述

  • error_bad_lines=False # 跳过出错的行,超出header字段的行(默认情况下,字段过多的行(例如,逗号过多的 csv 行)会引发异常,并且不会返回任何 DataFrame。 如果为 False,那么这些“坏行”将从返回的 DataFrame 中删除,然后返回正常的这部分数据。)
  • skiprows 如果不加参数skiprows的话会报错,可以看出这是16*2的数据,如果想要去除多几行,如下图,在列表里添加你想要删除的哪几行,不支持切片[0:2]或者[0,1,3:6]
  • parse_dates:默认是False,将该列解析为datetime格式
  • parse_dates:将数据解析为datetimes格式,即datetime64[ns],可以将多个列合成为一个时间列,或者只解析一列。
  • skipfooter:该参数只能是部分取消读入,且只能从后向前地设定取消读入部分,取消末尾的多少行。
  • names:对列名进行命名。
  • header:header关键字的主要功能有两个:
    • 第一是将指定行的数据作为读取数据各列的列名,由最初读取数据显示出的信息表明,edu文件文件中第一排的“姓名”“居住地”“年级”“年龄”“是否住校”依次成为了各列的列名,这是因为header默认参数为0,即将edu文件中第一排作为列名的缘故。
    • 第二个功能,那就是确定数据开始行,在将“阴晓彤”同学的数据变为新列名的同时,原本的列名“姓名”“居住地”“年级”“年龄”“是否住校”这一行却因为将第一排(实际的第二排)作为列名而消失了,这是因为同时本行也成为了读取数据的开始行。
data = pd.read_csv('F:\\0008_S.dat', error_bad_lines=False, skiprows=[0, 2, 3], nrows=10)
data['TIMESTAMP'] = pd.to_datetime(data['TIMESTAMP'], errors='coerce')
data1 = data.dropna(axis=0, subset=['TIMESTAMP'])
data2 = data1[(data1['TIMESTAMP'] >= pd.to_datetime('2017-12-31 00:00:01')) & (data1['TIMESTAMP'] < pd.to_datetime('2018-01-02 00:00:00'))]

在这里插入图片描述
当我修改参数 skiprows=3后,列名变得很奇怪

data = pd.read_csv('F:\\0008_S.dat', error_bad_lines=False, skiprows=3, nrows=10)

在这里插入图片描述
说明只跳过了[0, 1, 2]三行,3这一行为当前的列名[‘Unnamed: 0’, ‘Unnamed: 1’, ‘Avg’, ……],这一行(3)应该被跳过,而第1行应该保留。故应该skiprows=[0, 2, 3]

2. pandas.read_table() 详解

2.1 sep介绍

当字段是以多种不同数量的空格分开时,可以向read_table传入一个正则表达式作为分隔符。正则表达式为 \s+,因此我们可以得到:

In [21]: result = pd.read_table('examples/ex3.txt', sep='\s+')

In [22]: result
Out[22]: 
            A         B         C
aaa -0.264438 -1.026059 -0.619500
bbb  0.927272  0.302904 -0.032399
ccc -0.264273 -0.386314 -0.217601
ddd -0.871858 -0.348382  1.100491

参数列表:适用于read_csv()和read_table()

在这里插入图片描述
在这里插入图片描述

3. read_csv()读取dat数据、写入dat

3.1 案例

import  pandas  as pd
#1:读取指定行
print("----读取指定的单行,数据会存在列表里面----")
df=pd.read_csv('测试.dat')#
data=df.loc[0].values#0表示第一行 这里读取数据并不包含表头,要注意哦!
print("读取指定行的数据:\n{0}".format(data))

写入

#写入dat文件
#index=0:索引不写入
#sep='|':写入具有分隔符的数据
df.to_csv('xxx.dat',header=None,encoding='utf-8',sep='|',quoting=3,index=0)

3.2 error_bad_lines参数

# 跳过超出header字段的行,如4个字段,579行出现了 5个
pd.read_table(, error_bad_lines=False) 
 
# 显示的跳过信息 
b'Skipping line 579: expected 4 fields, saw 5\n'

4. with + open()方法

文件中既包含表头又有数据字段分隔符包括数量不等的空格逗号以及空格+逗号,使用 read_csv 方法无法准确的获取数据。

解决办法就是直接使用 open() 方法对文件进行按行读取,再根据文件结构解析数据。如下:

import numpy as np 
import pandas as pd 
from pandas import DataFrame
import chardet

datalist = []
columnlist = []
with open('e:\data\StoneFlakes.dat','r') as f_write:
    # 获取第一行表头数据    
    firstline = f_write.readline()    
    # 删除字符串头尾的特定字符    
    firstline = firstline.strip('\n')    
    # 将字符串按照空格进行分割    
    columnlist = firstline.split()
    for line in f_write:        
    	encoding_type = chardet.detect(line)['encoding']  # 获取该行的编码方式
    	line = eval(line.strip().decode(encoding_type))  # eval()将''TOA5', '瓜州''  变为('TOA5', '瓜州')
   f_write.close() 		
   df = DataFrame(datalist, columns=columnlist) 	

附录:

     for line in tqdm(f_write):
         encoding_type = chardet.detect(line)['encoding']

         if encoding_type == 'utf-8':
             line = eval(line.strip().decode(encoding_type))
             # line = line.split(',')
             # ans.append(line)
             # print('utf8', len(line), line)
         elif encoding_type == 'ascii':
             line = eval(line.strip().decode(encoding_type))
             # line = line.split(',')
             # ans.append(line)
             # print('ascii', len(line), line)
         else:
             continue
         if len(line) == 10:
             ans.append(line)
         else:
             print(len(line), line)
 f_write.close()
 # ans_df = pd.DataFrame(ans[3:], columns=ans[0])

4.2 with + open() 获取最后一行

步骤

  • open打开日志文件。
  • 移动文件读取指针到文件末尾。
  • 从后往前移动指针直到合适的位置。
  • 读取文件,提取指定行的数据。

优点:时间相对固定,适合处理大文件容贴出来:

fname = 'test.html'

with open(fname, 'r', encoding='utf-8') as f:  # 打开文件
    lines = f.readlines()  # 读取所有行
    first_line = lines[0]  # 取第一行
    last_line = lines[-1]  # 取最后一行
    
    print('文件' + fname + '第一行为:'+ first_line)
    print('文件' + fname + '最后一行为:' + last_line) 

with open(fname, 'rb') as f:  # 打开文件
    # 在文本文件中,没有使用b模式选项打开的文件,只允许从文件头开始,只能seek(offset,0)
    first_line = f.readline()  # 取第一行
    offset = -50  # 设置偏移量
    while True:
        """
        file.seek(off, whence=0):从文件中移动off个操作标记(文件指针),正往结束方向移动,负往开始方向移动。
        如果设定了whence参数,就以whence设定的起始位为准,0代表从头开始,1代表当前位置,2代表文件最末尾位置。  
        """
        f.seek(offset, 2)  # seek(offset, 2)表示文件指针:从文件末尾(2)开始向前50个字符(-50)
        lines = f.readlines()  # 读取文件指针范围内所有行
        if len(lines) >= 2:  # 判断是否最后至少有两行,这样保证了最后一行是完整的
            last_line = lines[-1]  # 取最后一行
            break
        # 如果off为50时得到的readlines只有一行内容,那么不能保证最后一行是完整的
        # 所以off翻倍重新运行,直到readlines不止一行
        offset *= 2

    print('文件' + fname + '第一行为:' + first_line.decode())
    print('文件' + fname + '最后一行为:' + last_line.decode())

5. 特殊案例

这里 sep 用的 \t+

data = pd.read_table(f, encoding='gbk', parse_dates={'time': ['年月日', '时间戳']}, error_bad_lines=False, sep='\t+',skiprows=10)

filepath_or_buffer---->CSV文件的路径或URL地址。
sep---->CSV文件中字段分隔符,默认为逗号。
delimiter---->CSV文件中字段分隔符,默认为None。
header---->指定哪一行作为列名,默认为0,即第一行。
names---->自定义列名,如果header=None,则可以使用该参数
index_col---->用作行索引的列编号或列名。
usecols---->读取指定的列,可以是列名或列编号。
dtype---->指定每列的数据类型,可以是字典或者函数。
na_values---->用于替换缺失值的值。
skiprows---->跳过指定的行数。
skipfooter---->跳过文件末尾的指定行数。
nrows---->读取指定的行数。
parse_dates---->指定哪些列需要转换为日期类型。
infer_datetime_format---->尝试解析日期时间格式(提高效率)。
dayfirst---->将日期解析为“日-月-年”而不是“月-日-年”的格式。
encoding---->CSV文件的编码方式,默认为None,使用系统默认编码。
squeeze---->如果文件只包含一列,则返回Series对象而不是DataFrame对象。
thousands---->千位分隔符。
decimal---->小数点分隔符。

参考链接

[1] panda.read_table 2022.6

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值