Pandas读取文本文件为多列

q56731523

于 2024-06-03 10:43:42 发布

阅读量337

点赞数 4

文章标签： pandas html sqlite java 开发语言

本文链接：https://blog.csdn.net/weixin_44617651/article/details/139408534

版权

要使用Pandas将文本文件读取为多列数据，你可以使用pandas.read_csv()函数，并通过指定适当的分隔符来确保正确解析文件中的数据并将其分隔到多个列中。

假设你有一个以逗号分隔的文本文件（CSV格式），每一行包含多个值，你可以这样读取它：

在这里插入图片描述

1、问题背景

当使用Pandas读取文本文件时，可能会遇到整行被读为一列的情况，导致数据无法正确解析。

2、解决方案

有两种常见的解决方案：

使用正确的分隔符：确保使用的分隔符与文本文件中的数据分隔符一致。在示例中，分隔符应为r’\s+'（一个或多个空格）。
使用delim_whitespace=True：设置delim_whitespace参数为True，Pandas会自动检测分隔符，并根据空格将文本文件中的数据分隔为多列。

下面是使用正确分隔符的示例代码：

import pandas as pd
from StringIO import StringIO

a = '''
TRE-G3T- Triumph-        0.000 11/06/2013 313585.10 1765.00000 11/06/2013 313600.10   41 20 54.57907  -70 38 14.25924      -30.400       -1.379   893059.006  2588821.543     2834.294   -19545.615      -45.849        0.985        1.058        3.399        3.694      -15.203        1.099   1.0000 6   6.37  4        0.000 I             -0.084     0.086    -0.059   0.000   0.000   0.000   363026.471  4578737.512      -30.400
TRE-G3T- Triumph-        0.000 11/06/2013 313585.20 1765.00000 11/06/2013 313600.20   41 20 54.61145  -70 38 14.22044      -30.332       -1.311   893061.933  2588824.850     2835.196   -19544.617      -45.779        0.944        1.015        3.313        3.592      -15.135       -3.365   1.4883 6   6.35  4        0.001 I              0.833    -0.485    -1.570   0.000   0.000   0.000   363027.391  4578738.493      -30.332
TRE-G3T- Triumph-        0.000 11/06/2013 313585.30 1765.00000 11/06/2013 313600.30   41 20 54.48685  -70 38 14.10862      -29.190       -0.169   893070.589  2588812.325     2837.797   -19548.465      -44.651        0.950        1.017        3.254        3.539      -13.994       -8.197   1.0000 6   5.70  4        0.001 I             -0.158     0.003     0.061   0.000   0.000   0.000   363029.917  4578734.602      -29.190
'''

df = pd.read_csv(StringIO(a), delimiter=r'\s+', header=None)

print(df.shape)
print(df.head())

输出结果:

(3, 42)
   0         1   2           3         4     5           6         7   \
0  TRE-G3T-  Triumph-   0  11/06/2013  313585.1  1765  11/06/2013  313600.1   
1  TRE-G3T-  Triumph-   0  11/06/2013  313585.2  1765  11/06/2013  313600.2   
2  TRE-G3T-  Triumph-   0  11/06/2013  313585.3  1765  11/06/2013  313600.3   

   8   9         10  11  12        13      14     15          16           17  \
0  41  20  54.57907 -70  38  14.25924 -30.400 -1.379  893059.006  2588821.543   
1  41  20  54.61145 -70  38  14.22044 -30.332 -1.311  893061.933  2588824.850   
2  41  20  54.48685 -70  38  14.10862 -29.190 -0.169  893070.589  2588812.325   

         18         19      
0  2834.294 -19545.615 ...  
1  2835.196 -19544.617 ...  
2  2837.797 -19548.465 ...  

[3 rows x 42 columns]

下面是使用delim_whitespace=True的示例代码：

import pandas as pd
from StringIO import StringIO

a = '''
TRE-G3T- Triumph-        0.000 11/06/2013 313585.10 1765.00000 11/06/2013 313600.10   41 20 54.57907  -70 38 14.25924      -30.400       -1.379   893059.006  2588821.543     2834.294   -19545.615      -45.849        0.985        1.058        3.399        3.694      -15.203        1.099   1.0000 6   6.37  4        0.000 I             -0.084     0.086    -0.059   0.000   0.000   0.000   363026.471  4578737.512      -30.400
TRE-G3T- Triumph-        0.000 11/06/2013 313585.20 1765.00000 11/06/2013 313600.20   41 20 54.61145  -70 38 1