python数据处理中的一些实际问题

本文作者分享了参与阿里天池智慧交通预测挑战赛的数据处理经验,包括使用Python的pandas库读取和处理TXT数据,数据合并、列数据操作、数据分组、缺失值处理等技巧,并提供了部分代码示例和数据资源链接,适合Python数据分析新手学习。
摘要由CSDN通过智能技术生成

前段时间参加阿里天池中的智慧交通预测挑战赛,费了不少功夫初赛排名45进入了复赛,后续没有时间继续复赛了,但还是想总结一下,算法就不详述了,具体谈谈数据处理的一些问题与解决方案。适合想要学习的新手参考,欢迎大家提出意见

语言使用python+pycharm

数据与部分代码百度网盘地址:

http://pan.baidu.com/s/1jIGasnW

 1.      读取数据

比赛中数据格式为txt,读取方式有两种,但为了方便进行后续的操作,采用python的库pandas进行读取,读入后的格式为dataFrame,同时具有行列索引,如下:

data=pd.read_table('F:/tianchi/new_gy_contest_traveltime_training_data_second.txt',sep=';')

也可以用pd.read_csv,效果一样

Sep用来说明txt的分隔符,需要观察源数据,有的是or #or等等,需要灵活使用,不然读出的数据是乱的

(1)有时候不想读入全部数据,可以这么办

data=pd.read_table('F:/tianchi/new_gy_contest_traveltime_training_data_second.txt',sep=';',nrows=100)
这样就只会读取前100行
(2)表头问题
如果你的数据有表头,那么读入的时候会自动将表头作为列名,如下:
 
如果没有表头,那么问题来了,它会自动将第一行数据作为表头,这不是我们想要的,
  • 1
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值