python 读取结构化的txt

最新推荐文章于 2022-11-14 20:10:10 发布

y_j_y_

最新推荐文章于 2022-11-14 20:10:10 发布

阅读量1.1k

点赞数

分类专栏：编程语言 python excel常用操作文章标签： python-txt

本文链接：https://blog.csdn.net/y_j_y_/article/details/79232809

版权

编程语言同时被 3 个专栏收录

28 篇文章 3 订阅

订阅专栏

python

18 篇文章 0 订阅

订阅专栏

excel常用操作

2 篇文章 0 订阅

订阅专栏

import pandas as pd
import matplotlib.pyplot as plt


dir = './'
train = pd.read_table(dir + 'train_20171215.txt',engine='python')
#print(train.info())  #查看字段的属性

print(train['day_of_week'].unique()) #查看字段有哪些不重复的值

plt.boxplot(train['cnt'])  #画箱型图
plt.show()

#查看数据分布
import seaborn as sns
color = sns.color_palette()
sns.set_style('darkgrid')
from scipy import stats
from scipy.stats import norm, skew
sns.distplot(train['cnt'], fit=norm)
plt.show()

#找出与目标最相关的变量X
plt.plot(train['date'],train['cnt'])
plt.show()

print(train['cnt'].describe()) #cnt字段的具体信息

#预测结果以mean square error作为评判标准，
#可以以统计数据去确定一下，这些统计数据，在评测函数的指标
from sklearn.metrics import mean_squared_error
train['25%'] = 221
train['50%'] = 351
train['75%'] = 496
train['median'] = train['cnt'].median()
train['mean'] = train['cnt'].mean()
print(mean_squared_error(train['cnt'],train['25%']))
print(mean_squared_error(train['cnt'],train['50%']))
print(mean_squared_error(train['cnt'],train['75%']))
print(mean_squared_error(train['cnt'],train['median']))
print(mean_squared_error(train['cnt'],train['mean']))

#开始对星期信息统计
monday = train[train['day_of_week']==7]
plt.plot(range(len(monday)),monday['cnt'])
plt.show()

#简单分析一下按照星期的评测分数
res = train.groupby(['day_of_week'],as_index=False).cnt.mean()
xx = train.merge(res,on=['day_of_week'])
print(xx.head())
print(mean_squared_error(xx['cnt_x'],xx['cnt_y']))
# 因为第一赛季只是预测与时间相关的cnt的数量
# 所以可以对数据以date和day_of_week进行数据合并
train = train.groupby(['date','day_of_week'],as_index=False).cnt.sum()
print(train)
plt.plot(train['day_of_week'],train['cnt'],'*')
plt.show()