可视化训练集与测试集数据分布（可直接运行）

最新推荐文章于 2024-06-21 12:33:31 发布

江大王吹吹

最新推荐文章于 2024-06-21 12:33:31 发布

阅读量435

点赞数 1

文章标签： python 开发语言数据挖掘

本文链接：https://blog.csdn.net/weixin_53374931/article/details/131067487

版权

直接附上代码，兄弟们修改这两行路径就可以

test = pd.read_csv('D:\wangyong\Wang\kaggle\year/test.csv')
train = pd.read_csv('D:\wangyong\Wang\kaggle\year/train.csv')

这是完整源码

import seaborn as sns
import matplotlib.pyplot as plt
import pandas as pd
test = pd.read_csv('D:\wangyong\Wang\kaggle\year/test.csv')
train = pd.read_csv('D:\wangyong\Wang\kaggle\year/train.csv')

print(train.head())
print(train.describe())
print(test.describe())
key_train = train.keys()
key_test = test.keys()

print(key_train)
print(key_test)

for i in range(len(key_test)-1):
    train_data = []
    test_data = []

    for x in train[key_train[i+1]]:
        train_data.append(x)
    for x in test[key_test[i+1]]:
        test_data.append(x)
    plt.figure(figsize=(8,4),dpi = 150)
    sns.kdeplot(train_data,color = "Red",shade = True)
    ax = sns.kdeplot(test_data,color = "Blue",shade = True)

    ax.set_xlabel(key_train[i])
    ax.set_ylabel("values")
    ax.legend(["train","test"])
    plt.show()