学习总结

最新推荐文章于 2022-12-05 11:58:00 发布

ZJNjr

最新推荐文章于 2022-12-05 11:58:00 发布

阅读量94

点赞数

本文链接：https://blog.csdn.net/zhanglang135/article/details/108673840

版权

学习总结

利用pip安装相关库

首先使用pandas进行数据读取，pandas读取数据时相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。

读取文件的部分（适用于文件特别大的场景）
- 通过nrows参数，来设置读取文件的前多少行，nrows是一个大于等于0的整数。
- 分块读取 chunksize

data_train_sample = pd.read_csv("./train.csv",nrows=5)
#设置chunksize参数，来控制每次迭代数据的大小
chunker = pd.read_csv("./train.csv",chunksize=5)
for item in chunker:
    print(type(item))
    #<class 'pandas.core.frame.DataFrame'>
    print(len(item))
    #5

pandas库：pandas，它可以对数据进行导入、清洗、处理、统计和输出。https://www.jianshu.com/p/1fde1fb0b910

numpy库：https://www.cnblogs.com/smallpi/p/4550361.html

matplotlib.pyplot：https://www.cnblogs.com/shaosks/p/9849446.html

TSV与CSV的区别：TSV是用制表符（Tab,’\t’）作为字段值的分隔符；CSV是用半角逗号（’,’）作为字段值的分隔符；

shape：查看数据size

data_train.columns：查看数据列名

通过info()来熟悉数据类型

利用describe函数查看数据特征，

{data_train.isnull().any().sum()}#查看数据缺失值

have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
if value > 0.5:
fea_null_moreThanHalf[key] = value#

dataframe：创建列表，默认index从0开始https://blog.csdn.net/xtfge0915/article/details/52938740

ZJNjr

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
学习总结

学习总结利用pip安装相关库首先使用pandas进行数据读取，pandas读取数据时相对路径载入报错时，尝试使用os.getcwd()查看当前工作目录。读取文件的部分（适用于文件特别大的场景）通过nrows参数，来设置读取文件的前多少行，nrows是一个大于等于0的整数。分块读取 chunksizedata_train_sample = pd.read_csv("./train.csv",nrows=5)#设置chunksize参数，来控制每次迭代数据的大小chunker = p
复制链接

扫一扫

学习总结

“相关推荐”对你有帮助么？