学习总结
利用pip安装相关库
首先使用pandas进行数据 读取,pandas读取数据时相对路径载入报错时,尝试使用os.getcwd()查看当前工作目录。
- 读取文件的部分(适用于文件特别大的场景)
- 通过nrows参数,来设置读取文件的前多少行,nrows是一个大于等于0的整数。
- 分块读取 chunksize
data_train_sample = pd.read_csv("./train.csv",nrows=5)
#设置chunksize参数,来控制每次迭代数据的大小
chunker = pd.read_csv("./train.csv",chunksize=5)
for item in chunker:
print(type(item))
#<class 'pandas.core.frame.DataFrame'>
print(len(item))
#5
pandas库:pandas,它可以对数据进行导入、清洗、处理、统计和输出。https://www.jianshu.com/p/1fde1fb0b910
numpy库:https://www.cnblogs.com/smallpi/p/4550361.html
matplotlib.pyplot:https://www.cnblogs.com/shaosks/p/9849446.html
TSV与CSV的区别:TSV是用制表符(Tab,’\t’)作为字段值的分隔符;CSV是用半角逗号(’,’)作为字段值的分隔符;
shape:查看数据size
data_train.columns:查看数据列名
通过info()来熟悉数据类型
利用describe函数查看数据特征,
{data_train.isnull().any().sum()}#查看数据缺失值
have_null_fea_dict = (data_train.isnull().sum()/len(data_train)).to_dict()
fea_null_moreThanHalf = {}
for key,value in have_null_fea_dict.items():
if value > 0.5:
fea_null_moreThanHalf[key] = value#
dataframe:创建列表,默认index从0开始https://blog.csdn.net/xtfge0915/article/details/52938740