pandas学习
文章平均质量分 90
CV工程师_Ever
这个作者很懒,什么都没留下…
展开
-
数据分析学习(三)
一、模型搭建1.1 特征工程缺失值填充对分类变量缺失值:填充某个缺失值字符(NA)、用最多类别的进行填充 对连续变量缺失值:填充均值、中位数、众数# 对分类变量进行填充train['Cabin'] = train['Cabin'].fillna('NA')train['Embarked'] = train['Embarked'].fillna('S')# 对连续变量进行填充train['Age'] = train['Age'].fillna(train['Age'].mean()原创 2021-11-20 18:02:51 · 275 阅读 · 0 评论 -
数据分析学习(二)
一、数据清洗及特征处理1.1缺失值观察与处理缺失值观察#方法一df.info()<class 'pandas.core.frame.DataFrame'>RangeIndex: 891 entries, 0 to 890Data columns (total 12 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Passe原创 2021-11-18 19:26:22 · 214 阅读 · 0 评论 -
数据分析学习(一)
一、数据分析基础1.1、数据加载逐块读取chunker = pd.read_csv('train.csv', chunksize=1000)为什么要进行逐块读取?在利用pyhon编写数据处理脚本时,经常要从外界读取csv、txt等格式的文件。当读取的文件较大时,这时若直接利用pandas读取,会给电脑造成太大的压力,逐块读取的作用就在于此。更改表头与索引对于某些英文资料,我们可以通过翻译来更直观的熟悉我们的数据,下面尝试将表头改为中文,索引改成乘客IDdf = pd.原创 2021-11-16 16:37:15 · 1466 阅读 · 0 评论