day01:数据加载及探索数据分析
在处理网上的数据的时候前期工作十分重要,在之后的数据分析过程中都需要:
1. 数据每一条信息包括的内容(哪些可以利用分析)
2.信息是否确实(是否需要填补相关信息)
3. 信息头几行和最后几行的信息特点
4. 是否可以进行简单的处理使得信息更加明确(添加id,排序等)
关于教程中的问题的思考:
1. pd.read_csv()和pd.read_table()的不同
答:read_csv和read_table都是是加载带分隔符的数据,每一个分隔符作为一个数据的标志,但二者读出来的数据格式还是不一样的,read_table是以制表符 \t 作为数据的标志,也就是以行为单位进行存储。
2. 什么是逐块读取?为什么要逐块读取呢?
我们有时候需要进行的数据分析是大批量的,我们只能将其作为块进行处理,或者只是对其中一部分进行处理。
3. 将表头改为中文其中一个思路是:将英文额度表头替换成中文。还有其他的方法吗?
原数据上修改;先删除表头,再添加表头(insert);原表修改(rename)
4. 对于一个数据,还可以从哪些方面来观察?
还需要观察是否存在一些数据是重复的,需要删除。
本次的学习基于datawhale学习打卡小组: