综述:本章包括导入和导出各种格式数据的基本知识,除此之外,还包括数据清理方式:归一化处理、缺失数据的添加、实时数据检查以及一些类似的技巧。
*本轮只记录数据部分且是我熟知的数据类型
1.CSV 2.Excel 3.JSON
|break|
4.数据库
|break|
5.导入导出(争对程序)
一. 从CSV文件导入数据
1.(逗号)CSV是指逗号分隔的值(文件中还包括一个文件头,也是一逗号分隔的)
2. 操作步骤:(代码见书)
① 打开.csv的文件
② 首先读取文件头
③ 然后读取剩余行
④ 当发生错误时,抛出异常
* 可能没有文件头,只能打开看看第一行是数据头还是数据
* 加载大数据文件,使用著名的numpy库
二.从Microsoft Excel文件中导入数据
常常把数据从Excel中导出到CSV格式的文件中,见上。
三.从JSON数据源导入数据
1.(远程)在现实生活中,我们更多遇到的是远程数据源,而不是本地数据
2.(文档 / 字典格式)字典的字典
3. JSON格式变得非常流行,因为它比XML更易读而且更简洁。
4. 因为JSON来自JavaSript,故使得它在Web应用领域相当受欢迎
四.从数据库导入数据(引擎)
1. 数据库是当今最常见的数据源
2. SQLite不支持MySQL数据类型或者数据库引擎类型(MyISAM 和 InnoDB)的特性,挺烦人。但是让代码遵循标准SQL会让其具备数据库系统间的可移植性
五、导出数据到 JSON、CSV 和 Excel
1. 在做数据可视化时,我们通常只是使用其他人的数据,所以到如何读取数据是主要工作。需要学习把生产或处理过的数据导出或写到某个地方。
2. 代码最后:完成main入口点代码,解析命令行参数中传入的文件路径。