一、数据载入、存储及文件格式
1、读取CSV文件
(1)文件是逗号分隔,使用read_csv将它读入一个DataFrame
(2)使用read_table,并指定分隔符:
(3)有的文件并不包含表头行
2、文件常用处理参数
3、参数使用示例
(1)header&分配行索引
(2)分配列索引
(3)列分层索引
(4)正则表达式
当字段是以多种不同数量的空格分开时,向read_table传入一个正则表达式作为分隔符。
在本例中,正则表达式为\s+
\f -> 匹配一个换页
\n -> 匹配一个换行符
\r -> 匹配一个回车符
\t -> 匹配一个制表符
\v -> 匹配一个垂直制表符
“\s+”则表示匹配任意多个上面的字符。
(5)skiprows
跳过第一行、第三行和第四行
(6)缺失值
- 判断isnull,赋值布尔
- na_values选项可以传入一个列表或一组字符串来处理缺失值:
4、分块读入
- 读取几行
- 为了分块读入文件,可以指定chunksize作为每一块的行数
- read_csv返回的TextParser对象允许你根据chunksize遍历文件。
- 例如,我们可以遍历ex6.csv,并对’key’列聚合获得计数值:
5、数据文本格式
- 使用DataFrame的to_csv方法,我们可以将数据导出为其他分隔符号的文件,如逗号、竖线
sys.stdout
: 这是 Python 的标准输出流,通常用于将数据打印到终端。
6、缺失值标注
na_rep='NULL'
: 这个参数指定了如何表示缺失值(NaN)。在这里,它被替换为字符串 'NULL'
7、标签处理
8、json
基本类型是对象(字典)、数组(列表)、字符串、数字、布尔值和空值。对象中的所有键都必须是字符串
- 将JSON字符串转换为Python形式时,使用json.loads方法
- json.dumps可以将Python对象转换回JSON:
9、读取Microsoft Excel文件
支持通过ExcelFile类或pandas.read_excel函数来读取存储在Excel 2003(或更高版本)文件中的表格型数据
二、sql
import pymysql
# 连接数据库
conn = pymysql.connect(host='localhost', user='root', password='123456', database='test')
# 创建游标
cursor = conn.cursor()
# 执行SQL语句
cursor.execute("SELECT * FROM users")
# 获取查询结果
rows = cursor.fetchall()
# 打印查询结果
print(rows)
# 关闭游标和连接
cursor.close()
conn.close()