利用python进行数据分析-书籍笔记(2)

本文介绍了如何使用Python进行数据载入、存储,包括CSV和Excel文件的处理,以及使用pymysql连接和执行SQL查询。涵盖了参数设置、缺失值处理、分块读取和基本的json数据交互。
摘要由CSDN通过智能技术生成

一、数据载入、存储及文件格式

1、读取CSV文件

(1)文件是逗号分隔,使用read_csv将它读入一个DataFrame

(2)使用read_table,并指定分隔符:

(3)有的文件并不包含表头行

2、文件常用处理参数

3、参数使用示例

(1)header&分配行索引

(2)分配列索引

(3)列分层索引

(4)正则表达式

当字段是以多种不同数量的空格分开时,向read_table传入一个正则表达式作为分隔符。

在本例中,正则表达式为\s+

\f -> 匹配一个换页
\n -> 匹配一个换行符
\r -> 匹配一个回车符
\t -> 匹配一个制表符
\v -> 匹配一个垂直制表符
“\s+”则表示匹配任意多个上面的字符。

(5)skiprows

跳过第一行、第三行和第四行

(6)缺失值

  • 判断isnull,赋值布尔

  • na_values选项可以传入一个列表或一组字符串来处理缺失值:

4、分块读入

  • 读取几行

  • 为了分块读入文件,可以指定chunksize作为每一块的行数

  • read_csv返回的TextParser对象允许你根据chunksize遍历文件。
  • 例如,我们可以遍历ex6.csv,并对’key’列聚合获得计数值:

5、数据文本格式

  • 使用DataFrame的to_csv方法,我们可以将数据导出为其他分隔符号的文件,如逗号、竖线

sys.stdout: 这是 Python 的标准输出流,通常用于将数据打印到终端。

6、缺失值标注

  • na_rep='NULL': 这个参数指定了如何表示缺失值(NaN)。在这里,它被替换为字符串 'NULL'

7、标签处理

8、json

基本类型是对象(字典)、数组(列表)、字符串、数字、布尔值和空值。对象中的所有键都必须是字符串

  • 将JSON字符串转换为Python形式时,使用json.loads方法

  • json.dumps可以将Python对象转换回JSON:

9、读取Microsoft Excel文件

支持通过ExcelFile类或pandas.read_excel函数来读取存储在Excel 2003(或更高版本)文件中的表格型数据

二、sql

import pymysql

# 连接数据库
conn = pymysql.connect(host='localhost', user='root', password='123456', database='test')

# 创建游标
cursor = conn.cursor()

# 执行SQL语句
cursor.execute("SELECT * FROM users")

# 获取查询结果
rows = cursor.fetchall()

# 打印查询结果
print(rows)

# 关闭游标和连接
cursor.close()
conn.close()

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值