【Python性能分析】Mysql、Pandas、Python列表，三者的查询性能谁强谁弱？

最新推荐文章于 2024-09-30 17:13:29 发布

Cyberbolt-2020

最新推荐文章于 2024-09-30 17:13:29 发布

阅读量1k

点赞数 1

分类专栏： Python pandas mysql

本文链接：https://blog.csdn.net/weixin_45063926/article/details/106893069

版权

Python 同时被 3 个专栏收录

20 篇文章 0 订阅

订阅专栏

pandas

2 篇文章 0 订阅

订阅专栏

mysql

2 篇文章 0 订阅

订阅专栏

本文对比了Mysql、Pandas及Python列表在大数据查询上的性能，发现Python列表性能最佳，Pandas次之，Mysql最慢。测试数据为72万余行，Python列表查询时间为0.064秒，Pandas为0.433秒，Mysql为0.652秒。

摘要由CSDN通过智能技术生成

原文地址

这篇笔记测试Mysql、Pandas、Python列表的大数据查询性能。

手中有一张72万余行的数据库表，借此机会测试三者的数据查询性能，终于解决内心疑问。

测试环境:Ubuntu 20.04 LTS, Python 3.8.2, Intel® Core™ i7-8750H CPU @ 2.20GHz × 12

原数据有8列，724100行，sql文件大小 65.5 MB

数据表第8列为时间，下面用三种方法分别按时间降序，记录每种方法的用时（每种方法测试3次，取平均值）

一、Mysql

1.测试性能，通过Python调用Mysql

以下为测试源码

import pandas as pd
import mysql.connector
import datetime


def connect():
    mydb = mysql.connector.connect(
      host="127.0.0.1",
      user="root",
      passwd="sdddddddd",
      database="abc"
    )
    return mydb

def sql(): 
    mydb = connect()  
    mycursor = mydb.cursor() 

    start = datetime.datetime.now()
    mycursor.execute("SELECT * FROM My_table ORDER BY time DESC") #按time列降序
    end = datetime.datetime.now()
    print(end - start) #测试Mysql的排序时间
    
    data_sql = mycursor.fetchall()


    mycursor.close()
    mydb.close()
    return data_sql

def main():
    data_sql = sql()

if __name__ == "__main__":
    main()

测试结果如图

三次取平均值为 0.652s

这只是Python调用Mysql的性能，这和Mysql的真实性能有不同吗？为了避免Python产生的误差，接着再测试一组直接用Mysql查询的性能。

2、测试性能，直接通过Mysql查询

输入如下命令排序查询

SELECT * FROM My_table ORDER BY time DESC

首次测试得到的时间如图

测试3次的时间分别为 0.668s、0.664s、0.702s，平均值 0.678s

由此得出，Python调用Mysql 和直接使用Mysql查询，性能几乎一致，可忽略不计。

二、Pandas

以下为Pandas的测试源码

import pandas as pd
import mysql.connector
import datetime


def connect():
    mydb = mysql.connector.connect(
      host="127.0.0.1",
      user="root",
      passwd="sdddddddd",
      database="abc"
    )
    return mydb

def pa():
    mydb = connect() 
    mycursor = mydb.cursor() 

    
    mycursor.execute("SELECT * FROM eb7_today")
    data_sql = mycursor.fetchall() 

    data = pd.DataFrame(data_sql, columns=['1', '2', '3', '4', '5', '6', '7', 'time']) 
    start = datetime.datetime.now()
    data.sort_values('time', ascending=False, inplace = True) #按time列降序
    end = datetime.datetime.now()
    print(end - start) #测试Pandas的排序时间


    mycursor.close()
    mydb.close()
    return data

def main():
    data = pa()

if __name__ == "__main__":
    main()

下面为测试结果

三次取平均值为 0.433s

三、Python列表

以下为Python列表的测试源码

import pandas as pd
import mysql.connector
import datetime


def connect():
    mydb = mysql.connector.connect(
      host="127.0.0.1",
      user="root",
      passwd="sdddddddd",
      database="abc"
    )
    return mydb

def py():
    mydb = connect()
    mycursor = mydb.cursor() 

    
    mycursor.execute("SELECT * FROM My_table")
    data_sql = mycursor.fetchall()

    start = datetime.datetime.now()
    data_sql.sort(key=lambda x:x[7], reverse=True) #按第8列降序（time列）
    end = datetime.datetime.now()
    print(end - start) #测试Python列表的排序时间


    mycursor.close()
    mydb.close()
    return data_sql

def main():
    data_sql = py()

if __name__ == "__main__":
    main()

测试结果如下