惊了!大牛换了个思路,就让 Pandas 快了 1000x!

Pandas 百问百答第 010 篇。

呆鸟云:书接上文《不会爬,没数据?没关系!3分钟搞定1w+数据,超实用!》

上文说道,老黄想生成 100 万条模拟数据,呆鸟先测试了一下 10 万条。结果。。。,不是想象中的 1 分钟 18 秒乘以 10 的概念,而是运行了 55 分钟,运行耗时增加了 40 多倍。太吓人了,要是 100 万条,就算不考虑数据越大,速度越慢的前提,哪怕只在 10 万条耗时的基础上提高 40 倍,那也要 2200 分钟。官网上确实也说了 DataFrame 的 append() 函数操作的数据量越大,耗费的时间就越长,但真没想到会长到这种程度。

怎么办?为了提升速度,呆鸟找到了在某知名公司任职的数据分析师 ~ 龙少。

呆鸟:“龙少,您给看下这段代码怎么优化下,能让它的速度快一些?”

龙少沉吟片刻:“你的电脑太慢了,赶紧买台新电脑吧,最好买台式机,内存要 128G 的,别买笔记本,散热不好。”

下图是龙少腿部的最新留影,这里,我们要讲的是算法优化,不是硬件优化,敷衍呆鸟,就是这个下场。

龙少这条路走不通,呆鸟又找到大神松哥求助。

松哥嘟嘟囔囔的说:“我这刚出来吃饭,吃完饭给你回复。”

速度快了 183 倍

三分钟后。。。

松哥发了几行代码过来,:“你就照这个思路做吧,随便写的,先试试”

def get_counterpart(counterpart_dict, source):
    counterpart = counterpart_dict[source]
    return counterpart

sales2 = pd.DataFrame(columns=["交易日期","客户ID","售货员","分公司","产品","单价","数量","订单金额"], index=range(1000000))

sales2['交易日期'] = sales2['交易日期'].apply(lambda row: random_dater('2019-01-01', '2019-12-31'))
sales2['客户ID'] = sales2['客户ID'].apply(lambda row: "C" + str(np.random.randint(1, 1000)).zfill(4))
sales2['售货员'] = sales2['售货员'].apply(lambda row: np.random.choice(list(sales_people)))
sales2['分公司'] = sales2.apply(lambda row: get_counterpart(sales_people, row["售货员"]), axis=1)
sales2['产品'] = sales2['产品'].apply(lambda row: np.random.choice(list(products)))
sales2['单价'] = sales2.apply(lambda row: get_counterpart(products, row["产品"]), axis=1)
sales2['数量'] = sales2['数量'].apply(lambda row: np.random.randint(1, 10000))
sales2['订单金额'] = sales2['单价'] * sales2['数量']

先看下效果,生成 100 万条数据只用了不到 3 分钟! 我 Ca,什么叫大神?这就是大神!

知识点:

  1. 生成一个长度为 100 万条的空 DataFrame,见 index=range(1000000)

  2. 总体思路为使用 apply() 函数,配合 lambda 匿名函数,再生成每列数据;

  3. 为了配合 lambda, 还要写个函数,见下方代码,该函数通过字典的键获取字典的值;

def get_counterpart(counterpart_dict, source):
    counterpart = counterpart_dict[source]
    return counterpart

注意:这段代码,除了使用了 apply() + lambda,计算方式本身并没有特别的变化。

建议大家,觉得代码速度慢的时候,首先想的应该是怎么优化算法,而不只是简单想换台电脑。

真人真事儿,前两年,技术总监在呆鸟提出用 Excel 没法快速处理数据时,给出的建议居然与龙少的意见如出一辙,换台好点的电脑!真是令人崩…溃…啊…

所以,要说松哥不愧是早就实现了百万阅读量的大神,分分钟搞定算法优化。

为了对比,呆鸟还测试了一下生成 10 万条数据的速度,只用了 18 秒,速度快了 183 倍。这只是之前代码生成 1 万条模拟数据耗时的零头。惊了!

还能再快吗?

松哥这种方法已经很快,但呆鸟还不满足,既然看到了这种可能,当然还想更快、更高、更强!

还真行,比起第二种方案大刀阔斧的改进,第三种方案只修改了第一种方案的三行代码。这也是令呆鸟惊讶的地方,如此小的改动,就能把性能提高这么多!

sale = []
for i in range(0, 100000):
    date = random_dater('2019-01-01', '2019-12-31')
    customer_id = "C" + str(np.random.randint(1, 1000)).zfill(4)
    sales_person = np.random.choice(list(sales_people))
    region = sales_people[sales_person]
    product = np.random.choice(list(products))
    price = products[product]
    quantity = np.random.randint(1, 10000)
    revenue = price * quantity
    sale.append([date, customer_id, sales_person,
                 region, product, price, quantity, revenue])
sales3 = pd.DataFrame(sale,columns=["交易日期","客户ID","售货员","分公司","产品","单价","数量","订单金额"])

大家可以看到,生成 10 万条数据只用了 12 秒,比初始方案的速度提升了 275 倍

生成 100 万条数据也只需要 1 分钟 52 秒。这比用初始方案生成 100 万模拟数据估算的耗时 2200 分钟,足足快了 1178 倍,所以本文的标题,不但不能算哗众取宠的标题党,甚至还得说是有些保守了呢。

知识点:

与昨天的初始方案相比,这段代码的区别在于,生成一个空列表,再把添加了数据的列表转换成 DataFrame,除此之外,别的都一样。

到此为止,我们的模拟数据代码终于圆满了,即便是生成一千万的数据,也只需要 20 分钟,终于对得起 Pandas 的处理能力了。

老黄:“我就说嘛,潘大师怎么会这么慢,呆鸟哥,你还得加油啊…”

呆鸟:“。。。。-_-||,少废话,皮痒了吧,要像龙少的腿一样吗!”

本文到此为止,如果还有朋友有更好的解决方案,欢迎给我留言。

感谢老黄、龙少、松哥的倾情出演,尤其是龙少。

Python数据分析与人工智能

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值