Pandas 百问百答第 010 篇。
呆鸟云:书接上文《不会爬,没数据?没关系!3分钟搞定1w+数据,超实用!》 。
上文说道,老黄想生成 100 万条模拟数据,呆鸟先测试了一下 10 万条。结果。。。,不是想象中的 1 分钟 18 秒乘以 10 的概念,而是运行了 55 分钟,运行耗时增加了 40 多倍。太吓人了,要是 100 万条,就算不考虑数据越大,速度越慢的前提,哪怕只在 10 万条耗时的基础上提高 40 倍,那也要 2200 分钟。官网上确实也说了 DataFrame 的 append()
函数操作的数据量越大,耗费的时间就越长,但真没想到会长到这种程度。
怎么办?为了提升速度,呆鸟找到了在某知名公司任职的数据分析师 ~ 龙少。
呆鸟:“龙少,您给看下这段代码怎么优化下,能让它的速度快一些?”
龙少沉吟片刻:“你的电脑太慢了,赶紧买台新电脑吧,最好买台式机,内存要 128G 的,别买笔记本,散热不好。”
下图是龙少腿部的最新留影,这里,我们要讲的是算法优化,不是硬件优化,敷衍呆鸟,就是这个下场。
龙少这条路走不通,呆鸟又找到大神松哥求助。
松哥嘟嘟囔囔的说:“我这刚出来吃饭,吃完饭给你回复。”
速度快了 183 倍
三分钟后。。。
松哥发了几行代码过来,:“你就照这个思路做吧,随便写的,先试试”
def get_counterpart(counterpart_dict, source):
counterpart = counterpart_dict[source]
return counterpart
sales2 = pd.DataFrame(columns=["交易日期","客户ID","售货员","分公司","产品","单价","数量","订单金额"], index=range(1000000))
sales2['交易日期'] = sales2['交易日期'].apply(lambda row: random_dater('2019-01-01', '2019-12-31'))
sales2['客户ID'] = sales2['客户ID'].apply(lambda row: "C" + str(np.random.randint(1, 1000)).zfill(4))
sales2['售货员'] = sales2['售货员'].apply(lambda row: np.random.choice(list(sales_people)))
sales2['分公司'] = sales2.apply(lambda row: get_counterpart(sales_people, row["售货员"]), axis=1)
sales2['产品'] = sales2['产品'].apply(lambda row: np.random.choice(list(products)))
sales2['单价'] = sales2.apply(lambda row: get_counterpart(products, row["产品"]), axis=1)
sales2['数量'] = sales2['数量'].apply(lambda row: np.random.randint(1, 10000))
sales2['订单金额'] = sales2['单价'] * sales2['数量']
先看下效果,生成 100 万条数据只用了不到 3 分钟! 我 Ca,什么叫大神?这就是大神!
知识点:
生成一个长度为 100 万条的空 DataFrame,见
index=range(1000000)
;总体思路为使用
apply()
函数,配合 lambda 匿名函数,再生成每列数据;为了配合 lambda, 还要写个函数,见下方代码,该函数通过字典的键获取字典的值;
def get_counterpart(counterpart_dict, source):
counterpart = counterpart_dict[source]
return counterpart
注意:这段代码,除了使用了
apply()
+lambda
,计算方式本身并没有特别的变化。
建议大家,觉得代码速度慢的时候,首先想的应该是怎么优化算法,而不只是简单想换台电脑。
真人真事儿,前两年,技术总监在呆鸟提出用 Excel 没法快速处理数据时,给出的建议居然与龙少的意见如出一辙,换台好点的电脑!真是令人崩…溃…啊…
所以,要说松哥不愧是早就实现了百万阅读量的大神,分分钟搞定算法优化。
为了对比,呆鸟还测试了一下生成 10 万条数据的速度,只用了 18 秒,速度快了 183 倍。这只是之前代码生成 1 万条模拟数据耗时的零头。惊了!
还能再快吗?
松哥这种方法已经很快,但呆鸟还不满足,既然看到了这种可能,当然还想更快、更高、更强!
还真行,比起第二种方案大刀阔斧的改进,第三种方案只修改了第一种方案的三行代码。这也是令呆鸟惊讶的地方,如此小的改动,就能把性能提高这么多!
sale = []
for i in range(0, 100000):
date = random_dater('2019-01-01', '2019-12-31')
customer_id = "C" + str(np.random.randint(1, 1000)).zfill(4)
sales_person = np.random.choice(list(sales_people))
region = sales_people[sales_person]
product = np.random.choice(list(products))
price = products[product]
quantity = np.random.randint(1, 10000)
revenue = price * quantity
sale.append([date, customer_id, sales_person,
region, product, price, quantity, revenue])
sales3 = pd.DataFrame(sale,columns=["交易日期","客户ID","售货员","分公司","产品","单价","数量","订单金额"])
大家可以看到,生成 10 万条数据只用了 12 秒,比初始方案的速度提升了 275 倍。
生成 100 万条数据也只需要 1 分钟 52 秒。这比用初始方案生成 100 万模拟数据估算的耗时 2200 分钟,足足快了 1178 倍,所以本文的标题,不但不能算哗众取宠的标题党,甚至还得说是有些保守了呢。
知识点:
与昨天的初始方案相比,这段代码的区别在于,生成一个空列表,再把添加了数据的列表转换成 DataFrame,除此之外,别的都一样。
到此为止,我们的模拟数据代码终于圆满了,即便是生成一千万的数据,也只需要 20 分钟,终于对得起 Pandas 的处理能力了。
老黄:“我就说嘛,潘大师怎么会这么慢,呆鸟哥,你还得加油啊…”
呆鸟:“。。。。-_-||,少废话,皮痒了吧,要像龙少的腿一样吗!”
本文到此为止,如果还有朋友有更好的解决方案,欢迎给我留言。
感谢老黄、龙少、松哥的倾情出演,尤其是龙少。
Python数据分析与人工智能