Python高手必读，做一个精通规则的玩家

最新推荐文章于 2024-04-12 15:00:00 发布

Python小行家

最新推荐文章于 2024-04-12 15:00:00 发布

阅读量154

点赞数

文章标签： python

本文链接：https://blog.csdn.net/weixin_45719624/article/details/102519267

版权

编程，其实和玩电子游戏有一些相似之处。你在玩不同游戏前，需要先学习每个游戏的不同规则，只有熟悉和灵活运用游戏规则，才更有可能在游戏中获胜。

而编程也是一样，不同编程语言同样有着不一样的“规则”。大到是否支持面向对象，小到是否可以定义常量，编程语言的规则比绝大多数电子游戏要复杂的多。

当我们编程时，如果直接拿一种语言的经验套用到另外一种语言上，很多时候并不能取得最佳结果。这就好像一个 CS（反恐精英）高手在不了解规则的情况下去玩 PUBG（绝地求生），虽然他的枪法可能万中无一，但是极有可能在发现第一个敌人前，他就会倒在某个窝在草丛里的敌人的伏击下。

Python 里的规则
Python 是一门初见简单、深入后愈觉复杂的语言。拿 Python 里最重要的“对象”概念来说，Python 为其定义了多到让你记不全的规则，比如：

定义了 str 方法的对象，就可以使用 str() 函数来返回可读名称

定义了 next 和 iter 方法的对象，就可以被循环迭代

定义了 bool 方法的对象，在进行布尔判断时就会使用自定义的逻辑

… …

熟悉规则，并让自己的代码适应这些规则，可以帮助我们写出更地道的代码，事半功倍的完成工作。下面，让我们来看一个有关适应规则的故事。

案例：从两份旅游数据中获取人员名单
某日，在一个主打新西兰出境游的旅游公司里，商务同事突然兴冲冲的跑过来找到我，说他从某合作伙伴那里，要到了两份重要的数据：

所有去过“泰国普吉岛”的人员及联系方式

所有去过“新西兰”的人员及联系方式

数据采用了 JSON 格式，如下所示：
#去过普吉岛的人员数据
users_visited_puket = [
{“first_name”:“Just”,“last_name”:"Malcom,“phone_number”:“267-282-1964，“datevisited：“2011-03-13”},”
{first_name”:“Albert”,"last_name:“Potter”,“phone_number”:702-249-3714,"date_visited:“2013-09-11”}
…
]
每份数据里面都有着姓、名、手机号码、旅游时间四个字段。基于这份数据，商务同学提出了一个（听上去毫无道理）的假设：“去过普吉岛的人，应该对去新西兰旅游也很有兴趣。我们需要从这份数据里，找出那些去过普吉岛但没有去过新西兰的人，针对性的卖产品给他们。
第一次蛮力尝试
有了原始数据和明确的需求，接下来的问题就是如何写代码了。依靠蛮力，我很快就写出了第一个方案：

因为原始数据里没有“用户 ID”之类的唯一标示，所以我们只能把“姓名和电话号码完全相同”作为判断是不是同一个人的标准。

find_potential_customers_v1 函数通过循环的方式，先遍历所有去过普吉岛的人，然后再遍历新西兰的人，如果在新西兰的记录中找不到完全匹配的记录，就把它当做“潜在客户”返回。

这个函数虽然可以完成任务，但是相信不用我说你也能发现。它有着非常严重的性能问题。对于每一条去过普吉岛的记录，我们都需要遍历所有新西兰访问记录，尝试找到匹配。整个算法的时间复杂度是可怕的 O(n*m)，如果新西兰的访问条目数很多的话，那么执行它将耗费非常长的时间。

为了优化内层循环性能，我们需要减少线性查找匹配部分的开销。

尝试使用集合优化函数
如果你对 Python 有所了解的话，那么你肯定知道，Python 里的字典和集合对象都是基于哈希表（Hash Table）实现的。判断一个东西是不是在集合里的平均时间复杂度是 O(1)，非常快。

所以，对于上面的函数，我们可以先尝试针对新西兰访问记录初始化一个集合，之后的查找匹配部分就可以变得很快，函数整体时间复杂度就能变为 O(n+m)。

让我们看看新的函数：
在这里插入图片描述
使用了集合对象后，新函数在速度上相比旧版本有了飞跃性的突破。但是，对这个问题的优化并不是到此为止，不然文章标题就应该改成：“如何使用集合提高程序性能” 了。

对问题的重新思考
让我们来尝试重新抽象思考一下问题的本质。首先，我们有一份装了很多东西的容器 A（普吉岛访问记录），然后给我们另一个装了很多东西的容器 B（新西兰访问记录），之后定义相等规则：“姓名与电话一致”。最后基于这个相等规则，求 A 和 B 之间的“差集”。

如果你对 Python 里的集合不是特别熟悉，我就稍微多介绍一点。假如我们拥有两个集合 A 和 B，那么我们可以直接使用 A-B 这样的数学运算表达式来计算二者之间的差集。在这里插入图片描述
所以，计算“所有去过普吉岛但没去过新西兰的人”，其实就是一次集合的求差值操作。那么要怎么做，才能把我们的问题套入到集合的游戏规则里去呢?

利用集合的游戏规则
在 Python 中，如果要把某个东西装到集合或字典里，一定要满足一个基本条件：“这个东西必须是可以被哈希（Hashable）的” 。什么是 “Hashable”？

举个例子，Python 里面的所有可变对象，比如字典，就不是 Hashable 的。当你尝试把字典放入集合中时，会发生这样的错误:
在这里插入图片描述
所以，如果要利用集合解决我们的问题，就首先得定义我们自己的 “Hashable” 对象： VisitRecord。而要让一个自定义对象变得 Hashable，唯一要做的事情就是定义对象的 hash 方法。
一个好的哈希算法，应该让不同对象之间的值尽可能的唯一，这样可以最大程度减少“哈希碰撞”发生的概率，默认情况下，所有 Python 对象的哈希值来自它的内存地址。

在这个问题里，我们需要自定义对象的 hash 方法，让它利用（姓，名，电话）元组作为 VisitRecord 类的哈希值来源。在这里插入图片描述
自定义完 hash 方法后， VisitRecord 实例就可以正常的被放入集合中了。但这还不够，为了让前面提到的求差值算法正常工作，我们还需要实现 eq 特殊方法。

eq 是 Python 在判断两个对象是否相等时调用的特殊方法。默认情况下，它只有在自己和另一个对象的内存地址完全一致时，才会返回 True。但是在这里，我们复用了 VisitRecord 对象的哈希值，当二者相等时，就认为它们一样。在这里插入图片描述
完成了恰当的数据建模后，之后的求差值运算便算是水到渠成了。新版本的函数只需要一行代码就能完成操作：

Hint：如果你使用的是 Python 2，那么除了 eq 方法外，你还需要自定义类的 ne（判断不相等时使用）方法。

Python小行家

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Python高手必读，做一个精通规则的玩家

编程，其实和玩电子游戏有一些相似之处。你在玩不同游戏前，需要先学习每个游戏的不同规则，只有熟悉和灵活运用游戏规则，才更有可能在游戏中获胜。而编程也是一样，不同编程语言同样有着不一样的“规则”。大到是否支持面向对象，小到是否可以定义常量，编程语言的规则比绝大多数电子游戏要复杂的多。当我们编程时，如果直接拿一种语言的经验套用到另外一种语言上，很多时候并不能取得最佳结果。这就好像一个 CS（反恐精英...
复制链接

扫一扫