每日10行代码92:编写高质量python代码方法9——用生成器表达式来改写数据量较大的列表推导

列表推导的缺点是:在推导过程中,对于输入的每个值来说,可能都要创建仅含一项元素的全新列表。当输入的数据比较少时,不会出问题,但如果输入的数据非常多,那么可能消耗大量的内存,并导致程序崩溃。
例如,人读取一份文件并返回每行的字符数。若采用列表推导来做,则需把文件每一行的长度都保存在内存中。如果这个文件特别大,或是通过无休止的network socket(网络套接字)来读取,那么这种列表推导就会出问题。下面的这段列表推导代码,只适合处理少量的输入值。

value = [len(x) for x in open(r'/tmp/my_file.txt')]
print(value)

为了解决此问题,python提供了生成器表达式(generator expression),它是对列表推导和生成吕的一种泛化(generalization). 生成器表达式在运行的时候,并不会把整个输出序列都呈现出来,而是会估值为迭代器(iterator),这个迭代器每次可以根据生成器表达式产生一项数据。
把实现列表推导所有的那种写法放一在对圆括号中,就构成了生成器表达式。下面给出的生成器表达方式与刚才的代码等效。二者的区别在于,对生成器表达式求值的时候,它会立刻返回一个迭代器,而不会常深入处理文件中的内容。

it = (len(x) for x in open(r'/tmp/my_file.txt'))
print(value)

输出结果:

<generator object <genexpr> at 0x00B4CED0>

以刚才返回的那个迭代器为参数,逐次调用next函数,即可使其按照生成器表达式来输出下一个值。可以根据自己的需要,多次命令迭代器根据生成器表达式来生成新值,而不用担心内存用量激增。

print(next(it)
print(next(it)
>>>
27
30

使用生成器表达式还有个好处,就是可以互相组合。

roots =((x,x **0.5) for x in it)
print(next(roots))
>>>
(31, 5.5677643628300215)

用生成器表达式要注意的是迭代器是有状态的,用过一轮后,就不要反复用了。

要点:

  1. 当输入数据量较大时,列表推导可能会因为占用太多内存而出问题。
  2. 由生成器表达式所返回的迭代器,可以逐次产生输出值,从而避免了内存用量问题。
  3. 把某个生成器表达式所返回的迭代器,放在另一个生成器表达式的for子表达式中,即可将二都组合起来。
  4. 串在一起的生成器表达式执行速度很快。

个人观点:
这一章的内容还是挺重要的,因为写程序时确实会经常遇到这种情况,这时候使用推导式生成迭代器是个好方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值