迭代器
在介绍迭代器之前,先说明下迭代的概念:
迭代:通过for循环遍历对象的每一个元素的过程。
Python的for语法功能非常强大,可以遍历任何可迭代的对象。
在Python中,list/tuple/string/dict/set/bytes都是可以迭代的数据类型。
迭代器是什么?
迭代器是一种可以被遍历的对象,并且能作用于next()函数。迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。 迭代器只能往后遍历不能回溯,不像列表,你随时可以取后面的数据,也可以返回头取前面的数据。
from collections.abc import Iterator, Iterable
print(isinstance(list(), Iterable)) # True
print(isinstance(list(), Iterator)) # False
l = [1, 2, 3, 4]
it = iter(l)
print(next(it))
print(next(it))
print(next(it))
print(next(it))
for i in it:
print(i)
在上述代码中,Iterator, Iterable的意思分别为迭代器和可迭代的对象,列表是一个可迭代的对象,但不是一个迭代器,it = iter(l)是用l里的值生成一个迭代器it,用next()函数来取得it里的值,但是每个值都只能取一次,所以最下面的代码for i in it: print(i)已经是取不出来值的了。
生成器
有时候,序列或集合内的元素的个数非常巨大,如果全制造出来并放入内存,对计算机的压力是非常大的
生成器如何读取大文件
文件300G,文件比较特殊,一行 分隔符 {|}
def readlines(f,newline):
buf = ""
while True:
while newline in buf:
pos = buf.index(newline)
yield buf[:pos]
buf = buf[pos + len(newline):]
chunk = f.read(4096*10)
if not chunk:
yield buf
break
buf += chunk
with open('demo.txt') as f:
for line in readlines(f,"{|}"):
print(line)
在上述代码中,readline方法实现了读取文件f中的内容,然后查找到第一个分割符所在的索引位置pos,通过生成器对读取的buf进行切片读取第一个分割符之前的内容,再将buf更新为第一个分割符之后的内容,再重复,便得到了每个分割符相隔开的内容。