通过某个字段将记录分组
Q:
如果有一个字典,想根据date来分组迭代访问.
A:
itertools.groupby()函数对于这样的数据分组操作非常实用。
rows = [{'address': '5412 N CLARK', 'date': '07/01/2012'},
{'address': '4801 N BROADWAY', 'date': '07/01/2012'},
{'address': '5800 E 58TH', 'date': '07/02/2012'},
{'address': '5645 N RAVENSWOOD', 'date': '07/02/2012'},
{'address': '1060 W ADDISON', 'date': '07/02/2012'},
{'address': '2122 N CLARK', 'date': '07/03/2012'},
{'address': '5148 N CLARK', 'date': '07/04/2012'},
{'address': '1039 W GRANVILLE', 'date': '07/04/2012'}]
假设想在按date分组后的数据块上迭代。首页按照指定的字段(date)排序,然后调用itertools.groupby()函数
from operator import itemgetter
from itertools import groupby
rows.sort(key=itemgetter('date'))
for date, items in groupby(rows,key=itemgetter('date')):
print(date)
for i in items:
print(' ', i)
结果:
07/01/2012
{'date': '07/01/2012', 'address': '5412 N CLARK'}
{'date': '07/01/2012', 'address': '4801 N BROADWAY'}
07/02/2012
{'date': '07/02/2012', 'address': '5800 E 58TH'}
{'date': '07/02/2012', 'address': '5645 N RAVENSWOOD'}
{'date': '07/02/2012', 'address': '1060 W ADDISON'}
07/03/2012
{'date': '07/03/2012', 'address': '2122 N CLARK'}
07/04/2012
{'date': '07/04/2012', 'address': '5148 N CLARK'}
{'date': '07/04/2012', 'address': '1039 W GRANVILLE'}
groupby()函数扫描整个序列并且查找连续相同的值的元素序列。在每次迭代的时候,他会返回一个值和一个迭代器对象,这个迭代器对象可以生成元素值全部等于上面那个值的组中所有对象。
一个非常重要的准备步骤是要根据指定的字段将数据排序。因为groupby()只检查连续的元素。
如果仅仅想根据date字段将数据分组到一个大的数据结构中去,并且允许随机访问,那么你最好使用defaultdict()来构建一个多值字典。
from collections import defaultdict
rows_by_date = defaultdict(list)
for row in rows:
rows_by_date[row['date']].append(row)
这样就可以指定日期访问对应记录
for r in rows_by_date['07/01/2012']:
print(r)
{'date': '07/01/2012', 'address': '5412 N CLARK'}
{'date': '07/01/2012', 'address': '4801 N BROADWAY'}
参考书籍《Python Cookbook第三版》