def dictvec():
‘’’
字典数据抽取
:return:
‘’’
#实例化
#字典的向量化
#有多少种状态,用多少位的二进制表示,1表示该标签出现,0表示没有出现
dict_vector = DictVectorizer(sparse=False)
data = dict_vector.fit_transform([
{‘city’:‘北京’,‘pos’:‘北方’,‘temp’:100},
{‘city’:‘上海’,‘pos’:‘南方’,‘temp’:60},
{‘city’:‘深圳’,‘pos’:‘南方’,‘temp’:30},
{‘city’:‘重庆’,‘pos’:‘西方’,‘temp’:70}])
for i in dict_vector.get_feature_names():
print(i)
print(data)
dic = dictvec()
注释:上海,北京,深圳,重庆这四个排序,所以用四位表示,有的用1表示,没有的用0表示,上海在data数据中的第二个字典,所有在打印的结果当中,第二行中是1. 0. 0. 0.
注释:北方,南方,西方这三个排序,所以用三位表示方位,有的用1表示,没有的用0表示,北方在data数据中的第一个字典,所以在打印的结果当中,第一行中的是1. 0. 0.
注释:前四位表示城市的占位符,后三位表示方向的占位符