pandas创建虚拟变量的一个例子

最新推荐文章于 2024-04-10 00:44:11 发布

白噪声序列

最新推荐文章于 2024-04-10 00:44:11 发布

阅读量1.1k

点赞数

分类专栏： Python 数据分析

本文链接：https://blog.csdn.net/weixin_43565540/article/details/108097355

版权

Python 同时被 2 个专栏收录

15 篇文章 1 订阅

订阅专栏

数据分析

2 篇文章 0 订阅

订阅专栏

《利用Python进行数据分析》一书中有这样一个创建虚拟变量的例子。
原始数据：
在这里插入图片描述
我们需要根据类别列genres生成每个电影所属类别的虚拟变量。首先问题在于每个观测属于多个类别，不能直接应用pd.get_dummies函数。

第一步：首先需要知道具体有多少种电影流派

all_genres = []
for x in movies.genres:
	all_genres.extend(x.split('|'))
genres = pd.unique(all_genres)

第二步：创建一个用于储存虚拟变量的dataframe

zero_matrix = np.zeros((len(movies), len(genres))
dummies = pd.DataFrame(zero_matrix, columns = genres)

第三步：遍历每一部电影，根据电影所属的类别在dummiesdataframe中进行标注

for i, gen in enumerate(movies.genres):
	#dummies.columns 返回dummies的列标签
	#.get_indexer方法返回列表区的索引值
	# indices返回一个数组，储存了该电影所属类别对应的列标签
	indices = dummies.columns.get_indexer(gen.split('|'))
	# 使用iloc方法进行索引
	dummies.iloc[i, indices] = 1

第四步：将虚拟变量结果与原始矩阵联合

movies_windic = movies.join(dummies.add_prefix('Genre_'))

白噪声序列

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
pandas创建虚拟变量的一个例子

对于一条观测属于多个类别的情况，考虑如何创建虚拟变量矩阵。
复制链接

扫一扫

专栏目录

pandas创建虚拟变量的一个例子

“相关推荐”对你有帮助么？