简单理解RandomTreesEmbedding（随机森林嵌入）

本文链接：https://blog.csdn.net/weixin_47006934/article/details/112995744

RandomTreesEmbedding是机器学习中一种将低维不可分数据映射到高维空间使其线性可分的算法。它通过构建完全随机树森林，生成One-Hot编码的高维坐标，可用于特征稀疏化和新特征生成。此技术常与线性模型结合使用，提升模型性能。

摘要由CSDN通过智能技术生成

sklearn.ensemble.RandomTreesEmbedding模块简单介绍

RandomTreesEmbedding是一种利用完全随机树森林算法将原本在低维分布下线性不可分的数据映射到高维空间使其稀疏化，从而线性可分的算法。本质是一种将样本从低维空间映到高维空间的映射。

符号约定： $n_{tree}$ 为完全随机树数（简单评估器个数）， $n_{depth}$ 为树的层数， $n_{sample}$ 为样本数。

输出： $n_{sample}\times (n_{tree}\times n_{depth})$ 的2维One-Hot矩阵，其第 $(i,2n_{depth}\times (j-1)+k),k\leqslant n_{tree}$ 个元素意为第 $i$ 个样本属于\不属于第 $j$ 棵树的第 $k$ 个节点。因为这里的树是完全二叉树，左节点和右节点是成对出现的，所以这个矩阵的列也是两列两列的读的。

注意，这恰好构成了样本在 $n_{tree}\times 2n_{depth}$ 维空间下的坐标。

>>> from sklearn.ensemble import RandomTreesEmbedding
>>> X = [[0,0], [1,0], [0,1], [-1,0], [0,-1]]
>>> random_trees = RandomTreesEmbedding(
...    n_estimators=5, random_state=0, max_depth=1).fit(X)
>>> X_sparse_embedding = random_trees.transform(X)
>>> X_sparse_embedding.toarray()
array([[0., 1., 1., 0., 1., 0., 0., 1., 1., 0.],
       [0., 1., 1., 0., 1., 0., 0., 1., 1., 0.],
       [0., 1., 0., 1., 0., 1., 0., 1., 0., 1.],
       [1., 0., 1., 0., 1., 0., 1., 0., 1., 0.],
       [0., 1., 1., 0., 1., 0., 0., 1., 1., 0.]])