代码
import numpy as np
import matplotlib.pyplot as plt
from keras.models import Sequential
from keras.layers import Embedding, Flatten, Dense
from sklearn.manifold import TSNE
num_categories = 10
data_size = 1000
embedding_dim = 3
data = np.random.randint(0, num_categories, (data_size, 1))
labels = np.random.randint(0, 2, data_size)
model = Sequential()
model.add(Embedding(input_dim=num_categories, output_dim=embedding_dim, input_length=1))
model.add(Flatten())
model.add(Dense(1, activation='sigmoid'))
model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])
model.fit(data, labels, epochs=10, verbose=0)
embedding_layer_model = Sequential()
embedding_layer_model.add(model.layers[0])
embeddings = embedding_layer_model.predict(data)
embeddings_2d = embeddings.reshape(-1, embedding_dim)
tsne = TSNE(n_components=2, perplexity=30, init='pca')
embeddings_2d_tsne = tsne.fit_transform(embeddings_2d)
plt.figure(figsize=(8, 8))
plt.scatter(embeddings_2d_tsne[:, 0], embeddings_2d_tsne[:, 1], c=data[:, 0], cmap='viridis')
plt.colorbar()
plt.xlabel('Dimension 1')
plt.ylabel('Dimension 2')
plt.title('t-SNE visualization of embeddings')
plt.show()
代码解释
- 数据准备:
创建一个包含 10 个类别的示例数据,每个类别的索引从 0 到 9。 - 定义 Keras 模型:
使用 Embedding 层将类别索引映射到 3 维嵌入向量。
后续添加 Flatten 层和全连接层以完成模型定义。 - 编译和训练模型:
使用随机生成的训练数据和标签对模型进行训练。 - 提取嵌入向量:
从训练好的模型中提取嵌入层的权重,即嵌入矩阵。 - 降维:
使用 t-SNE 将嵌入向量从 3 维降到 2 维,以便可视化。 - 可视化:
使用 Matplotlib 绘制降维后的嵌入向量,并为每个类别添加标签。
- t-SNE 和 PCA 的对比
t-SNE:擅长在降维时保持局部邻域结构,适合用于高维数据的可视化。对于嵌入向量的可视化,t-SNE 通常能提供更直观的表示。