4-4 词嵌入技术（word2vec）

过于真实呢

于 2024-07-12 18:28:28 发布

阅读量962

点赞数 18

分类专栏： jj的ai之路文章标签： word2vec 人工智能自然语言处理

本文链接：https://blog.csdn.net/weixin_62115482/article/details/140357925

版权

jj的ai之路专栏收录该内容

32 篇文章 0 订阅

订阅专栏

4-4 词嵌入技术（word2vec）

词嵌入技术（word2vec）是自然语言处理（NLP）中的一种关键技术，通过将词语映射到低维向量空间中，使得计算机能够理解和处理语言中的语义信息。词嵌入不仅可以用于文本分类、情感分析等任务，还在机器翻译、对话系统等领域发挥着重要作用。本文将深入探讨词嵌入技术，尤其是word2vec的原理与应用，并提供丰富的Python代码示例，帮助读者更好地理解这一技术。

词嵌入的基本概念

什么是词嵌入？

词嵌入（Word Embedding）是一种将词语表示为实数向量的技术。传统的词表示方法，如one-hot编码，将每个词表示为一个高维的稀疏向量，这种表示方法无法捕捉词语之间的语义关系。而词嵌入通过将词语映射到一个低维的连续向量空间，使得语义相似的词在向量空间中的距离更近，从而更好地捕捉词语之间的关系。

word2vec的基本原理

word2vec是由Mikolov等人在2013年提出的一种词嵌入模型，主要包括两种模型结构：连续词袋模型（CBOW）和Skip-gram模型。

CBOW（Continuous Bag of Words）：通过上下文词语预测中心词。例如，在句子“我喜欢自然语言处理”中，利用“我”和“自然语言处理”来预测“喜欢”。
Skip-gram：通过中心词预测上下文词语。例如，在句子“我喜欢自然语言处理”中，利用“喜欢”来预测“我”和“自然语言处理”。

词嵌入的优点

低维表示：词嵌入将高维的稀疏向量表示转换为低维的稠密向量表示，降低了计算复杂度。
语义捕捉：词嵌入能够捕捉词语之间的语义关系，相似的词语在向量空间中距离更近。
迁移学习：预训练的词嵌入模型可以在不同的任务中迁移使用，提高模型的性能和稳定性。

word2vec的实现与应用

下面我们将通过Python代码示例，演示如何使用word2vec进行词嵌入训练和应用。

安装必要的库

首先，我们需要安装gensim库，这是一个用于主题建模和文档相似性分析的Python库，支持word2vec模型。

pip install gensim

准备数据

我们以中文文本数据为例，准备一份简单的语料库。

import jieba

# 示例文本数据
documents = [
    "我喜欢自然语言处理",
    "自然语言处理是人工智能的一个分支",
    "机器学习是自然语言处理的重要组成部分",
    "我们可以使用word2vec来训练词向量",
    "词嵌入技术在文本分类中非常有用"
]

# 对文本数据进行分词处理
tokenized_documents = [list(jieba.cut(doc)) for doc in documents]

训练word2vec模型

使用gensim库训练word2vec模型。

from gensim.models import Word2Vec

# 训练word2vec模型
model = Word2Vec(sentences=tokenized_documents, vector_size=100, window=5, min_count=1, workers=4)

# 保存模型
model.save("word2vec.model")

使用训练好的模型

我们可以使用训练好的word2vec模型来进行词语相似度计算、寻找相似词语等操作。

# 加载模型
model = Word2Vec.load("word2vec.model")

# 计算两个词语的相似度
similarity = model.wv.similarity("自然语言", "人工智能")
print(f"‘自然语言’与‘人工智能’的相似度为：{similarity}")

在这里插入图片描述

可视化词向量

为了更直观地理解词嵌入的效果，我们可以使用t-SNE算法对高维词向量进行降维，并进行可视化。

import matplotlib.pyplot as plt
from sklearn.manifold import TSNE
import jieba
from gensim.models import Word2Vec

# 示例文本数据
documents = [
    "我喜欢自然语言处理",
    "自然语言处理是人工智能的一个分支",
    "机器学习是自然语言处理的重要组成部分",
    "我们可以使用word2vec来训练词向量",
    "词嵌入技术在文本分类中非常有用"
]

# 对文本数据进行分词处理
tokenized_documents = [list(jieba.cut(doc)) for doc in documents]

# 训练word2vec模型
model = Word2Vec(sentences=tokenized_documents, vector_size=100, window=5, min_count=1, workers=4)

# 获取词向量
words = list(model.wv.index_to_key)
word_vectors = model.wv[words]

# 使用t-SNE降维
tsne = TSNE(n_components=2, perplexity=2)
word_vectors_2d = tsne.fit_transform(word_vectors)

# 绘制词向量图
plt.figure(figsize=(12, 8))
plt.scatter(word_vectors_2d[:, 0], word_vectors_2d[:, 1])

for i, word in enumerate(words):
    plt.annotate(word, xy=(word_vectors_2d[i, 0], word_vectors_2d[i, 1]))

plt.show()

在这里插入图片描述

word2vec的高级应用

1. 文本分类

词嵌入在文本分类中有广泛的应用。通过将文本表示为词向量的平均值或其他聚合方式，可以有效地进行文本分类任务。

from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import jieba
import numpy as np
from gensim.models import Word2Vec
# 示例文本数据及标签
texts = ["我喜欢自然语言处理", "自然语言处理是人工智能的一个分支", "机器学习是自然语言处理的重要组成部分", "我们可以使用word2vec来训练词向量", "词嵌入技术在文本分类中非常有用"]
labels = [1, 1, 1, 0, 0]
model = Word2Vec.load("word2vec.model")
# 分词
tokenized_texts = [list(jieba.cut(text)) for text in texts]

# 计算每个文本的平均词向量
def average_vector(tokens):
    vector = np.zeros(model.vector_size)
    count = 0
    for token in tokens:
        if token in model.wv:
            vector += model.wv[token]
            count += 1
    if count > 0:
        vector /= count
    return vector

text_vectors = np.array([average_vector(tokens) for tokens in tokenized_texts])

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(text_vectors, labels, test_size=0.2, random_state=42)

# 训练分类模型
classifier = RandomForestClassifier(n_estimators=100)
classifier.fit(X_train, y_train)

# 预测
y_pred = classifier.predict(X_test)

# 计算准确率
accuracy = accuracy_score(y_test, y_pred)
y_test_str = ''.join(map(str, y_test))
y_pred_str = ''.join(map(str, y_pred))


print("真实值:" + y_test_str)
print("预测值:" + y_pred_str)
print(f"文本分类准确率：{accuracy*100}%S")

在这里插入图片描述

2. 语义相似度计算

word2vec模型可以用于计算短文本之间的语义相似度，这在问答系统、推荐系统中非常有用。

import jieba
from gensim.models import Word2Vec
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# 示例文本数据
documents = [
    "我喜欢自然语言处理",
    "自然语言处理是人工智能的一个分支",
    "机器学习是自然语言处理的重要组成部分",
    "我们可以使用word2vec来训练词向量",
    "词嵌入技术在文本分类中非常有用"
]

# 对文本数据进行分词处理
tokenized_documents = [list(jieba.cut(doc)) for doc in documents]

# 训练word2vec模型
model = Word2Vec(sentences=tokenized_documents, vector_size=100, window=5, min_count=1, workers=4)

# 示例短文本数据
text1 = "我喜欢自然语言处理"
text2 = "自然语言处理是人工智能的一个分支"

# 分词
tokens1 = list(jieba.cut(text1))
tokens2 = list(jieba.cut(text2))

# 计算每个文本的平均词向量
def average_vector(tokens):
    vector = np.zeros(model.vector_size)
    count = 0
    for token in tokens:
        if token in model.wv:
            vector += model.wv[token]
            count += 1
    if count > 0:
        vector /= count
    return vector

vector1 = average_vector(tokens1)
vector2 = average_vector(tokens2)

# 计算余弦相似度
similarity = cosine_similarity([vector1], [vector2])[0][0]
print(f"‘{text1}’与‘{text2}’的相似度为：{similarity}")

在这里插入图片描述

过于真实呢

关注

18
点赞
踩
13

收藏

觉得还不错? 一键收藏
打赏
0
评论
4-4 词嵌入技术（word2vec）

词嵌入（Word Embedding）是一种将词语表示为实数向量的技术。传统的词表示方法，如one-hot编码，将每个词表示为一个高维的稀疏向量，这种表示方法无法捕捉词语之间的语义关系。而词嵌入通过将词语映射到一个低维的连续向量空间，使得语义相似的词在向量空间中的距离更近，从而更好地捕捉词语之间的关系。
复制链接

扫一扫