使用BERT获取中文词向量

最新推荐文章于 2024-07-27 22:44:12 发布

酸辣螺丝粉

最新推荐文章于 2024-07-27 22:44:12 发布

阅读量4.5w

点赞数 17

分类专栏：自然语言处理文章标签： NLP

本文链接：https://blog.csdn.net/zhylhy520/article/details/87615772

版权

本文介绍了如何利用BERT生成中文词向量，解决了word2vec的一词多义问题。通过使用肖涵博士的bert-as-service，详细阐述了环境配置、模型下载、服务启动以及在Python中获取词向量的步骤。获取到的词向量可以用于结合CNN、RNN等模型进行后续任务。

摘要由CSDN通过智能技术生成

BERT其中的一个重要作用是可以生成词向量，它可以解决word2vec中无法解决的一词多义问题。

然而BERT获取词向量的门槛要比word2vec要高得多。笔者在这里介绍一下如何获取BERT的词向量。

笔者在获取BERT词向量的时候用到了肖涵博士的bert-as-service，具体使用方式如下。

环境要求：python版本>=3.5,tensorflow版本>=1.10（笔者使用的是1.12）
相关包的安装：pip install bert-serving-server; pip install bert-serving-client
下载训练好的BERT中文模型：https://storage.googleapis.com/bert_models/2018_11_03/chinese_L-12_H-768_A-12.zip
启动bert-as-service :在cmd窗口进入bert-serving-start.exe所在的文件夹，在该文件路径下输入bert-serving-start -model_dir E:/chinese_L-12_H-768_A-12 -num_worker=2（训练好的中文模型路径，num_worker的数量可以自行选择），如果成功开启则出现以下界面

关注

专栏目录