NLP
文章平均质量分 68
自然语言处理
榆钱不知秋
要成为师兄那样的师姐
展开
-
CNN实现文本分类
先给出代码框架(data在最后有链接)utils.py#读取数据集的函数,这里有两个数据集 MR & TRECfrom sklearn.utils import shuffleimport pickledef read_TREC(): data = {} def read(mode): #'train' 'test' x, y = [], [] with open("data/TREC/TREC_" + mode +原创 2022-05-08 21:15:43 · 1888 阅读 · 3 评论 -
连续词袋模型(CBOW)计算句子相似度(余弦相似度和欧氏距离)
相关了解可以参考下面的博客:https://blog.csdn.net/weixin_40771521/article/details/103893982提出问题:如何计算中文句子的相似度本文使用的是CBOW模型,通过负采样减少计算量1.先给出框架2.对数据做预处理运行pre_process.py文件##pre_process.py###1.生成样本数据:每一句有效词w2v_words.pkl 2.词表(词:序号)w2v_vocab.pklimport jiebaimpor原创 2022-04-23 23:36:00 · 1265 阅读 · 0 评论 -
基于简单的BP神经网络实现中文分词
1.BP神经网络BP神经网络可以分为两个部分,BP和神经网络,BP是 Back Propagation 的简写 ,意思是反向传播。而神经网络,可以说是一类相对复杂的计算网络。 正向传播就是让信息从输入层进入网络,依次经过每一层的计算,得到最终输出层结果的过程。反向传播的信息是误差,也就是输出层的结果与输入信息x对应的真实结果之间的差距。 通过一次正向传播,和一次反向传播,我们就可以将网络的参数更新一次,所谓训练网络,就是让正向传播和反向传播不断的往复进行,不断地更新网络的参数,最终使网络能够逼近真实的关原创 2022-04-22 22:20:13 · 2168 阅读 · 0 评论