（四）基于TensorFlow的聊天机器人—文本处理方法

最新推荐文章于 2024-05-26 18:22:43 发布

雙安

最新推荐文章于 2024-05-26 18:22:43 发布

阅读量1.1k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiongwanfeng/article/details/88378880

版权

机器学习专栏收录该内容

16 篇文章 2 订阅

订阅专栏

一、语料的获取与处理

1、什么是语料库？
语料：即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。

语料库：存放的是在语言实际使用中真实出现过的语言材料，是以计算机为载体承载语言知识的基础资源。真实语料需要经过加工（分析、处理），才能成为有用的资源。

2、语料库的种类
异质的：语料有多种分类
同质的：语料同类
系统的：如聊天机器人
专用的：如保险推销聊天机器人

3、语料的获取途径
1、开放性语料数据集：
（1）中科院自动化所的中英文新闻语料库
（2）搜狗的中文新闻语料库
（3）人工生成的机器阅读理解数据集
（4）一个开放问题与回答的挑战数据集

2、爬虫技术

3、自有平台

语料的处理
步骤一：获取语料
步骤二：格式化文本
步骤三：特征工程（在数据集中提取相关的特征用于训练和验证）

二、NLP中的语言模型
语言模型概念
是NLP中的一大利器，是NLP领域一个基本却又重要的任务。
主要功能就是计算一个词语序列构成一个句子的概率，这可以用来判断一句话出现的概率高不高，符不符合表达习惯，是否通顺正确。
eg：我是NLP开发工程师、开发工程师我是NLP

语言模型分类
Unigram models（一元文法统计模型）
N-gram 语言模型（N元模型）

在这里插入图片描述

当n>3时基本就无法处理了，参数空间太大。另外它不能表示词与词之间的关联性。

三、词向量与word2vec
词向量：又称为词嵌入，是NLP中的一组语言建模和特征学习的统称，其中来自词汇表的单词或短语被映射到实数的向量。

word2vec，是为一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络，用来训练已重新构建语言学之词文本。

在这里插入图片描述

四、文本处理方法
1、数据清洗：去掉一些无意义的标签、url、符号等
2、分词、大小写转换、添加句首句尾、词性标注
3、统计词频、抽取文本特征、特征选择、计算特征权重、归一化
4、划分训练集、测试集

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
（四）基于TensorFlow的聊天机器人—文本处理方法

一、语料的获取与处理1、什么是语料库？语料：即语言材料。语料是语言学研究的内容。语料是构成语料库的基本单元。语料库：存放的是在语言实际使用中真实出现过的语言材料，是以计算机为载体承载语言知识的基础资源。真实语料需要经过加工（分析、处理），才能成为有用的资源。2、语料库的种类异质的：语料有多种分类同质的：语料同类系统的：如聊天机器人专用的：如保险推销聊天机器人3、语料的获取途径1...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。