自然语言
钟shi杰
信息与计算科学专业
展开
-
奋战聊天机器人(一)初识NLTK库
一、初识NLTK库 NLTK是一个比较优秀的自然语言处理工具包,是我们聊天机器人需要工作中较为重要的1. NLTK库安装Step 1: pip安装pip install nltkStep 2:执行python并下载书籍import nltknltk.download()Step 3:选择book后点Download开始下载选择book,然后点Download开始下载Step 4:下载完成原创 2017-08-30 09:40:05 · 771 阅读 · 0 评论 -
奋战聊天机器人(二)语料和词汇资源
当代自然语言处理都是基于统计的,统计自然需要很多样本,因此语料和词汇资源是必不可少的1. NLTK语料库NLTK包含多种语料库,比如:Gutenberg语料库nltk.corpus.gutenberg.fileids()nltk.corpus.gutenberg:语料库的阅读器nltk.corpus.gutenberg.raw(‘chesterton-brown.txt’):输出chestert原创 2017-08-30 16:18:39 · 3445 阅读 · 0 评论 -
奋战聊天机器人(三)自动化对语料做词性标注
1.英语词干提取器import nltkporter = nltk.PorterStemmer()porter.stem('lying')2.词性标注器import nltktext = nltk.word_tokenize("And now for something completely different")nltk.pos_tag(text)其中CC是连接词,RB是副词,IN是介词,原创 2017-08-30 16:20:04 · 1346 阅读 · 0 评论 -
奋战聊天机器人(四)自然语言处理中的文本分类
文本分类是机器学习在自然语言处理中的最常用也是最基础的应用,机器学习相关内容可以直接看我的有关scikit-learn相关教程,本节直接涉及nltk中的机器学习相关内容 预备机器学习的过程是训练模型和使用模型的过程,训练就是基于已知数据做统计学习,使用就是用统计学习好的模型来计算未知的数据。机器学习分为有监督学习和无监督学习,文本分类也分为有监督的分类和无监督的分类。有监督就是训练的样本数据有了确定原创 2017-09-01 13:50:47 · 817 阅读 · 0 评论 -
奋战聊天机器人(五)从一句话中提取更多信息
一句话,可以由任何词构成,可长可短,是一个非结构化的信息。那么为了要计算机理解一句话,我们视图将句子转化为结构化的形式比如说:“我下午要和小明在公司讨论一个技术问题”1)小明是一个实体2)参与者有两个:我和小明3)地点设定是:公司4)要做的事情是:讨论5)讨论的内容是:问题6)这个问题是一个技术问题7)公司是一个地点8)讨论是一种行为9)我和小明有某种关系10)下午是一个时间1. 分块分块就是根据句原创 2017-09-01 14:01:07 · 481 阅读 · 0 评论