Python自然语言处理
我住长江头
这个作者很懒,什么都没留下…
展开
-
Python自然语言处理笔记(八)------WordNet
一. WordNetWordNet:是面向语义的英语词典,与传统词典相似,但结构更丰富。1. 寻找同义词以寻找'motorcar'的同义词集为例同义词集:意义相同的词的集合。词条:同义词集和词的配对。例:找到指定同义词集的所有词条;查找特定的词条;得到一个词条所对应的同义词集;得到一个词条的名字。2. WordNet的层次结构WordNet概念的...原创 2019-07-18 10:28:17 · 741 阅读 · 0 评论 -
Python自然语言处理笔记(四)------一些语言理解技术
一. 一些语言理解技术词意消歧 消除歧义需要联系上下文,利用相邻词汇的相近含义。 2. 指代消解 解决“谁对谁做了什么”,也就是检测动词的主语和宾语,确定代词或名字短语指的是什么。 3. 语义角色标注 确定名词短语如何与动词相关联。二. 一些自动生成语言的任务(建立在一的基础之上) 1. 自动问答...原创 2019-07-17 15:50:52 · 122 阅读 · 0 评论 -
Python自然语言处理笔记(六)------条件频率分布
一. 条件频率分布条件频率分布:是频率分布的集合,每个频率分布都有一个不同的“条件”,这个条件通常是文本的类别。条件频率分布需要给每个事件关联一个条件,所以不是处理一个词序列,而是要处理一系列配对序列。每对的形式是:(条件,事件)1. 按文体计数词汇FreqDist()以一个简单的链表作为输入,ConditionalFreqDist()以一个配对链表作为输入。对于每个文体...原创 2019-07-17 15:44:39 · 533 阅读 · 0 评论 -
Python自然语言处理笔记------学习分类文本
怎样才能构建用于自动执行语言处理任务的语言模型?从这些模型中我们可以学到哪些关于语言的知识?决策树、朴素贝叶斯分类器和最大熵分类监督式分类分类:为给定的输入选择正确的类标签。在基本的分类任务中,每个输入被认为是与其他所有输入隔离的,并且标签集是预先定义的。监督式分类:建立在训练语料(包括每个输入的正确标签)基础之上的分类。监督式分类的框架图:在训练过程中,特...原创 2019-07-24 13:34:22 · 421 阅读 · 0 评论 -
Python自然语言处理笔记(五)------获取文本语料库
一. 获取文本语料库1. 古腾堡语料库古腾堡语料库:包含古腾堡项目电子文本档案的一小部分文本,该项目大约有25000(现在是36000)本免费电子书。(文学类,比较正式的语言)raw()函数:能在没有进行过任何语言学处理之前把文件的内容分析出来。sents()函数: 把文本划分位一个句子,其中每一个句子是一个词链表。words()函数:返回词数。获取:from nltk...原创 2019-07-17 13:22:25 · 2236 阅读 · 0 评论 -
Python自然语言处理笔记(三)------频率分布
一. 频率分布频率分布:显示每一个词项在文本中出现的频率,它告诉我们文本中词标识符的总数是如何分布在词项中的。1.如何能自动识别文本中最能体现文本主题和风格的词汇?找到高频词。 找到只出现一次的词 长词(通常是唯一的) 短高频词和长低频词 搭配与双连词(搭配基本上是频繁的双连词) 查看文本中词长的分布2.如何找到高频词?使用FreqDistFreqDist ...原创 2019-07-17 09:55:49 · 1040 阅读 · 0 评论 -
Python自然语言处理(十)------标注词汇与分类
词性标注:将词汇按照它们的词性分类并相应地对它们进行标注的过程。标记集:用于特定任务标记的集合。重点:利用标记和自动标注文本词性标注器词性标注器:处理一个词序列,为每个词附加一个词性标注。例:包括一些同形同音异义词(refuse,permit)为什么要引入词汇类别(如名词)以及词性标记(NN)?因为这些类别中很多都源于对文本中词语分布的浅层分析。例:使...原创 2019-07-23 16:22:52 · 1444 阅读 · 0 评论 -
Python自然语言处理笔记(二)------NLTK的几个常用函数
一. NLTK的几个常用函数concordance() 功能:显示一个指定单词的每一次出现,连同一些上下文一起显示。 例: 2. similar() 功能:显示与给定词有相似上下文的一些词 例: 3. common_contexts() 功能:研究两个或两个以上的词共同的上下文 例:...原创 2019-07-16 11:22:45 · 483 阅读 · 0 评论 -
Python自然语言处理笔记(十一)------N-gram标注
一. 一元标注器一元标注器利用一种简单的统计算法,对每个标识符分配最有可能的标记。建立一元标注器的技术称为训练。1.训练例:"训练"一个一元标注器,用它来标注一个句子,然后进行评估。注:通过在初始化标注器时指定已标注的句子数据作为参数来训练一元标注器。训练过程中涉及检查每个词的标记,将所有词最有可能的标记存储在一个字典里面,这个字典存储在标注器内部。2.分离训练...原创 2019-07-18 13:56:20 · 818 阅读 · 0 评论 -
Python然语言处理笔记(一)
一 . python、NLTK、Numpy的安装1. python的安装与配置1.1. python的安装 从https://www.python.org/ 下载python3.7.1(32位),安装过程中记得自动添加环境变量。 在命令行输入python后如图所示则安装成功。1.2. 配置虚拟环境pip install virtualenv pip instal...原创 2019-07-16 10:12:43 · 118 阅读 · 0 评论 -
Python自然语言处理笔记(七)------词典资源
一. NLTK中的词典资源词典或词典资源是一个词或短语及其相关信息的集合。1. 词汇列表语料库词汇语料库是UNIX中的/usr/dict/words文件,被一些拼写检查程序所使用。可用来寻找文本语料中不常见的或拼写错误的词汇。(1). 过滤文本2. 停用语料词库停用语料词库包括的是高频词汇,如the,to,和and,有时在进一步进行处理之前需要将它们从文档中过滤。停用词...原创 2019-07-17 17:42:53 · 328 阅读 · 0 评论