自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(15)
  • 收藏
  • 关注

原创 Python自然语言处理笔记------学习分类文本

怎样才能构建用于自动执行语言处理任务的语言模型?从这些模型中我们可以学到哪些关于语言的知识?决策树、朴素贝叶斯分类器和最大熵分类监督式分类分类:为给定的输入选择正确的类标签。在基本的分类任务中,每个输入被认为是与其他所有输入隔离的,并且标签集是预先定义的。监督式分类:建立在训练语料(包括每个输入的正确标签)基础之上的分类。监督式分类的框架图:在训练过程中,特...

2019-07-24 13:34:22 479

原创 Python自然语言处理(十)------标注词汇与分类

词性标注:将词汇按照它们的词性分类并相应地对它们进行标注的过程。标记集:用于特定任务标记的集合。重点:利用标记和自动标注文本词性标注器词性标注器:处理一个词序列,为每个词附加一个词性标注。例:包括一些同形同音异义词(refuse,permit)为什么要引入词汇类别(如名词)以及词性标记(NN)?因为这些类别中很多都源于对文本中词语分布的浅层分析。例:使...

2019-07-23 16:22:52 1563

原创 Python自然语言处理笔记(十一)------N-gram标注

一. 一元标注器一元标注器利用一种简单的统计算法,对每个标识符分配最有可能的标记。建立一元标注器的技术称为训练。1.训练例:"训练"一个一元标注器,用它来标注一个句子,然后进行评估。注:通过在初始化标注器时指定已标注的句子数据作为参数来训练一元标注器。训练过程中涉及检查每个词的标记,将所有词最有可能的标记存储在一个字典里面,这个字典存储在标注器内部。2.分离训练...

2019-07-18 13:56:20 940

原创 Python自然语言处理笔记(八)------WordNet

一. WordNetWordNet:是面向语义的英语词典,与传统词典相似,但结构更丰富。1. 寻找同义词以寻找'motorcar'的同义词集为例同义词集:意义相同的词的集合。词条:同义词集和词的配对。例:找到指定同义词集的所有词条;查找特定的词条;得到一个词条所对应的同义词集;得到一个词条的名字。2. WordNet的层次结构WordNet概念的...

2019-07-18 10:28:17 852

原创 Python自然语言处理笔记(七)------词典资源

一. NLTK中的词典资源词典或词典资源是一个词或短语及其相关信息的集合。1. 词汇列表语料库词汇语料库是UNIX中的/usr/dict/words文件,被一些拼写检查程序所使用。可用来寻找文本语料中不常见的或拼写错误的词汇。(1). 过滤文本2. 停用语料词库停用语料词库包括的是高频词汇,如the,to,和and,有时在进一步进行处理之前需要将它们从文档中过滤。停用词...

2019-07-17 17:42:53 394

原创 Python自然语言处理笔记(四)------一些语言理解技术

一. 一些语言理解技术词意消歧 消除歧义需要联系上下文,利用相邻词汇的相近含义。 2. 指代消解 解决“谁对谁做了什么”,也就是检测动词的主语和宾语,确定代词或名字短语指的是什么。 3. 语义角色标注 确定名词短语如何与动词相关联。二. 一些自动生成语言的任务(建立在一的基础之上) 1. 自动问答...

2019-07-17 15:50:52 177

原创 Python自然语言处理笔记(六)------条件频率分布

一. 条件频率分布条件频率分布:是频率分布的集合,每个频率分布都有一个不同的“条件”,这个条件通常是文本的类别。条件频率分布需要给每个事件关联一个条件,所以不是处理一个词序列,而是要处理一系列配对序列。每对的形式是:(条件,事件)1. 按文体计数词汇FreqDist()以一个简单的链表作为输入,ConditionalFreqDist()以一个配对链表作为输入。对于每个文体...

2019-07-17 15:44:39 685

原创 Python自然语言处理笔记(五)------获取文本语料库

一. 获取文本语料库1. 古腾堡语料库古腾堡语料库:包含古腾堡项目电子文本档案的一小部分文本,该项目大约有25000(现在是36000)本免费电子书。(文学类,比较正式的语言)raw()函数:能在没有进行过任何语言学处理之前把文件的内容分析出来。sents()函数: 把文本划分位一个句子,其中每一个句子是一个词链表。words()函数:返回词数。获取:from nltk...

2019-07-17 13:22:25 2530

原创 Python自然语言处理笔记(三)------频率分布

一. 频率分布频率分布:显示每一个词项在文本中出现的频率,它告诉我们文本中词标识符的总数是如何分布在词项中的。1.如何能自动识别文本中最能体现文本主题和风格的词汇?找到高频词。 找到只出现一次的词 长词(通常是唯一的) 短高频词和长低频词 搭配与双连词(搭配基本上是频繁的双连词) 查看文本中词长的分布2.如何找到高频词?使用FreqDistFreqDist ...

2019-07-17 09:55:49 1192

原创 Python自然语言处理笔记(二)------NLTK的几个常用函数

一. NLTK的几个常用函数concordance() 功能:显示一个指定单词的每一次出现,连同一些上下文一起显示。 例: 2. similar() 功能:显示与给定词有相似上下文的一些词 例: 3. common_contexts() 功能:研究两个或两个以上的词共同的上下文 例:...

2019-07-16 11:22:45 580

原创 Python然语言处理笔记(一)

一 . python、NLTK、Numpy的安装1. python的安装与配置1.1. python的安装 从https://www.python.org/ 下载python3.7.1(32位),安装过程中记得自动添加环境变量。 在命令行输入python后如图所示则安装成功。1.2. 配置虚拟环境pip install virtualenv pip instal...

2019-07-16 10:12:43 177

原创 第4章 用户注册功能实现

标题

2019-05-05 16:55:23 476

原创 第3章 通过xadmin搭建后台管理系统

版本

2019-05-05 14:59:19 445

原创 第2章 需求分析与model设计16/100 发布文章

第三方v

2019-04-29 20:34:23 316

原创 华南理工大学软件学院机试复试

欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体...

2019-03-24 08:15:56 1892 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除