自然语言处理
文章平均质量分 84
自然语言处理从点到面
凡心curry
给予你诗意的理性
展开
-
事件抽取综述
事件抽取综述1 基本概念1.1 事件1.2 事件抽取2 国内外研究现状3 语料库3.1 ACE事件语料库3.2 MUC语料库3.3 TDT语料库3.4 KBP语料库3.5 ECB语料库3.6 CEC语料库4 典型方法4.1 限定域事件抽取4.1.1 基于模式匹配的方法4.1.2 基于机器学习的方法4.2 开放域事件抽取4.2.1 基于内容特征的事件抽取方法4.2.2 基于异常检测的事件抽取方法5 挑战和机遇5.1 事件抽取面临的挑战5.2 事件抽取的研究趋势6 总结参考文献1原创 2021-07-19 15:51:29 · 4743 阅读 · 1 评论 -
自然语言处理——词性标注、词干提取、词形还原
目录前言方法工具实例前言一般而言,文本里的动词可能比较重要,而助词可能不太重要:我今天真好看我今天真好看啊甚至有时候同一个词有着不同的意思:我一把把把把住了越是常用的词,不同的用法越多。由于兼类使用程度高,兼类现象涉及汉语中大部分词类,因而造成在汉语文本中词类歧义排除的任务量巨大。那么这个时候可以先对词汇进行词性标注(即在文本中判定每个词的语法范畴,确定其词性并加以标注的过程),再基于词性提取关键词。因此,词性标注为文本处理提供了相当关键的信息。方法基于规则的词性标注方法:较早原创 2021-05-13 23:37:32 · 3225 阅读 · 1 评论 -
正则表达式python实现
这里写目录标题引言语法代码实例引言正则表达式,又称规则表达式,英语称为 Regular Expression,通常被用来检索、替换那些符合某个模式(规则)的文本,例如在以上任务中匹配身份证号或者电话号码,是在文本预处理过程中常用的技术。语法基本的正则表达式的语法:. : 能够匹配除换行符 \n 以外的任意单个字符。\w :与单个字母数字字符匹配。\W :与单个非字母数字字符匹配。\d :与单个数字匹配。\D :与单个非数字匹配。\s :与单个空格字符(空格,换行符,返回符,制表符,表格原创 2021-05-08 15:22:40 · 413 阅读 · 0 评论 -
自然语言处理——文本数据的读写及操作
目录txt 文本数据的读写CSV 及 Excel 文本数据的读写DataFrame 操作数据规模太大txt 文本数据的读写对于 txt 文本数据,Python 中的内置函数 open() 和 write() 就可以实现读取或者写入操作。file: 文件路径(相对或者绝对路径)。mode: 文件打开模式。encoding: 编码格式,一般使用 utf-8。其中,mode 决定了打开文件的模式,也就是限定了可以对文件做什么样的操作,比如只读,写入,追加等,这个参数是非强制的,默认文件访问模式为只原创 2021-05-07 10:28:35 · 757 阅读 · 1 评论 -
自然语言处理——中英文分词
英文分词英文原文:it is a good day! 分词结果:it, is,a, good, day, !通过上面的英文分词例子,可以发现英文文本词与词之间有空格或者标点符号,如果想要对这种普通的英文文本进行分词的话是不需要什么算法支撑,直接通过空格或者标点来将文本进行分开就可以完成英文分词。如果要对多个英文文本分词,要求同时以,,.,?,!,五个符号分词。为了方便调用,我们将代码写成一个函数。首先对原文本以其中一个规则切分后,再对分好后的文本进行下一个规则的...原创 2021-04-26 19:59:24 · 2371 阅读 · 4 评论 -
自然语言处理——字符串基础操作及应用
一、字符串操作.count()方法返回特定的子串在字符串中出现的次数。seq = '12345,1234,123,12,1'seq1 = '1'a = seq.count(seq1)a# 输出结果如下# 5.strip()方法可以去除字符串首尾的指定符号。无指定时,默认去除空格符' '和换行符'\n'。seq = ' 你好!'seq.strip()# 输出结果如下# '你好!'有时候只想要去除字符串开头的某个字符串,但是字符串的末尾有一个同样的...原创 2021-04-25 16:08:04 · 481 阅读 · 4 评论