自然语言处理的基本概念--结合spacy软件的学习

最新推荐文章于 2022-04-21 16:47:44 发布

xiaoxiaoqian0519

最新推荐文章于 2022-04-21 16:47:44 发布

阅读量365

点赞数

文章标签：自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xiaoxiaoqian0519/article/details/112074495

版权

本文介绍了自然语言处理的基本概念，包括doc、token和span的使用。深入探讨了统计模型，如词性标注、依存关系解析和命名实体识别。此外，文章详细阐述了基于规则的匹配抽取，特别是模板匹配、匹配词汇属性及其应用场景，如查找特定词符属性和使用运算符及量词。

摘要由CSDN通过智能技术生成

基本概念

doc: 表示document的缩写，可以结构化地读取文本相关的信息，并且不会产生丢失

doc = nlp(text)
for token in doc:
	print(token.text)

token表示文本中的字符，比如一个词或者一个标点符号。要读取某个位置的词符，可以直接使用doc的索引；token中也会包含很多属性，比如.text就会输出对应的原文；

doc = nlp(text)
token = doc[1]
print(token.text)

span实例是文本中包含了一个或者更多字符的一段截取，仅仅是Doc的一个视图不包含实际的数据；

doc = nlp(text)
span = doc[1:3]
print(span.text)

统计模型

介绍：从语境中抽取到的语言学属性，包括：词性标注、依存关系解析、命名实体识别；
从标注过的文本中训练而来；
可以使用更多的标注数据来更新模型，优化抽取结果；
模型包括：二进制权重(用于进行属性预测)，词汇表和元信息(配置spacy语言类以及相应的处理流程组件)；
在不了解属性的时候，可以使用spacy.explain("对应属性名称")来查找对应的属性含义；

基于规则的匹配抽取

基于Doc对象而不是直接在字符串上进行匹配&#

最低0.47元/天解锁文章

xiaoxiaoqian0519

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理的基本概念--结合spacy软件的学习

基本概念doc: 表示document的缩写，可以结构化地读取文本相关的信息，并且不会产生丢失doc = nlp(text)for token in doc: print(token.text)token表示文本中的字符，比如一个词或者一个标点符号。要读取某个位置的词符，可以直接使用doc的索引；token中也会包含很多属性，比如.text就会输出对应的原文；doc = nlp(text)token = doc[1]print(token.text)span实例是文本中包含了
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。