自然语言处理实验

最新推荐文章于 2024-02-29 20:55:45 发布

ren.yz

最新推荐文章于 2024-02-29 20:55:45 发布

阅读量1.5k

点赞数

文章标签：自然语言处理人工智能 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44630230/article/details/122576966

版权

跨象乘云的个人空间_哔哩哔哩_Bilibili跨象乘云，广州跨象乘云软件技术有限公司;人工智能科研教学一体化实验平台｜人工智能专业建设｜人工智能实验室 | 项目案例｜网址：https://www.080910t.com/;跨象乘云的主页、动态、视频、专栏、频道、收藏、订阅等。哔哩哔哩Bilibili，你感兴趣的视频都在B站。https://space.bilibili.com/189064479/channel/collectiondetail?sid=701611.文本分析

2.文本分词

3.词性标注

4.移除停用词

NLTK 自定义stop_words 中文使用jieba将句子分词，然后去掉停用词

5.文本标准化（文本正则化） 1.拼写错误 2.词干提取 3.词形还原

拼写错误：英语-算法，最小编辑距离（更改后） autocorrect

词干提取：from nltk import stem stem.PorterStemmer

词性还原： WordNetLemmatizer（）配合词性标注，还原后将达到更优的效果

TextBlob是python的开元文本处理库，属于NLTK的扩展库，可以处理很多自然语言处理的任务。

6.文本翻译实验使用python的Translate替换TextBlob的内置翻译引擎API，该引擎同样有翻译次数限制。

7.文本清洗和分词结构化数据（表格）。半结构化数据（XML、JSON、HTML）

re 使用正则表达式匹配字母、数字，其他全部使用空格替换：re.sub([r'[^\s\w]|_])

8.ngram: 两种使用方法 from NLTK import ngrams from textblob import TextBlob

9.高级文本分词器：

10.NER命名实体识别，

1.分词 2.词性标注 3.实体识别

11.词义消歧

拼写相同的词在不同句子中有不同的含义，词的分类任务，词在特定的句子中属于哪个意思

Lesk算法 NLTK中的lesk模块

12.语句边界检测

from nltk import sent_tokenize 能够识别出真正是句子分割的 '.'

13.词袋模型

忽略词序，语法，句法信息，单纯词频

向量的维度有词袋的大小确定。。

sklearn 的CountVectorizer创建词袋

14.TF-IDF

TF单词频率

IDF逆文档频率，真正相关的单词在其他文档出现的频率应该很低

15.Jaccard相似度和余弦相似度

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
自然语言处理实验

跨象乘云的个人空间_哔哩哔哩_Bilibili跨象乘云，广州跨象乘云软件技术有限公司;人工智能科研教学一体化实验平台｜人工智能专业建设｜人工智能实验室 | 项目案例｜网址：https://www.080910t.com/;跨象乘云的主页、动态、视频、专栏、频道、收藏、订阅等。哔哩哔哩Bilibili，你感兴趣的视频都在B站。https://space.bilibili.com/189064479/channel/collectiondetail?sid=701611.文本分析2.文本分词3.词性标注
复制链接

扫一扫

ren.yz CSDN认证博客专家 CSDN认证企业博客

码龄5年

34: 原创

54万+: 周排名

81万+: 总排名

5万+: 访问

: 等级

378: 积分

15: 粉丝

25: 获赞

7: 评论

220: 收藏

私信

关注

热门文章

分类专栏

最新评论

文本分类理论代码实践全过程
2301_79741441: 你好，源代码可以分享一下吗，谢谢啦
异质网络模型metapath2vec算法
yx1098395040: 不是很理解，中间加的那个连乘有啥作用，不都是把所有的上下文结点概率的log加起来嘛。加了中间那个，就是先把类型区分开来，但是最后也都是加起来呀
文本分类理论代码实践全过程
romantickai: 您好，请问演示用的数据集在哪里下载呢？
文本分类理论代码实践全过程
m0_47766150: Training beyond specified 't_total'. Learning rate multiplier set to 0.0. Please set 't_total' of WarmupLinearSchedule correctly.请问哈这个怎么解决呢
解决cuda out of memory
weixin_42173755: 请问第一行代码能稍微解释一下各参数是啥吗

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。