NLP基础

最新推荐文章于 2023-11-05 16:20:11 发布

带刺的厚崽

最新推荐文章于 2023-11-05 16:20:11 发布

阅读量2.5k

点赞数

文章标签：自然语言处理人工智能 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45360119/article/details/123089090

版权

本文概述了自然语言处理（NLP）的主要范畴，包括文本朗读、语音识别、词性标注等，并探讨了研究难点如词义消歧、不规范输入等。介绍了词处理和语句处理的各种技术，如基于规则和统计的分词方法，以及词性标注的HMM模型。同时，提到了NLP涉及的模型，如N-Gram、马尔可夫模型和深度学习模型。此外，讨论了TF-IDF在文本特征提取中的应用，并简述了聊天机器人的检索类和生成式方法。

摘要由CSDN通过智能技术生成

NLP基础

主要范畴

文本朗读（text to speech）
语音合成（speech synthesis）
语音识别（speech recognition）
中文自动分词（Chinese word segmentation）
词性标注（part of speech tagging）
句法分析（parsing）
自然语言生成（natural language generation）

研究难点

单词的边界界定
词义消歧
不规范的输入
句法的模糊性
语言行为与计划

NLP涉及知识

词处理：

分词
词性标注
实体识别
词义消歧

语句处理：

句法分析
语义分析
机器翻译
语音合成

模型：

N-Gram统计模型
马尔可夫模型
隐马尔可夫模型

语料及词性标注

语料：语言材料

词性标注：给每个词或者词语打词类标签：形容词、动词、名词

方法：

基于规则的词性标注
基于隐马尔可夫模型HMM的词性标注
基于转移的词性标注
基于转移与隐马尔可夫模型相结合的词性标注

python：

nltk：英文分词库
jieba：中文分词库

分词

把句子变成词

难点：

分词标准
切分歧异（分词细粒度不同、真正存在歧义的句子、交集型的歧义）
新词

算法：

基于词典的分词算法
- 正向最大匹配
- 你想最大匹配法
- 双向匹配分词
- 全切分路径选择
基于统计的分词算法
- HMM，隐马尔可夫模型
- CRF，条件随机场
- 深度学习

TF：term frequency。词频：衡量一个term在文档中出现的有多频繁

$T F (t) = (t 出现在文档中的次数) / (文档中 t e r m 的总数)$

IDF：Inverse document frequency。逆文本频率

$IDF(t)=\log\_e(文档总数/含有t的文档总数)$

最低0.47元/天解锁文章

带刺的厚崽

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

带刺的厚崽 CSDN认证博客专家 CSDN认证企业博客

码龄5年

117: 原创

6万+: 周排名

197万+: 总排名

12万+: 访问

: 等级

1262: 积分

663: 粉丝

62: 获赞

9: 评论

397: 收藏

私信

关注

热门文章

最新评论

命名实体识别主要方法
CSDN-Ada助手: 非常感谢CSDN博主的分享，命名实体识别是很重要的自然语言处理技术，这篇博客讲解的主要方法非常实用。我觉得下一篇可以继续深入探讨其中的算法细节，例如基于深度学习的命名实体识别方法，或者如何应用命名实体识别技术解决具体业务问题等方面，这样的技术文章对其他用户也会非常有帮助。相信会有更多的读者期待你的下一篇博客！为了方便博主创作，提高生产力，CSDN上线了AI写作助手功能，就在创作编辑器右侧哦～（https://mp.csdn.net/edit?utm_source=blog_comment_recall ）诚邀您来加入测评，到此（https://activity.csdn.net/creatActivity?id=10450&utm_source=blog_comment_recall）发布测评文章即可获得「话题勋章」，同时还有机会拿定制奖牌。
1.20 study单变量线性回归
带刺的厚崽: https://www.bilibili.com/video/BV164411b7dx?spm_id_from=333.999.0.0
1.20 study单变量线性回归
伊滴小朋友: 参考视频求分享~
CCPC11.14广州正赛
神作人生: c题minl的含义是什么啊
CCPC11.14广州正赛
带刺的厚崽: 就是满足那三个数不报long long 三个数的大小关系满足即可详细的可以看看代码

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。