【NLP】
.
Giyn
个人博客:https://giyn.work
联系邮箱:490601115@qq.com
展开
-
【自然语言处理入门笔记】—— 二元语法与中文分词
本章学习了语言模型,为了学习语言模型参数,标注了微型语料库,在该语料库上使用极大似然估计法估计了二元语法模型的参数,捕捉了词语二元接续的统计知识,此外尝试了平滑策略缓解数据稀疏的问题,为了搜索最大概率的分词序列,将中文分词转化为有向无环图上的最短路径问题,为了高效求解词网上的最短路,学习并实现了维特比算法。此外还有模型调整的手段。但 OOV 召回仍然是 n 元语法模型的短板。...原创 2021-03-06 23:22:20 · 810 阅读 · 1 评论 -
【自然语言处理入门笔记】—— 词典分词
此章节实现了字典树、首字散列之后二分的 BinTrie、双数组字典树、AC 自动机以及基于双数组字典树的 AC 自动机,以上数据结构还可用于关键词过滤、简繁转换和拼音转换。但目前的词典分词实现还有准确率不高、无法区分歧义和召回新词等缺点。...原创 2021-03-03 23:09:25 · 579 阅读 · 1 评论 -
在 spaCy 3.0 版本中使用自定义管道组件
最近使用 spaCy 时遇到如下问题:查询文档得知在 spaCy 3.0 版本中可以直接使用的 component 是固定的,但我需要用到 TextRank 算法的管道组件,它不在 spaCy 的固定列表中,所幸 spaCy 3.0 版本提供了用户自定义管道组件的方式:from spacy.language import Language@Language.component("my_component")def my_component(doc): # Do something to t原创 2021-02-07 17:07:30 · 582 阅读 · 0 评论 -
【自然语言处理入门笔记】—— 新手上路
此章节介绍了自然语言处理的相关知识,以及自然语言处理与人工智能、机器学习、语言学和计算机科学之间的关系,此外还介绍了自然语言处理这一学科的发展时间线,从规则系统到统计模型再到深度学习。pyhanlp 接口的调用:from pyhanlp import HanLPprint(HanLP.segment('你好,欢迎在Python中调用HanLP的API'))for term in HanLP.segment('下雨天地面积水'): print('{}\t{}'.format(term.w原创 2021-02-03 13:36:58 · 304 阅读 · 0 评论