基础模块
文章平均质量分 85
应有光
这个作者很懒,什么都没留下…
展开
-
【Utils-1】——字典树(Trie)
在Lattice-BiLSTM,或者LeBert等等进行中文命名实体识别的模型中,需要用到词汇信息。特别的,需要知道以某个词语开头的所有词语,是否在一个预训练的词表、词向量库中出现。因此,查找词语变得非常重要。依托于LeBert的中文NER识别项目(本博客的【Transfoemers-实践3】),这里将其中用到的数据结构Trie树的python实现学习。......原创 2022-07-07 21:04:35 · 261 阅读 · 0 评论 -
【Utils-2】——嵌套实体(nested NE)的平坦化(朴素方法)
最近在探究命名实体识别相关的内容。命名实体存在嵌套(nested)现象,在模型标注时,需要将树状结构线性化。当然将嵌套实体“线性化”(Linearization)的方法有很多,考虑到实体“不存在交汇的情况,这里我们采取两种最朴素的实现方法,最大实体、最小实体平坦化。...............原创 2022-07-07 19:01:35 · 684 阅读 · 1 评论