import jieba
selg_list = jieba.cut("贪心学院专注于人工智能教育",cut_all=False)
print("/".join(selg_list))
jieba.add_word("贪心学院")
seg_list = jieba.cut("贪心学院专注于人工智能教育",cut_all=False)
print("/".join(seg_list))
D:\soft\Anaconda\envs\py3.9\python.exe D:/soft/pycharm/pythonProject2/jieba分词.py
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Claire\AppData\Local\Temp\jieba.cache
贪心/学院/专注/于/人工智能/教育
贪心学院/专注/于/人工智能/教育
Loading model cost 0.515 seconds.
Prefix dict has been built successfully.
进程已结束,退出代码0
前向最大匹配
forward-max matching
例子:我们经常有意见分歧
词典:[“我们”,“经常”,“有”,“有意见”,“意见”,“分歧”]
max-len = 5
最大匹配算法,关键词最大
让我匹配到的单词是越长越好的




后向最大匹配

缺点?

https://zhuanlan.zhihu.com/p/145521255
数据增强方法
词汇替换
去替换原始文本中某一部分,而不改变句子本身的意思
基于同义词典的替换
随机去一个单词,将其替换为对应的同义词。
英文当中WordNet数据库来查找同义词

基于word-embeddings的替换


Masked Language Model的替换
pipeline端到端的管道
把随机一个位置改为mask
让Bert找mask是什么值

基于TF-IDF的替换
Back Translation(回译)

Text Surface Translation
缩写和非缩写的形式转换
英文的缩写列表:contractions库

Random Noise Injection
在文本中加入注入噪声,来生成新的文本,最后使得训练的模型对扰动具有鲁棒性

QWERTY keyborad Error Injection == 可能会很有意思

Unigram Noising
采样
Blank Noising
_
Sentence Shuffling
交换顺序
Random Insertion
随机选择
Random Swap
随机交换两个单词

Random Deletion
概率p随机删除句子中的每个单词

5. Instance Crossover Augmentation
tweet被分成两半,文本情绪各自一半

6. Syntax-tree Manipulation
主被动被转换
7. MixUp for Text
按比例合成
wordMixup
在一个batchsize中随机取两个随机的句子,之后填充相同的长度,之后按比例混合,之后新的mix-up word embeddings
sentMixup
句子的embedding的混合
8.生成的方法
给定一个条件,生成一个句子
生成任务!!
587

被折叠的 条评论
为什么被折叠?



