![](https://img-blog.csdnimg.cn/20201014180756757.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
nlp实战
文章平均质量分 85
nlp实战技术分享,以及源码的分享
nlp小仙女
这个作者很懒,什么都没留下…
展开
-
jieba / hanlp / ltp / standforCorenlp 分词器对比
为了验证分词效率的,数据统一采用网信微博数据,共3379kb,共3382条。所有样本先采用规则分句,再进行分词和实体识别,standfordCorenlp部署的服务自带分句,则没有进行分句,分词和实体识别运行时间不计算初始化模型时间。分词运行效率对比处理电脑的cpu 配置为:Intel(R) Core(TM) i5-8400 CPU @ 2.80GHz\ 分词工具 算法 分词 / 实体识别 测试样本大小/kb 测试样本总数 运行时间/ms 平均每秒运行k原创 2020-05-12 15:14:35 · 3560 阅读 · 0 评论 -
如何利用深度学习做好文本分类(text classification)
目录1.简述2.分析任务3.构建baseline模型3.1数据清洗与预处理3.2选取合适的模型 3.2.1模型选取方法GELE模型做为baseline模型4. 评估指标5.baseline的优化5.1 label smoothing5.2 数据增强和数据噪音的容忍5.3 损失函数的选择5.4 引入先验知识1.简述文本分类是自然语...原创 2020-05-04 15:10:09 · 10049 阅读 · 4 评论 -
实战:采用字mask和wwm mask在中文领域内finetune bert模型
随着google发布bert模型,bert改进版本已经到来,bert-wwm、 bert-wwm-ext、 Roberta-wwm-ext、ENRIE、XLNET各种变种版本都出现了,本人主要这对google开源的bert版本,修改其源码,数据处理上上采用字mask和wwmmask,框架依然采用tensoflow,但是将源码中estimator显式训练,个人认为estimator训练过程是个黑盒子...原创 2020-04-16 12:03:30 · 965 阅读 · 1 评论