NLP
可西哥
暂不公布
展开
-
faiss通用向量搜索服务玩转腾讯880万词向量
通用向量搜索服务faiss是个高效的向量搜索解决方案,经过测试对比,可以感受到它的飞速,关于faiss性能测试的见这里:faiss包装与性能对比这次开源的是使用faiss搭建的通用向量搜索服务。项目开源地址:https://github.com/xmxoxo/vector_server通用向量搜索服务 VectorServer基于faiss搭建的通用向量搜索服务,服务加载向量持久化文件, 同时可指定加载数据文件;通过faiss索引到内存,再通过flask提供API通用接口。API接口提供:原创 2020-09-30 14:42:31 · 3571 阅读 · 0 评论 -
faiss包装与性能对比
|服务器系统/工具| 版本 | 链接 | |--|--|--||centos|7.4| https://www.centos.org/download/ ||jdk|1.8 | ||scala| 2.12 | https://scala-lang.org/download/2.12.12.html ||flink| 1.10.2 | https://flink.apache.org/downloads.html | |flink Redis Sink|2.8 | ||flink Hbase原创 2020-09-29 15:34:07 · 2816 阅读 · 0 评论 -
文本匹配工具正式开源
文本匹配工具RuleFinder 文本匹配工具是一个用于快速编写匹配规则,提取文本的工具。源码地址: https://github.com/xmxoxo/RuleFinder当前版本号:0.1.12update: 2020/6/12本工具包括:类库,规则编辑器,批量提取器。RuleLib.py 类库,可自行引用到项目中使用;RuleEditor.py 规则编辑器,基于flask的WEB应用,可在浏览器中编辑规则;RulePicker.py 规则提取器,可加载规则后从批量文件中提取匹配结果原创 2020-06-15 10:31:22 · 2133 阅读 · 0 评论 -
中文文本字符集分析过滤工具
中文文本字符集分析过滤工具Tag: chatset 字符集 过滤困扰之缘起凡是涉及到文本处理的童鞋都知道,文本数据拿到后最麻烦的就是处理。数据的来源有很多种,可能是网上采集的,也可能是数据库导出的。文本的内容上可能是用户注册的昵称,也可能是用户写的评论,总之是五花八门。 在这些文本内容中,最讨厌的就是“不可见字符”,用记事本,用EditPlus,用NotePad++,各种工具…,一般都无法...原创 2019-10-14 11:45:49 · 1087 阅读 · 1 评论 -
BERT模型从训练到部署
BERT模型从训练到部署全流程Tag: BERT 训练 部署缘起在群里看到许多朋友在使用BERT模型,网上多数文章只提到了模型的训练方法,后面的生产部署及调用并没有说明。这段时间使用BERT模型完成了从数据准备到生产部署的全流程,在这里整理出来,方便大家参考。在下面我将以一个“手机评论的情感分类”为例子,简要说明从训练到部署的全部流程。最终完成后可以使用一个网页进行交互,实时地对输入的评...原创 2019-04-15 23:38:03 · 28484 阅读 · 64 评论 -
生成正则表达式--阿里笔试语义匹配题的思路
这里写自定义目录标题问题描述思路测试运行结果完整源码问题描述在Q群里聊到关于规则生成的问题,有个这样的题目:在基于自然语言的人机交互系统中,通常会定义一些语义模板来训练NLU (自然语言理解)模型,比如下面的模板可以支持用户通过语音控制机器播放音乐:放几首@{singer}的歌播放一首@{singer}的歌来一曲@{singer}的歌曲来首@{singer}的音乐来个@{sing...原创 2019-04-12 15:22:00 · 691 阅读 · 0 评论