人工智能落地
znsoft
A doctor of engineering dedicated to natural language processing.
展开
-
floret:轻量级的、稳健的单词向量
floret是fastText的一个扩展版本,它使用Bloom嵌入来创建包含单词和子词信息的紧凑矢量表。floret将fastText的子词带入spaCy管道,其矢量比传统单词矢量小10倍。在这篇博文中,我们将深入研究这些矢量。我们将解释它们是如何工作的,并展示它们在什么时候是有用的。如果你已经熟悉了floret的工作方式,请跳到fastText与floret的比较。对于许多向量表,包括spaCy中的默认向量,向量表包含一个固定的单词列表的条目,通常是训练数据中最常见的单词。翻译 2022-10-30 17:56:38 · 224 阅读 · 0 评论 -
AMD 显卡编译 pytorch 指南 ROCM + pytorch
ROCM + pytorch 快速安装方法需要在干净机器上安装原始参考资料 https://github.com/aieater/rocm_pytorch_informations ,有修改在ubuntu 18.04 及ubuntu 20.04 测试通过以下为安装pytorch 1.6 + rocm 3.5.1 (需要版本匹配)1. 更新系统,安装必要的库sudo apt update sudo apt -y dist-upgrade ...原创 2020-10-18 12:07:34 · 11000 阅读 · 5 评论 -
导入并使用 microsoft concept graph (probase)数据库数据
上述文档中数据导入命令在新版neo4j中不再有效,命令改用neo4j-admin。其中$NEO4J_HOME 为neo4j的安装目录(解压运行目录)原创 2022-10-05 10:06:31 · 1136 阅读 · 6 评论 -
提示学习,transformers/bert中处理 模板 additional-special-tokens
我们在提示学习或其它方式中经常需要对模板中的占位符,如 This is a demon, [X], it was a [MASK] 中的[X]进行替换并需要在随后的处理中取出它对应的向量。此时,我们需要知道[X]所在的postion, 即偏移才可以正常处理。在transformers中,这个位置 真的不好推测 ,需要用transformers的tokenizer api进行处理。怎么办?看代码:temp 为模板,比如 it was a [X] news. labels是要替换的具体词..原创 2022-05-18 09:32:41 · 790 阅读 · 0 评论 -
免费全平台开源商用级OCR: RapidOCR
先放链接, https://github.com/znsoftm/BaiPiaoOCR任何人可以用任何方式使用本开源OCR, 本着互联网精神,也欢迎你们使用,提issue, 提交 PR.本OCR引擎是基于百度开源的paddleOCR模型。 paddleOCR开源模型是网上第一个工业产品级质量的OCR模型,你可以利用百度的paddlepaddle 人工智能框架进行进一步训练以获得自己需要的能力。我们在它的模型的基础上编写了各个平台的推理示例,以方便你使用。为什么选择paddleO...原创 2021-01-17 10:05:30 · 6148 阅读 · 3 评论 -
ace2005 数据集预处理方法,oneie与JMEE方式
在事件抽取研究中,一般常用的数据集有ace2005和tac等,ace2005是最常用的数据集,它的文件众多格式复杂,通常论文使用两种格式进行预处理,即ONEIE 和JMEE ,并涉及数据划分方式的差异,下面来说下具体处理程序及方法:oneIE : 原始论文为 A Joint Neural Model for Information Extraction with Global Features处理程序下载:BLENDER Lab | Software编写本文时为0.48版本,可以下载最.原创 2022-03-02 14:38:07 · 2713 阅读 · 2 评论 -
YOLOx 训练入门,从darknet到YoloX
原先公司的项目使用darknet进行训练,所有数据使用 Darknet标注工具标注,生活快乐幸福。这几天yolox刷屏,想着怎么用现有的数据进行训练 ,不想重新标注了呀,还是因为懒。我们搞起来。原创 2021-07-24 16:14:22 · 1471 阅读 · 0 评论 -
解决 torchtext TabularDataset 加载json文件错误:‘<‘ not supported between instances of ‘Example‘ and ‘Example
torchtext中的 TabularDataset加载 json 格式数据时,与加载tsv格式有一些不同如果按tsv/csv方式加载,在TEXT.build_vocab(train,max_size=50000) 时会报错:'<' not supported between instances of 'Example' and 'Example'根本原因是有一些区别:在csv/tsv时,用如下语句加载数据:train,test=TabularDataset.s...原创 2021-07-17 10:27:24 · 494 阅读 · 0 评论 -
自然语言处理的数据集(语料库)制作
最近在做一些敏感内容检测的研究工作。 苦于数据集缺乏,折腾了很久后发现没有合适的数据集可供使用,遂决定自行开发数据集,并期望在这个数据集中发一系列的文章。原创 2021-06-06 09:29:48 · 1220 阅读 · 1 评论 -
OpenCV中使用vulkan 进行dnn推理。
m_model.setPreferableBackend(DNN_BACKEND_VKCOM); m_model.setPreferableTarget(DNN_TARGET_VULKAN);原创 2021-05-29 12:26:40 · 1001 阅读 · 0 评论 -
opencv之Mat格式数据转换成onnxruntime的输入tensor处理的c++写法
resize_img.convertTo(resize_img, CV_32F, 1.0 / 255); //divided by 255 resize_img -= 0.5f; // mean resize_img /= 0.5f; // std cv::Mat channels[3]; //借用来进行HWC->CHW cv::split(resize_img, channels); std::vec...原创 2021-05-21 17:20:25 · 2037 阅读 · 4 评论 -
Windows下运行python程序的编码问题解决,utf-8, gbk相关
在Windows下运行 Python代码时经常遇到如下的提示UnicodeDecodeError: 'gbk' codec can't decode byte 0xac in position 45: illegal multibyte sequence这是因为编码不对导致的,通常有两个地儿需要注意:一个是控制台的编码,需要切换为Utf-8,在windows的命令行运行以下命令:chcp 65001然后在文件打开时,添加编码标志:with o...原创 2021-05-05 11:50:40 · 1242 阅读 · 0 评论 -
TVM 可以加载编译的模型种类
示例用法: tvm.relay.frontend.from_onnx("/path/to/onnx/model") 加载onnx模型tvm.relay.frontendFunctions: from_caffe(init_net,predict_net,…) Convert from caffe model into compatible relay Function. from_caffe2(init_net,predi...原创 2021-03-22 06:54:22 · 382 阅读 · 1 评论 -
TVM 0.7版起 API改变情况
tvm.module->tvm.runtime.module tvm.module.load->tvm.runtime.load_module tvm.module.enabled->tvm.runtime.enabled tvm.module.system_lib->tvm.runtime.system_lib tvm.relay.Module->tvm.IRModule tvm.create_schedule->tvm.te.crea...原创 2021-03-21 09:08:03 · 222 阅读 · 0 评论 -
TVM Windows下全功能编译方法:从入门到劝退
1. 安装git Windows版本 、cmake工具及LLVM2. 安装 anaconda 环境3. 获取源码4 编译Windows动态库5 安装tvm原创 2021-03-20 23:32:48 · 2780 阅读 · 14 评论 -
pytorch中一些CV模型的预训练模型下载并转换为onnx模型
import torchimport onnx# https://github.com/rwightman/gen-efficientnet-pytorch/blob/master/hubconf.pymodel=torch.hub.load("rwightman/pytorch-image-models","mobilenetv3_large_100")model.eval()batch_size=1input_shape = (3,244,244)export_onnx_file="m.原创 2021-03-20 18:41:56 · 473 阅读 · 1 评论 -
修改 pytorch中的model zoo下载后的模型的保存目录
网上看到有人暴力修改代码实现将下载的hub或model zoo的保存目录修改为自己喜欢的位置。本质上pytorch已经提供环境变量重新定义模型下载后的保存目录:import osos.environ["TORCH_HOME"]="E:\\pth2onnx\\models" #你要的保存目录,修改环境变量即可...原创 2021-03-20 17:49:35 · 771 阅读 · 0 评论 -
torchvision 中的预训练模型及相关参数
可以用以下代码加载模型,注意,只需要加载一种即可import torchvision.models as modelsresnet18 = models.resnet18(pretrained=True)'''alexnet = models.alexnet(pretrained=True)squeezenet = models.squeezenet1_0(pretrained=True)vgg16 = models.vgg16(pretrained=True)d.原创 2021-03-20 17:20:26 · 1764 阅读 · 2 评论 -
pytorch load 模型时出错: A load persistent id instruction was encountered, but no persistent_load functio
Exception has occurred: UnpicklingErrorA load persistent id instruction was encountered, but no persistent_load function was specified.运行torch.load() 时报错,原因是保存和加载模型时的pytorch版本不一致导致的,换用一致的版本即可。...原创 2021-03-20 14:39:27 · 11809 阅读 · 5 评论 -
TVM 实战: 用llvm提高人工智能模型推理速度
下面为记录人工智能推理加速过程,基于TVM总体脉络:1. TVM 安装2. TVM 测试3. Auto TVM 使用4. 编译导出 so/dll5.在C++中调用生成的so/dll原创 2021-03-20 11:37:35 · 2368 阅读 · 0 评论