自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(49)
  • 资源 (8)
  • 收藏
  • 关注

原创 Pix2StructImageProcessor是如何将一张图片变成一个个patch的?

记录一下transformers.models.pix2struct.image_processing_pix2struct.Pix2StructImageProcessor代码阅读,总是好奇图片patch怎么来的,跟着代码解读了一遍,主要步骤是第1步得到第5步,中间可忽略,然后第五步中的每一行都是第一步(原图的)一个个patch拉平而已,并不是想象钟的对应patch位置的3通道直接拉平。好奇这么做比如做ocr时,9 10 13 14位置的像素,不是会被硬生生的分开么?这样模型能正确识别出来么?

2024-09-26 15:07:13 137

原创 pip install ‘ERROR: Could not build wheels‘

装一些安装用的工具即可,可参考上面的两个链接。

2024-07-09 15:49:40 105

原创 labelstudio ocr标注数据解析

在试用labelstudio标注数据时,通常使用coco格式导出,之前标注ocr信息时,无论如何都切不出来对应的文字块,反复百度、google都没有现成的提示,后来翻labelstudio的。翻译如下:图像注释的x、y、宽度和高度的单位以整体图像尺寸的百分比提供。记录一下,以防日后使用忘记了。

2024-01-02 09:47:21 836

原创 Scrapy 1.3.0 使用简介

scrapy 1.3.0 python 2.7创建一个项目:Before you startscraping, you will have to set up a new Scrapy project. Enter a directory whereyou’d like to store your code and run:scrapy startproject tutorial

2024-01-02 09:35:53 1073 1

原创 Ubuntu openssh-server 离线安装

其余ubuntu版本可以自己搜一下对应的ssh版本。安装以下三个软件包,点击。

2023-11-14 13:38:07 3246 1

翻译 不需要解决困难问题

学技术是为了什么?

2023-11-07 17:53:27 106

原创 paddleocr在uvicorn中多workers部署遇到的问题

但是问题是解决了,可这为什么呢?chatgpt也没有很好的解释。它给的答案是多进程,其他进程会复制主进程的导入模块状态,包括导包、初始化类(导包也是初始化的一种,所以即使放在init函数里面也会导致报错,只有在某个函数中延迟加载。在运行时的函数中,有自己的上下文,进程间的内容都是隔离的,所以不会出现问题。我的代码哪里出错了?为什么多进程起就这么容易出环境问题?注:上述中用到的python术语简写,如call指代__call__。但是还是不知道这是为什么?在call函数中延迟加载,此时问题得到解决。

2023-08-29 16:34:21 2433 4

原创 This application failed to start because no Ot platform plugin could beinitialized.

【代码】This application failed to start because no Ot platform plugin could beinitialized.

2023-06-14 10:46:15 313

原创 【ginput KeyboardModifier】

matplotlib报错

2022-10-20 17:15:38 685 3

原创 centos 升级 gcc g++

经常安装python包报一些奇怪的错误,不能编译啥的,比如:gcc: error: unrecognized command line option ‘-std=c++14’一般升级到高版本的gcc就好,升级方法网上很多,还有下载源码自己编译的,编译一次大半天,发现个个好用的方法,记录一下抄的:https://stackoverflow.com/questions/36327805/how-to-install-gcc-5-3-with-yum-on-centos-7-2sudo yum.

2021-09-08 11:38:52 265

原创 pip No space left on device

pip安装报错,加个环境变量即可,$HOME/tmp改为空间较大的目录export TMPDIR=$HOME/tmp

2021-07-06 17:46:49 889

原创 python单例模式的简单实现

class A(): def __init__(self,c): print("给类变量__pool赋值") self.__pool = "POOL {}".format(c) self.__f() def __f(self): print("f",self.__pool,self.__pool.endswith("3"))正常情况双下划线表示私有标量,用起来没有啥问题。但是:一旦类私有变量和实例私..

2021-06-28 15:17:27 105

翻译 谈谈softmax

原文:https://towardsdatascience.com/softmax-activation-function-how-it-actually-works-d292d335bd78softmax经常用,但是具体性质这些也没有了解过,正好看了个博客,记录一下:定义:Softmax是一个激活函数,它将numbers/logits扩展为概率。Softmax的输出是一个向量(比如v),带有每个类别概率。对于所有可能的结果或类别,向量v中的概率总和为1。 ...

2021-05-08 17:31:43 352

原创 NLTK缺少数据

在使用NLTK的时候经常缺少数据,并且不能下载,很是蛋疼。后来发现一个简单的方法:1、进入https://github.com/nltk/nltk_data/tree/gh-pages/packages/corpora找到缺少的文件2、下载1中的文件3、一般是用的时候都会用提示,比如下面的代码回报错:from nltk.corpus import stopwordsstopwords.words('english')LookupError:****************..

2021-01-22 08:51:48 456 2

翻译 【论文笔记】Improving neural networks by preventing co-adaptation of feature detectors

多伦多大学计算机科学系12年的一篇文章,大量实验讨论了dropout的效果和直观解释了为什么dropout这么强大。为什么强大?主要是参数独立训练,大量网络共享参数但是相当于独立训练出来的,参数之间只是部分协同工作而不是整个网络的参数协同,特征计算时不会因为输入有微小变化出现整体性能变特别差,因此泛化性会比全部协同工作的网络强。另外dropout也相当于bagging、贝叶斯平均方法,当然效果好了。当一个大的前向神经网络在一个小的训练集上训练时,它通常在测试数据上表现不佳。通过在每个训练..

2020-12-29 15:52:10 1469

原创 MAC 使用brew安装java11并与java8共存

先更新一下brew(可以试试不更新,不行再更新一下):brew update安装 java11:其他版本应该换后面的11就好了brew tap AdoptOpenJDK/openjdkbrew cask install adoptopenjdk11修改 ~/.bash_profile文件:export JAVA_8_HOME=$(/usr/libexec/java_home -v1.8)export JAVA_11_HOME=$(/usr/libexec/java_home -v11

2020-12-12 10:40:53 10493 1

转载 grpcio安装不了

pip install grpcio报不能打包成wheel,从setpu.py安装,然后一直会卡住,遇到过几次了,受不了啦!!!后来找了好久,找到了解决方法:https://stackoverflow.com/questions/56357794/unable-to-install-grpcio-using-pip-install-grpciopip3 install --upgrade pippython3 -m pip install --upgrade setuptoolspi.

2020-12-09 18:04:24 13222 2

原创 计算python每个函数运行时间

抄自https://www.cnblogs.com/pyramid1001/p/6638654.htmlcProfile模块如果想知道每个函数消耗的多少时间,以及每个函数执行了多少次,可以用CProfile模块。 1 python3 -m cProfile -s cumulative multiTree.py  ...

2020-12-02 09:48:09 2142 1

翻译 sanic入门

都是抄的api:https://sanic.readthedocs.io/en/latest/index.html安装:pip3 install sanic conda config --add channels conda-forge conda install sanic如果不想安装uvloop或者ujson,可以:SANIC_NO_UVLOOP=true SANIC_NO_UJSON=true pip3 install --no-binary :all: sanic...

2020-11-28 15:27:25 795

原创 安装pyahocorasick报错需要安装vc14

帮同事安装ahocorasick,他的是win10,编译不来这个玩意,以往这种情况我都直接去https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml找一找,可惜这个包它没有????。解决方法:1、安装 Visual C++ 14.02、conda config --add channels conda-forgeconda install pyahocorasick 这个答案是从https://stackoverflow.com/q...

2020-11-28 10:22:49 518 1

转载 【docker】改变docker默认的根目录

docker 版本:19.03.13方法列在:https://github.com/IronicBadger/til/blob/master/docker/change-docker-root.md此处介绍一个最简单的方法:vim /etc/docker/daemon.json 添加 :(如果已有json,则将下面key-value加入,/new/docker/root 是新的目录,之前的数据可以使用cp /var/docker/lib过来) { “data-root”:“ /n

2020-11-02 19:46:48 2431

原创 【论文笔记electra】ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS

代码:https://huggingface.co/transformers/model_doc/electra.htmlABSTRACT论文提出了一种高效的基于抽样的预训练任务——替换标记检测。对于一些可以被替换的tokens,用一个小生成网络(generator network )抽样出token进行替换。接着,作者没有用模型从原始语料库中预测这些被替换的词,而是训练了一个判别模型(discriminative model ),来判断输入中的token是不是被生成网络替换了。新模型.

2020-10-29 17:18:29 468

原创 tensorboard网址不能访问一直被拒绝

加上--host就可以了 tensorboard --logdir=./--host=0.0.0.0我X,我以为防火墙挡住了,fire wall、iptables都卸载了,然后引发了一系列事故,docker重装了,NVIDIA driver重装了,mode重新run了,然后发现命令不对。。。...

2020-10-20 10:16:02 1019

转载 【模型部署】TFX介绍

TFX是一个基于TensorFlow的google生产规模的机器学习工具包。它提供了一个配置框架和共享库,以集成定义、启动和监视机器学习系统所需的通用组件。TFX is a platform for building and managing ML workflows in a production environment. TFX provides the following:A toolkit for building ML pipelines. TFX pipelines let you or

2020-10-15 11:34:15 2699

原创 【nlp论文笔记】 Glyce: Glyph-vectors for Chinese Character Representations

Abstract本文贡献:我们使用中国历史文字(如青铜器文字、篆书、繁体字等)来丰富文字的象形证据; 设计适合中文字符图像处理的CNN结构(称为天泽-CNN); 将图像分类作为多任务学习的辅助任务,以提高模型的泛化能力。作者表明,基于符号的模型能够在广泛的中文NLP任务中始终优于基于字/字符的模型。我们能够为各种中文NLP任务设置最新的结果,包括标记(NER、CWS、POS)、句子对分类、单句分类任务、依赖解析和语义角色标记。例如,所提出的模型在NER的OntoNotes数据集上的F.

2020-10-14 09:16:34 462

原创 【论文笔记】Chinese Named Entity Recognition Based on CNN-BiLSTM-CRF

主要思想this paper proposes to use CNN to extract glyph- level features of Chinese characters 。卷积神经网络(CNN)从每个汉字中提取具有形态特征的字形嵌入,将其与具有语义特征信息的字嵌入连接起来,送入BiLSTM-CRF网络利用汉字的字符级和根级表示的BiLSTM-CRF神经网络,在 MSRA数据集上实现最先进的性能90.95% F1。证明了基于字符的标注策略在没有中文分词结果的情况下也能达到相似的效果,这意味着

2020-10-09 20:34:38 1623

原创 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition

本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文。 神经网络的解释:The forward pass com- putes a weighted sum of their inputs from the previous layer and pass the result through a non-linear function. The backward pass is to co...

2020-10-09 15:15:52 2464 2

原创 【论文笔记】A Unified MRC Framework for Named Entity Recognition

香农科技 ACL 2020的论文笔记代码和paper可见:https://github.com/ShannonAI/mrc-for-flat-nested-ner文章提出了将ner看做MRC(machine reading comprehen- sion )任务,而不是当做序列标注看待。文章认为。在序列标注的过程中,如ORG是被当做onehot向量使用的,由于这样不是明确的知道要抽取什么,会导致较差的性能。但是MRC方法会将query编码成重要的实体类别的先验信息。此外,通...

2020-10-09 10:00:20 2116 7

转载 pack_padded_sequence torch说明

## Minimal tutorial on packing and unpacking sequences in pytorch.> This is a fork from [@Tushar-N 's gist](https://gist.github.com/Tushar-N/dfca335e370a2bc3bc79876e6270099e). I have added comments and extra diagrams that should (hopefully) make it e.

2020-09-22 14:13:30 433

原创 将字典的键变为成员变量的需求

公司领导写java写多了,review python代码的时候发现:“为啥你的json格式(dict)咋全部用键名来索引,这个要按照java的写法,用点来取值,这样用户使用的时候直接点点点就行,不需要自己还要去查有哪些键,你改下代码,用点来取值,兼容一下现在的格式,以后discard调python的索引方式......” 既然是领导的要求,小的莫敢不从。于是就有了题名的需求。 搜了下,python是动态语言,可以动态设置成员变量,但是只给个类,然后用的时候加进去,太丑...

2020-07-22 17:05:04 400

翻译 MYSQL导入导出太慢,source sql文件太慢

MySQL any way to import a huge (32 GB) sql dump faster?

2020-05-07 15:03:03 2527

原创 docker 配置hosts无法启动docker服务

案发现场:在./etc/docker/daemon.json中添加"hosts":["tcp://0.0.0.0:2375", "unix:///var/run/docker.sock"]启动失败;(同https://www.cnblogs.com/beiji/p/11675608.html)环境:docker Server Version: 19.03.8centos:7弥补...

2020-04-16 15:24:41 1935 2

原创 pycharm + docker 环境创建

吐个槽,公司不给用自己的笔记本,windows环境莫名其妙的配置不起来。之前装了个GPU驱动,tensorflow就一直装不上...hanlp就一直装不上。后来就用docker,公司服务器就莫名其妙的一直卡一直卡,没办法,只能用windows+docker。。。都是泪pycharm需要用专业版的!配置docker的环境步骤参考:https://www.jetbrains.com/help/...

2020-03-02 18:01:26 941

原创 mac重装anaconda失败

重新安装anaconda失败,原因是参考了这篇文档:https://knowledge.autodesk.com/zh-hans/support/autocad-for-mac/troubleshooting/caas/sfdcarticles/sfdcarticles/CHS/AutoCAD-LT-on-Mac-The-installation-Failed-The-Installer-en...

2020-02-06 21:59:36 4209

原创 medium 高级文章限制解决办法

最近学习一些模型,搜到了medium,但是看了三篇高级文章之后需要每个月交5$,可我很穷,后来发现可以将要阅读的链接贴到其他博客里面,然后用没有medium cookie登录的浏览器点击链接,重定向一次看就可以,这篇文章就留着这么用吧。1、openai GPT2介绍https://towardsdatascience.com/openai-gpt-language-modeling-on-...

2020-01-19 15:14:24 2082

翻译 GELU 激活函数

GELU的全称是GAUSSIAN ERROR LINEAR UNIT与Sigmoids相比,像ReLU,ELU和PReLU这样的激活可以使神经网络更快更好地收敛。此外,Dropout通过将一些激活数乘以0来规范化模型。以上两种方法共同决定了神经元的输出。但是,两者彼此独立工作。GELU旨在将它们结合起来。另外,称为Zoneout的新RNN正则化器将输入随机乘以1。我们希望通过将...

2020-01-19 14:52:32 3594

原创 Bert代码解读记录

代码学习的是前一篇博客中pytorch的代码的BertForTokenClassification模型,run的是ner例子:https://github.com/huggingface/transformers/blob/master/examples/run_ner.py。1、模型概览:使用的模型是:multi_cased_L-12_H-768_A-12.zip,https://git...

2020-01-18 16:13:04 725 1

转载 关于Bert的常见问答列表

原文:https://yashuseth.blog/2019/06/12/bert-explained-faqs-understand-bert-working/推荐一篇中文博客介绍bert的:https://kknews.xyz/282bert实现:tf:https://github.com/google-research/bertpytorch:https://github.c...

2020-01-17 11:06:16 367 1

原创 YOLOV3 数据流图

根据代码:https://github.com/qqwweee/keras-yolo3画了个数据流动图:记录一下,主要就是一直卷积、残差链接。loss计算用空再记录一下

2019-10-19 16:58:31 275

转载 计算机视觉 CV 经典DNN方法

发现一个不错的综述,后面可针对性的学习。Image Classification[LeNet] [AlexNet] [ZFNet] [VGGNet] [SPPNet] [PReLU-Net] [DeepImage] [GoogLeNet / Inception-v1] [BN-Inception / Inception-v2] [Inception-v3] [Inception-v4] [X...

2019-10-18 10:01:38 690

medium hackd

国外的medium文章查看,某些文章会需要收费,为了方便学习知识,但是由于收费限制,可以通过谷歌插件hack掉查看

2020-11-24

Deep-Learning-with-PyTorch

pytorch的官方说明书,深度学习,pytorch模型部署等等详细介绍。英文版的,原汁原味,可以好好阅读

2020-10-21

道路车辆 - 统一诊断服务.rar

ISO14229 15765 UDSISO 14229的这一部分规定了诊断服务的数据链路独立要求,诊断服务允许诊断测试仪(客户端)控制车载电子 控制单元(ECU,服务器)中的诊断功能,例如电子燃油喷射,自动变速箱,防抱死制动系统等连接到嵌入在公 路车辆中的串行数据链路。 它指定了通用服务,它允许诊断测试程序(客户端)停止或恢复数据链路上的非诊断消息传输。 ISO 14229的本部分不适用于两个电子控制单元之间的车辆通信数据链路上的非诊断消息传输。 然而, ISO 14229的这部分内容并未限制ECU中的车载车载测试仪(客户端)实施,以便利用车辆通信数据链路上的诊断服 务来执行双向诊断数据交换。 本部分ISO 14229没有规定任何实施要求。

2020-05-13

LSTMbook.rar

如何开发lstm,如堆叠,双向,CNN-LSTM,编码器-解码器seq2seq和更多,有14一步一步的教程和完整的代码。Discover how to develop LSTMs such as stacked, bidirectional, CNN-LSTM, Encoder-Decoder seq2seq and more in my new book, with 14 step-by-step tutorials and full code.

2019-10-22

梯度下降权值更新图解

关于神经网络 梯度下降的公式推导,资料来自中文维基百科:反向传播算法。这里对其进行了图解。发现还是维基比较好,原来一开始看英文版的反向传播算法,最后公式纠结了老半天,估计是错的吧,但是中文版的公式却很好理解,奇怪为啥会不一样。

2017-09-22

深度学习(deep learning)

关于深度学习的入门到深入了解 可从GitHub上下载,在github中搜索:deeplearningbook-chinese

2017-08-22

Networkx算法.ipynb

Networkx官方文档的例子练习,用于学习networkx的

2016-09-05

Python 强大的图论和网络研究工具 networkx代码

对应的博客的代码,懒得编辑成文章,直接传代码上来吧。使用的环境是Python2.7, 用的ipython notebook。可以一条一条的运行学习networkx

2016-09-03

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除