- 博客(51)
- 资源 (8)
- 收藏
- 关注
原创 GTP4聊天记录中letax保存为word
reference-doc ref.docx,这里需要给一个docx参照,这个可以实现编辑好一个word,以后都可以复用。–pdf-engine xelatex 我也不知大这是什么意思,固定用就行。它会将letax转为图片保存下来,结果非常方便,特此介绍给大家。-o 1.docx 表示输出的docx文件名是 1.docx。1.tex 是一个文本文件,存放复制出的答案。-w docx 指定输出格式未docx。
2024-10-18 11:38:09 383
原创 Pix2StructImageProcessor是如何将一张图片变成一个个patch的?
记录一下transformers.models.pix2struct.image_processing_pix2struct.Pix2StructImageProcessor代码阅读,总是好奇图片patch怎么来的,跟着代码解读了一遍,主要步骤是第1步得到第5步,中间可忽略,然后第五步中的每一行都是第一步(原图的)一个个patch拉平而已,并不是想象钟的对应patch位置的3通道直接拉平。好奇这么做比如做ocr时,9 10 13 14位置的像素,不是会被硬生生的分开么?这样模型能正确识别出来么?
2024-09-26 15:07:13 217
原创 labelstudio ocr标注数据解析
在试用labelstudio标注数据时,通常使用coco格式导出,之前标注ocr信息时,无论如何都切不出来对应的文字块,反复百度、google都没有现成的提示,后来翻labelstudio的。翻译如下:图像注释的x、y、宽度和高度的单位以整体图像尺寸的百分比提供。记录一下,以防日后使用忘记了。
2024-01-02 09:47:21 858
原创 Scrapy 1.3.0 使用简介
scrapy 1.3.0 python 2.7创建一个项目:Before you startscraping, you will have to set up a new Scrapy project. Enter a directory whereyou’d like to store your code and run:scrapy startproject tutorial
2024-01-02 09:35:53 1085 1
原创 paddleocr在uvicorn中多workers部署遇到的问题
但是问题是解决了,可这为什么呢?chatgpt也没有很好的解释。它给的答案是多进程,其他进程会复制主进程的导入模块状态,包括导包、初始化类(导包也是初始化的一种,所以即使放在init函数里面也会导致报错,只有在某个函数中延迟加载。在运行时的函数中,有自己的上下文,进程间的内容都是隔离的,所以不会出现问题。我的代码哪里出错了?为什么多进程起就这么容易出环境问题?注:上述中用到的python术语简写,如call指代__call__。但是还是不知道这是为什么?在call函数中延迟加载,此时问题得到解决。
2023-08-29 16:34:21 2591 4
原创 This application failed to start because no Ot platform plugin could beinitialized.
【代码】This application failed to start because no Ot platform plugin could beinitialized.
2023-06-14 10:46:15 323
原创 centos 升级 gcc g++
经常安装python包报一些奇怪的错误,不能编译啥的,比如:gcc: error: unrecognized command line option ‘-std=c++14’一般升级到高版本的gcc就好,升级方法网上很多,还有下载源码自己编译的,编译一次大半天,发现个个好用的方法,记录一下抄的:https://stackoverflow.com/questions/36327805/how-to-install-gcc-5-3-with-yum-on-centos-7-2sudo yum.
2021-09-08 11:38:52 281
原创 pip No space left on device
pip安装报错,加个环境变量即可,$HOME/tmp改为空间较大的目录export TMPDIR=$HOME/tmp
2021-07-06 17:46:49 912
原创 python单例模式的简单实现
class A(): def __init__(self,c): print("给类变量__pool赋值") self.__pool = "POOL {}".format(c) self.__f() def __f(self): print("f",self.__pool,self.__pool.endswith("3"))正常情况双下划线表示私有标量,用起来没有啥问题。但是:一旦类私有变量和实例私..
2021-06-28 15:17:27 117
翻译 谈谈softmax
原文:https://towardsdatascience.com/softmax-activation-function-how-it-actually-works-d292d335bd78softmax经常用,但是具体性质这些也没有了解过,正好看了个博客,记录一下:定义:Softmax是一个激活函数,它将numbers/logits扩展为概率。Softmax的输出是一个向量(比如v),带有每个类别概率。对于所有可能的结果或类别,向量v中的概率总和为1。 ...
2021-05-08 17:31:43 359
原创 NLTK缺少数据
在使用NLTK的时候经常缺少数据,并且不能下载,很是蛋疼。后来发现一个简单的方法:1、进入https://github.com/nltk/nltk_data/tree/gh-pages/packages/corpora找到缺少的文件2、下载1中的文件3、一般是用的时候都会用提示,比如下面的代码回报错:from nltk.corpus import stopwordsstopwords.words('english')LookupError:****************..
2021-01-22 08:51:48 468 2
翻译 【论文笔记】Improving neural networks by preventing co-adaptation of feature detectors
多伦多大学计算机科学系12年的一篇文章,大量实验讨论了dropout的效果和直观解释了为什么dropout这么强大。为什么强大?主要是参数独立训练,大量网络共享参数但是相当于独立训练出来的,参数之间只是部分协同工作而不是整个网络的参数协同,特征计算时不会因为输入有微小变化出现整体性能变特别差,因此泛化性会比全部协同工作的网络强。另外dropout也相当于bagging、贝叶斯平均方法,当然效果好了。当一个大的前向神经网络在一个小的训练集上训练时,它通常在测试数据上表现不佳。通过在每个训练..
2020-12-29 15:52:10 1501
原创 MAC 使用brew安装java11并与java8共存
先更新一下brew(可以试试不更新,不行再更新一下):brew update安装 java11:其他版本应该换后面的11就好了brew tap AdoptOpenJDK/openjdkbrew cask install adoptopenjdk11修改 ~/.bash_profile文件:export JAVA_8_HOME=$(/usr/libexec/java_home -v1.8)export JAVA_11_HOME=$(/usr/libexec/java_home -v11
2020-12-12 10:40:53 10557 1
转载 grpcio安装不了
pip install grpcio报不能打包成wheel,从setpu.py安装,然后一直会卡住,遇到过几次了,受不了啦!!!后来找了好久,找到了解决方法:https://stackoverflow.com/questions/56357794/unable-to-install-grpcio-using-pip-install-grpciopip3 install --upgrade pippython3 -m pip install --upgrade setuptoolspi.
2020-12-09 18:04:24 13457 2
原创 计算python每个函数运行时间
抄自https://www.cnblogs.com/pyramid1001/p/6638654.htmlcProfile模块如果想知道每个函数消耗的多少时间,以及每个函数执行了多少次,可以用CProfile模块。 1 python3 -m cProfile -s cumulative multiTree.py ...
2020-12-02 09:48:09 2152 1
翻译 sanic入门
都是抄的api:https://sanic.readthedocs.io/en/latest/index.html安装:pip3 install sanic conda config --add channels conda-forge conda install sanic如果不想安装uvloop或者ujson,可以:SANIC_NO_UVLOOP=true SANIC_NO_UJSON=true pip3 install --no-binary :all: sanic...
2020-11-28 15:27:25 811
原创 安装pyahocorasick报错需要安装vc14
帮同事安装ahocorasick,他的是win10,编译不来这个玩意,以往这种情况我都直接去https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml找一找,可惜这个包它没有????。解决方法:1、安装 Visual C++ 14.02、conda config --add channels conda-forgeconda install pyahocorasick 这个答案是从https://stackoverflow.com/q...
2020-11-28 10:22:49 529 1
转载 【docker】改变docker默认的根目录
docker 版本:19.03.13方法列在:https://github.com/IronicBadger/til/blob/master/docker/change-docker-root.md此处介绍一个最简单的方法:vim /etc/docker/daemon.json 添加 :(如果已有json,则将下面key-value加入,/new/docker/root 是新的目录,之前的数据可以使用cp /var/docker/lib过来) { “data-root”:“ /n
2020-11-02 19:46:48 2450
原创 【论文笔记electra】ELECTRA: PRE-TRAINING TEXT ENCODERS AS DISCRIMINATORS RATHER THAN GENERATORS
代码:https://huggingface.co/transformers/model_doc/electra.htmlABSTRACT论文提出了一种高效的基于抽样的预训练任务——替换标记检测。对于一些可以被替换的tokens,用一个小生成网络(generator network )抽样出token进行替换。接着,作者没有用模型从原始语料库中预测这些被替换的词,而是训练了一个判别模型(discriminative model ),来判断输入中的token是不是被生成网络替换了。新模型.
2020-10-29 17:18:29 480
原创 tensorboard网址不能访问一直被拒绝
加上--host就可以了 tensorboard --logdir=./--host=0.0.0.0我X,我以为防火墙挡住了,fire wall、iptables都卸载了,然后引发了一系列事故,docker重装了,NVIDIA driver重装了,mode重新run了,然后发现命令不对。。。...
2020-10-20 10:16:02 1034
转载 【模型部署】TFX介绍
TFX是一个基于TensorFlow的google生产规模的机器学习工具包。它提供了一个配置框架和共享库,以集成定义、启动和监视机器学习系统所需的通用组件。TFX is a platform for building and managing ML workflows in a production environment. TFX provides the following:A toolkit for building ML pipelines. TFX pipelines let you or
2020-10-15 11:34:15 2719
原创 【nlp论文笔记】 Glyce: Glyph-vectors for Chinese Character Representations
Abstract本文贡献:我们使用中国历史文字(如青铜器文字、篆书、繁体字等)来丰富文字的象形证据; 设计适合中文字符图像处理的CNN结构(称为天泽-CNN); 将图像分类作为多任务学习的辅助任务,以提高模型的泛化能力。作者表明,基于符号的模型能够在广泛的中文NLP任务中始终优于基于字/字符的模型。我们能够为各种中文NLP任务设置最新的结果,包括标记(NER、CWS、POS)、句子对分类、单句分类任务、依赖解析和语义角色标记。例如,所提出的模型在NER的OntoNotes数据集上的F.
2020-10-14 09:16:34 485
原创 【论文笔记】Chinese Named Entity Recognition Based on CNN-BiLSTM-CRF
主要思想this paper proposes to use CNN to extract glyph- level features of Chinese characters 。卷积神经网络(CNN)从每个汉字中提取具有形态特征的字形嵌入,将其与具有语义特征信息的字嵌入连接起来,送入BiLSTM-CRF网络利用汉字的字符级和根级表示的BiLSTM-CRF神经网络,在 MSRA数据集上实现最先进的性能90.95% F1。证明了基于字符的标注策略在没有中文分词结果的情况下也能达到相似的效果,这意味着
2020-10-09 20:34:38 1648
原创 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition
本笔记理出来综述中的点,并将大体的论文都列出,方便日后调研使用查找,详细可以看论文。 神经网络的解释:The forward pass com- putes a weighted sum of their inputs from the previous layer and pass the result through a non-linear function. The backward pass is to co...
2020-10-09 15:15:52 2513 2
原创 【论文笔记】A Unified MRC Framework for Named Entity Recognition
香农科技 ACL 2020的论文笔记代码和paper可见:https://github.com/ShannonAI/mrc-for-flat-nested-ner文章提出了将ner看做MRC(machine reading comprehen- sion )任务,而不是当做序列标注看待。文章认为。在序列标注的过程中,如ORG是被当做onehot向量使用的,由于这样不是明确的知道要抽取什么,会导致较差的性能。但是MRC方法会将query编码成重要的实体类别的先验信息。此外,通...
2020-10-09 10:00:20 2135 7
转载 pack_padded_sequence torch说明
## Minimal tutorial on packing and unpacking sequences in pytorch.> This is a fork from [@Tushar-N 's gist](https://gist.github.com/Tushar-N/dfca335e370a2bc3bc79876e6270099e). I have added comments and extra diagrams that should (hopefully) make it e.
2020-09-22 14:13:30 440
原创 将字典的键变为成员变量的需求
公司领导写java写多了,review python代码的时候发现:“为啥你的json格式(dict)咋全部用键名来索引,这个要按照java的写法,用点来取值,这样用户使用的时候直接点点点就行,不需要自己还要去查有哪些键,你改下代码,用点来取值,兼容一下现在的格式,以后discard调python的索引方式......” 既然是领导的要求,小的莫敢不从。于是就有了题名的需求。 搜了下,python是动态语言,可以动态设置成员变量,但是只给个类,然后用的时候加进去,太丑...
2020-07-22 17:05:04 408
翻译 MYSQL导入导出太慢,source sql文件太慢
MySQL any way to import a huge (32 GB) sql dump faster?
2020-05-07 15:03:03 2572
原创 docker 配置hosts无法启动docker服务
案发现场:在./etc/docker/daemon.json中添加"hosts":["tcp://0.0.0.0:2375", "unix:///var/run/docker.sock"]启动失败;(同https://www.cnblogs.com/beiji/p/11675608.html)环境:docker Server Version: 19.03.8centos:7弥补...
2020-04-16 15:24:41 2008 2
原创 pycharm + docker 环境创建
吐个槽,公司不给用自己的笔记本,windows环境莫名其妙的配置不起来。之前装了个GPU驱动,tensorflow就一直装不上...hanlp就一直装不上。后来就用docker,公司服务器就莫名其妙的一直卡一直卡,没办法,只能用windows+docker。。。都是泪pycharm需要用专业版的!配置docker的环境步骤参考:https://www.jetbrains.com/help/...
2020-03-02 18:01:26 954
原创 mac重装anaconda失败
重新安装anaconda失败,原因是参考了这篇文档:https://knowledge.autodesk.com/zh-hans/support/autocad-for-mac/troubleshooting/caas/sfdcarticles/sfdcarticles/CHS/AutoCAD-LT-on-Mac-The-installation-Failed-The-Installer-en...
2020-02-06 21:59:36 4308
原创 medium 高级文章限制解决办法
最近学习一些模型,搜到了medium,但是看了三篇高级文章之后需要每个月交5$,可我很穷,后来发现可以将要阅读的链接贴到其他博客里面,然后用没有medium cookie登录的浏览器点击链接,重定向一次看就可以,这篇文章就留着这么用吧。1、openai GPT2介绍https://towardsdatascience.com/openai-gpt-language-modeling-on-...
2020-01-19 15:14:24 2111
翻译 GELU 激活函数
GELU的全称是GAUSSIAN ERROR LINEAR UNIT与Sigmoids相比,像ReLU,ELU和PReLU这样的激活可以使神经网络更快更好地收敛。此外,Dropout通过将一些激活数乘以0来规范化模型。以上两种方法共同决定了神经元的输出。但是,两者彼此独立工作。GELU旨在将它们结合起来。另外,称为Zoneout的新RNN正则化器将输入随机乘以1。我们希望通过将...
2020-01-19 14:52:32 3618
原创 Bert代码解读记录
代码学习的是前一篇博客中pytorch的代码的BertForTokenClassification模型,run的是ner例子:https://github.com/huggingface/transformers/blob/master/examples/run_ner.py。1、模型概览:使用的模型是:multi_cased_L-12_H-768_A-12.zip,https://git...
2020-01-18 16:13:04 746 1
转载 关于Bert的常见问答列表
原文:https://yashuseth.blog/2019/06/12/bert-explained-faqs-understand-bert-working/推荐一篇中文博客介绍bert的:https://kknews.xyz/282bert实现:tf:https://github.com/google-research/bertpytorch:https://github.c...
2020-01-17 11:06:16 379 1
道路车辆 - 统一诊断服务.rar
2020-05-13
LSTMbook.rar
2019-10-22
梯度下降权值更新图解
2017-09-22
Python 强大的图论和网络研究工具 networkx代码
2016-09-03
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人