自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(110)
  • 资源 (8)
  • 收藏
  • 关注

原创 Hydra 用于深度学习实验管理

Hydra 用于深度学习实验管理设置参数痛点。

2023-04-05 22:55:13 791 1

原创 ValueError: setting an array element with a sequence in Python

list或者array在取值时,例如:a=[1,2,3],取第一个元素是a[0],而不能是a[[0]]

2022-05-10 18:04:33 575

原创 pytorch bert to paddle 模型转化

使用transformers[onnx]和xpaddle进行torch模型到paddle模型的转化。

2022-05-06 22:16:42 897

原创 Torch和Numpy的高级索引,即,方括号中还有一个Tensor或Numpy

首先把new_token_embeddings当陈一个字典,包含5个字,每个字的含义是1024维。然后,**input_flags的 每个位置上的值就是去这个字典中查这个字对应的含义**。input_flags有多少个字呢?8 × 512,所以最终查询的结果是,大声告诉我,8 × 512 × 1024,对!

2022-04-07 16:57:50 1841

原创 【BUG】conda install datasets 出现很多冲突

conda install -c huggingface -c conda-forge datasets

2022-03-04 21:00:51 705

原创 【小技巧】Visio怎么调整页面,去掉白边?

直接复制visio里的图像到Word啊!!!不要插入对象。

2021-11-23 19:49:08 4673 2

原创 【报错】unknown error: DevToolsActivePort file doesn‘t exis

option.add_argument("--remote-debugging-port=9222")

2021-10-28 10:15:08 6672 9

原创 【报错】[3772:3772:1027/145318.178495:ERROR:browser_main_loop.cc(1473)] Unable to open X display.

google-chrome --headless --disable-gpu --no-sandbox

2021-10-27 14:58:10 1851

原创 【科研利器】Zotero 配合 ipad,读文献效率翻倍!

为你整理了Zotero 在 PC+ipad下怎么用效率最高!

2021-10-24 09:54:39 14235 1

原创 【连招】Pytorch Tensor 索引元素并判断是否为空

场景:我们对logits判断是否有大于0.5的元素,然后判断返回结果是否为空,如果为空,标记为无标签,否则标记为该元素的索引作为标签。

2021-09-10 11:18:12 2801

原创 【正则】匹配内容多了^

原来的re库,要匹配多个非目标字符需要加上多个`^`符号,但现在,将不想匹配的字符写在一个`^`后面即可,不用加多个`^`符号。

2021-09-04 11:28:36 190

原创 pandas.fillna() 函数细节

fillna 中的na究竟是哪些东西?这个na居然还包括None,我就觉得不可思议,mark一下。import pandas as pdimport numpy as npa = [1, np.NaN, np.nan, np.NAN, None, 'None']a = pd.DataFrame(a)a.fillna('111')输出:延伸阅读np.nan np.NAN np.NaN 有什么区别?没区别。...

2021-08-30 20:38:14 324

原创 np.nan np.NAN np.NaN

np.nannp.NANnp.NaN这三个都是numpy库中的非数字类的表示方法。本质上这三个是一样的,但是很多人发现用==测试他们不相等,但实际应该用is进行等价测试。import numpy as npprint(np.nan == np.NaN)print(np.nan is np.NaN)输出:...

2021-08-30 20:37:16 1082

原创 ImportError: dlopen(): Library not loaded: @rpath/libtorch_cpu.dylib Referenced from: /torchtext/_to

ImportError: dlopen(//spert/lib/python3.7/site-packages/torchtext/_torchtext.so, 2): Library not loaded: @rpath/libtorch_cpu.dylib Referenced from: //spert/lib/python3.7/site-packages/torchtext/_torchtext.so Reason: image not found

2021-08-17 16:12:13 1410

原创 mean_average_precision_at_r

这个指标的优点在于引入了:不同位置(距离的远近)的点对指标值的大小的贡献不同,这也比较符合认知,我们希望,如果有一个query,距离它最近的都是同类别的embedding,在预测时才能有一个比较好的表现。

2021-08-01 15:44:23 220

原创 【基操】torch.stack的使用场景

多个 tensor 合并成一个大tensorif isinstance(inputs, list): inputs = torch.stack(inputs)例如:inputs 是一个list, 其中有几个相同维度的 tensor,那么可以将其使用stack,合并成更高维度的 tensor。

2021-07-28 10:43:53 192

原创 faiss-cpu 使用conda安装

# 更新condaconda update conda# 先安装mklconda install mkl# faiss提供gpu和cpu版,根据服务选择# cpu版本conda install faiss-cpu -c pytorch另附:https://www.cnblogs.com/sug-sams/p/12607662.html

2021-07-19 19:52:31 412

原创 torchtext使用conda安装

conda install -c pytorch torchtext

2021-07-19 19:50:59 621

原创 【正则】只保留中文、英文的正则表达式

# 只保留中文 s_zh = re.sub(r"[^\u4e00-\u9fa5 ]+", '', s) # 只保留英文 s_en = re.sub(r"[^a-zA-Z ]+", '', s)

2021-07-18 17:34:15 4574

原创 【Pytorch】 如何固化参数?

经常听到Pytorch模型中有人讲要固化参数,那么怎么固化参数呢?“固化”就是固定参数,不要改变的意思。那么参数什么时候会发生改变呢,就是在损失函数对参数求导数的时候,然后参数会更新,那么我们只要阻止参数求导,令其在更新时的改变量为0,即固化参数。# freeze all transformer weightsfor param in self.model.parameters(): param.requires_grad = False下面是对有些NLP基础的人说的:一般的用法是把mo

2021-07-13 20:14:50 1315 4

转载 【mac】mac安装wget

First, download and run MacPorts installer (.pkg)And then install wget:sudo port install wget[1] https://stackoverflow.com/questions/33886917/how-to-install-wget-in-macos

2021-07-13 16:15:29 229

原创 【Python基础】从__hash__语法深入理解Python中的哈希 hash

总结,我们**重写**`_hash__`(记住这里是重写,因为默认是可hash的,所以本身会有该函数)的场景就是,如果我们新创建的类,需要保证值不重复性就可以进行进行重写,另外不要忘记还要重写`__eq__`函数。

2021-07-12 21:16:09 2617

原创 vocab.get(word, vocab.get(UNK))

在自然语言处理中为tokenize后的句子进行转化成id时会用到,该代码的意思是,如果在词表vocab中有word这个单词,那么就取出它的id;如果没有,就去除UNK(未知词)对应的id,其中UNK表示所有的未知词(out of vocab)都对应该id,对应到下一步取词向量时,该id对应的词向量就表示所有未知词语义的平均。...

2021-07-06 22:49:13 1218 2

原创 Python 匹配邮箱 正则

[a-zA-Z0-9]+@[a-zA-Z0-9]+\.[a-zA-Z0-9]+

2021-06-25 14:55:25 390

原创 Linux离线安装fasttext库

我想在**不能联网的Linux服务器**上部署 fasttext,可部署不上去。

2021-05-23 14:51:41 1430 1

原创 【BUG】Solving environment: failed ResolvePackageNotFound: - xz==5.2.5=h62dcd97_0 - ...

问题原因:Linux和Windows的conda环境不能直接移植。

2021-05-10 18:33:30 1115 2

原创 【Pandas】DataFrame新增加一行数据

我从文件中读取了一个DataFrame,但是呢,我做了一些判断需要保留若干行数据,并且是不连续,根据不同列的不同性质保留。

2021-04-27 23:34:23 2509

原创 Scrapy 如何使用crawler.stats进行统计信息的添加

费尽脑汁怎么也没看懂官方文档,试了好多下,终于成功了。没想到这么简便。

2021-03-03 16:47:51 737 1

原创 Linux查看Chrome的版本号

chromium-browser --version

2021-03-01 14:05:45 2911

原创 python转换long型日期时间,/Date(1577808000000)/,/Date(-62135596800000)/

这个格式是long型的日期时间格式,有时会在数据库存储这个类型的数据。使用timedate库,python便可以处理该类型的数据。

2021-02-22 15:53:01 2055

原创 Python项目部署服务器

virtualenv创建虚拟环境:https://blog.csdn.net/qq_36441027/article/details/111182378?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.control&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLear

2021-02-08 17:16:03 102

原创 【BUG】PyCharm的项目突然消失,源文件也没了,Java路径也没了,Java版本也不对了

今日奇遇写着写着代码,PyCharm的项目突然消失,源文件也没了,Java路径也没了,Java版本也不对了。版本是2020.3.3。解决方法首先卸载重装,不要管什么Java版本和路径的问题。重装完成后,启动PyCharm。将左侧的Project换成Project Files。然后应该会出现的丢失的项目名称,但是没有具体的项目文件。右键单击项目名称,依次选择Local History -》 Show History,然后就会出现你的历史记录,选择你文件都还在的历史。点击左上角的箭头,即可恢复

2021-02-03 10:28:07 3033 6

原创 pytorch_pretrained_bert库报错: Model name ‘pretrained\chinese_L-12_H-768_A-12‘ was not found in model

不仅要有从上下载的PyTorch版的预训练模型,**还要有vocab.txt**,你看看你的`pretrained\chinese_L-12_H-768_A-12`文件下面是不是没有vocab.txt!

2021-01-24 22:11:16 8061 24

原创 如何优雅地使用Pycharm在本地调试运行服务器上的Python程序?

本地没有GPU的我只能用服务器跑Python程序,但是无法直接调试导致我每次只好先从本地复制到服务器,再手动在终端输入“python run.py”。那么有没有办法可以本地使用服务器的Python解释器调试呢?我就给大家总结一下如何在本地使用Pycharm和Jupyter Notebook调试服务器的Python程序。

2021-01-04 23:35:10 5245 1

原创 100个汉字说清楚Numpy中得axis=0和axis=1

axis=0:跨行进行XX操作axis=1:跨列进行XX操作

2020-12-29 16:10:55 73

原创 【BUG】Keras用了multi_gpu_model,但用Nvidia-smi看只用了一块显卡GPU

解决方法很简单,在你原来使用multi_gpu_model外层加上两句代码:strategy = tf.distribute.MirroredStrategy(devices=["/gpu:0","/gpu:1", "/gpu:2"])with strategy.scope():

2020-11-25 12:36:17 1645 8

原创 Excel英文版 打开中文csv文件乱码!

按图索骥!

2020-10-27 22:05:52 505

原创 【论文精读】The Devil is the Classifier: Investigating Long Tail Relation Classification with Decoupling

这篇文章是浙江大学2020年9月15号推到Arxiv上的。文章的初始出发点应该是来自,关系抽取数据集由于数据存在长尾特征,因此直接从数据中学习语义,必定是不均衡的【样本多的语义容易过拟合某个类别中的头部样本,样本少的语义容易过拟合某个类别中的单个样本】。因此采用引入外部预训练的词向量来进行语义embedding就说得通。同时又知道,我们有三种采样的方式,来进行长尾数据集的再平衡,即将长尾数据集变成某种意义上的平衡数据集。分别是instance balance, class balance和re-wei

2020-10-24 09:48:24 341

原创 【Git】【工作流】怎么从把本地项目文件夹做成一个github库?

第一种:clone的别人的库,做了一定的修改。这里需要删除项目文件夹下的掉.git文件夹,显示隐藏文件夹即可看到。第二种:自己新建的项目文件夹。

2020-10-13 17:14:35 119

原创 微软拼音 快捷输入 自定义格式的时间和日期

设置→时间和语言→语言→添加语言下面的 中文(简体中文)→选项→微软拼音→选项→词库和自学习→添加新的或编辑现有的用户自定义短语→添加。然后在提示框中输入:%yyyy%年%MM%月%dd%日 %HH%:%mm%:%ss% +0800

2020-10-13 16:47:13 5381 4

zotero-better-bibtex-5.5.4.xpi

https://retorque.re/zotero-better-bibtex/installation/ Zotero的配套latex生成文件。

2021-10-23

jdk-11.0.10_windows-x64_bin.exe

外网访问缓慢,搬运到这里,供大家免积分下载。 jdk-11.0.10_windows-x64_bin.exe

2021-02-03

jdk-8u281-windows-x64

访问官网下载速度缓慢,搬运到这里供大家下载。 有些人上传这个居然还要收积分??? jdk-8u281-windows-x64.exe。

2021-02-03

chinese_wwm_pytorch

该资源搬运自https://github.com/ymcui/Chinese-BERT-wwm#%E4%B8%AD%E6%96%87%E6%A8%A1%E5%9E%8B%E4%B8%8B%E8%BD%BD 因为Github下载速度较慢,于是搬运到CSDN供大家使用,如果侵权,请及时告知删除。

2021-01-26

chinese_wwm_ext_pytorch.zip

该资源搬运自https://github.com/ymcui/Chinese-BERT-wwm#%E4%B8%AD%E6%96%87%E6%A8%A1%E5%9E%8B%E4%B8%8B%E8%BD%BD 因为Github下载速度较慢,于是搬运到CSDN供大家使用,如果侵权,请及时告知删除。

2021-01-26

NYT-Wikidata.tar.gz

NYT-Wikidata数据集是远程监督关系抽取数据集,包含100个关系,882177个句子实例,来源于New York Times 和 Wikidata。

2020-05-15

NYT10(Tsinghua)

清华大学NYT10关系抽取数据集,包含了53个关系,522043个句子实例,数据远程监督数据集,来源于New York Times 和 FreeBase。

2020-05-15

fewrel.tar.gz

清华大学发布的关系抽取数据集RewRel,数据集包含了100个Relation,44800个Instance(句子),属于有监督数据集。

2020-05-01

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除