Python
记录个人学习Python过程中的习得和BUG。
正门大石狮
写可以复现的实验,写可以看懂的理论。
展开
-
ValueError: setting an array element with a sequence in Python
list或者array在取值时,例如:a=[1,2,3],取第一个元素是a[0],而不能是a[[0]]原创 2022-05-10 18:04:33 · 613 阅读 · 0 评论 -
pytorch bert to paddle 模型转化
使用transformers[onnx]和xpaddle进行torch模型到paddle模型的转化。原创 2022-05-06 22:16:42 · 973 阅读 · 0 评论 -
Torch和Numpy的高级索引,即,方括号中还有一个Tensor或Numpy
首先把new_token_embeddings当陈一个字典,包含5个字,每个字的含义是1024维。然后,**input_flags的 每个位置上的值就是去这个字典中查这个字对应的含义**。input_flags有多少个字呢?8 × 512,所以最终查询的结果是,大声告诉我,8 × 512 × 1024,对!原创 2022-04-07 16:57:50 · 1898 阅读 · 0 评论 -
【BUG】conda install datasets 出现很多冲突
conda install -c huggingface -c conda-forge datasets原创 2022-03-04 21:00:51 · 789 阅读 · 0 评论 -
【连招】Pytorch Tensor 索引元素并判断是否为空
场景:我们对logits判断是否有大于0.5的元素,然后判断返回结果是否为空,如果为空,标记为无标签,否则标记为该元素的索引作为标签。原创 2021-09-10 11:18:12 · 2913 阅读 · 0 评论 -
【正则】匹配内容多了^
原来的re库,要匹配多个非目标字符需要加上多个`^`符号,但现在,将不想匹配的字符写在一个`^`后面即可,不用加多个`^`符号。原创 2021-09-04 11:28:36 · 227 阅读 · 0 评论 -
pandas.fillna() 函数细节
fillna 中的na究竟是哪些东西?这个na居然还包括None,我就觉得不可思议,mark一下。import pandas as pdimport numpy as npa = [1, np.NaN, np.nan, np.NAN, None, 'None']a = pd.DataFrame(a)a.fillna('111')输出:延伸阅读np.nan np.NAN np.NaN 有什么区别?没区别。...原创 2021-08-30 20:38:14 · 352 阅读 · 0 评论 -
np.nan np.NAN np.NaN
np.nannp.NANnp.NaN这三个都是numpy库中的非数字类的表示方法。本质上这三个是一样的,但是很多人发现用==测试他们不相等,但实际应该用is进行等价测试。import numpy as npprint(np.nan == np.NaN)print(np.nan is np.NaN)输出:...原创 2021-08-30 20:37:16 · 1128 阅读 · 0 评论 -
ImportError: dlopen(): Library not loaded: @rpath/libtorch_cpu.dylib Referenced from: /torchtext/_to
ImportError: dlopen(//spert/lib/python3.7/site-packages/torchtext/_torchtext.so, 2): Library not loaded: @rpath/libtorch_cpu.dylib Referenced from: //spert/lib/python3.7/site-packages/torchtext/_torchtext.so Reason: image not found原创 2021-08-17 16:12:13 · 1548 阅读 · 0 评论 -
faiss-cpu 使用conda安装
# 更新condaconda update conda# 先安装mklconda install mkl# faiss提供gpu和cpu版,根据服务选择# cpu版本conda install faiss-cpu -c pytorch另附:https://www.cnblogs.com/sug-sams/p/12607662.html原创 2021-07-19 19:52:31 · 471 阅读 · 0 评论 -
【正则】只保留中文、英文的正则表达式
# 只保留中文 s_zh = re.sub(r"[^\u4e00-\u9fa5 ]+", '', s) # 只保留英文 s_en = re.sub(r"[^a-zA-Z ]+", '', s)原创 2021-07-18 17:34:15 · 4863 阅读 · 0 评论 -
【Python基础】从__hash__语法深入理解Python中的哈希 hash
总结,我们**重写**`_hash__`(记住这里是重写,因为默认是可hash的,所以本身会有该函数)的场景就是,如果我们新创建的类,需要保证值不重复性就可以进行进行重写,另外不要忘记还要重写`__eq__`函数。原创 2021-07-12 21:16:09 · 3037 阅读 · 0 评论 -
Python 匹配邮箱 正则
[a-zA-Z0-9]+@[a-zA-Z0-9]+\.[a-zA-Z0-9]+原创 2021-06-25 14:55:25 · 434 阅读 · 0 评论 -
Linux离线安装fasttext库
我想在**不能联网的Linux服务器**上部署 fasttext,可部署不上去。原创 2021-05-23 14:51:41 · 1558 阅读 · 1 评论 -
【Pandas】DataFrame新增加一行数据
我从文件中读取了一个DataFrame,但是呢,我做了一些判断需要保留若干行数据,并且是不连续,根据不同列的不同性质保留。原创 2021-04-27 23:34:23 · 2562 阅读 · 0 评论 -
Scrapy 如何使用crawler.stats进行统计信息的添加
费尽脑汁怎么也没看懂官方文档,试了好多下,终于成功了。没想到这么简便。原创 2021-03-03 16:47:51 · 821 阅读 · 1 评论 -
python转换long型日期时间,/Date(1577808000000)/,/Date(-62135596800000)/
这个格式是long型的日期时间格式,有时会在数据库存储这个类型的数据。使用timedate库,python便可以处理该类型的数据。原创 2021-02-22 15:53:01 · 2199 阅读 · 0 评论 -
pytorch_pretrained_bert库报错: Model name ‘pretrained\chinese_L-12_H-768_A-12‘ was not found in model
不仅要有从上下载的PyTorch版的预训练模型,**还要有vocab.txt**,你看看你的`pretrained\chinese_L-12_H-768_A-12`文件下面是不是没有vocab.txt!原创 2021-01-24 22:11:16 · 8472 阅读 · 24 评论 -
100个汉字说清楚Numpy中得axis=0和axis=1
axis=0:跨行进行XX操作axis=1:跨列进行XX操作原创 2020-12-29 16:10:55 · 90 阅读 · 0 评论 -
TypeError: unhashable type: ‘list‘
1. 错误描述我在执行这样代码时遇到的错误。a = {1:10, 2:20}m = [1]del a[m]2.问题解决这里是因为,m 本身是一个 list,因此取用的时候需要使用 index ,即 m[0],才可以。虽然返回也是一个元素,但是数据类型不同。a = {1:10, 2:20}m = [1]del a[m[0]]...原创 2020-10-12 22:13:07 · 140 阅读 · 0 评论 -
【报错】Anaconda Collecting package metadata (repodata.json): failed
1. 报错原因我想卸载python,然后报错如下。(ptc) C:\Users\Lion>conda uninstall pythonCollecting package metadata (repodata.json): failed# >>>>>>>>>>>>>>>>>>>>>> ERROR REPORT <<<<<<&l原创 2020-09-27 17:08:47 · 2937 阅读 · 2 评论 -
PyTorch给句子加所谓的mask
我们发现有些位置其实并没有字,只是一个”填充“,此时我们需要一个mask(遮罩),来表示一下哪些位置有词(字),哪些位置没有词(字)。原创 2020-09-16 22:25:08 · 1602 阅读 · 0 评论 -
【BUG】[nltk_data] Error loading punkt: <urlopen error [Errno 11004] [nltk_data]
1. BUG描述在Python中使用nltk这个库时遇到无法下载里面的一个模型,错误代码如下:import nltknltk.download()2. 解决方案以管理员身份打开记事本。使用快捷键:Ctrl+O,打开文件浏览器。在文件路径输入C:\Windows\System32\drivers\etc,然后选择查看 所有文件,最后点击打开。在文件的最后一行添加:199.232.68.133 raw.githubusercontent.com,然后重新运行下面代码,即可import n原创 2020-09-15 16:19:40 · 13590 阅读 · 25 评论 -
【流程】安装Anaconda 和Pycharm
1.下载下载Anaconda:https://www.anaconda.com/products/individual下载Pycharm:<>2. 安装将两个文件直接安装,设置都是默认,注意可以把文件下载位置换到不是C盘的地方,因为Anaconda会缓存很多库的安装包,占用空间比较大。3. 配置Anaconda环境搜索prompt,选择Anaconda prompt.进入后,你会发现当前路径前有一个括号,其中写着“base”,这代表你当前所处的Anaconda环境。原创 2020-09-11 07:49:48 · 222 阅读 · 0 评论 -
【BUG】PyTorch AttributeError: module ‘torch._C‘ has no attribute ‘_cuda_setDevice‘
如果时Python文件中调用了GPU,那么设置:torch.cuda.set_device(-1),注意-1才代表不使用GPU。原创 2020-07-25 16:11:12 · 38278 阅读 · 5 评论 -
【Python】同名文件夹调用
很多博客是直接from a import A,但我在实践中需要加上“上级文件夹”的名字才可以相互调用成功。原创 2020-07-25 11:55:45 · 826 阅读 · 0 评论 -
【BUG】Jupyter Notebook 打开后显示404 cant not find the page
你如果在根目录运行jupyter notebook,请尝试进入到文件中运行该命令。参考感谢[1] https://github.com/jupyter/help/issues/196原创 2020-07-10 23:12:36 · 2547 阅读 · 0 评论 -
【数据集分析】TACRED关系抽取数据集分析(四)—— train set 和 valid set中是否有重复数据
有些数据集和很不规范,train set和valid set 会有重复数据,造成数据的泄露,当然,TACRED应该不会有这个问题,因为它是关系抽取数据集中大家认可度很高的数据集合,这里分享一下分析的代码。原创 2020-07-09 11:54:53 · 1139 阅读 · 1 评论 -
【数据集分析】TACRED关系抽取数据集分析(三)—— Relation Distribution
第二节,获得了三个子集的描述:类别数和实例数。本节介绍绘制数据集的Relation分布图。原创 2020-07-09 11:48:01 · 1678 阅读 · 3 评论 -
【数据集分析】TACRED关系抽取数据集分析(二)—— 统计类别和实例数
第一节,我们查看了每条数据的组成,并将每条数据都规范了自己喜欢的Json格式,方便后续操作对数据的取用。本节统计一下数据集的关系数和实例数。原创 2020-07-09 11:44:41 · 2998 阅读 · 3 评论 -
【数据集分析】TACRED关系抽取数据集分析(一)—— 理解单条实例
最近拿到一个关系抽取数据集,[TACRED](https://nlp.stanford.edu/projects/tacred/),分析了一波单条数据、关系分布等,分享一下分析思路和代码。原创 2020-07-09 11:42:52 · 5307 阅读 · 24 评论 -
【免费软件】使用学生邮箱注册PyCharm或IntelliJ IDEA的专业版本
当我们使用PyCharm或者IntelliJ IDEA时,有的时候连接服务器等,Community版本的软件已经不够用了,需要用Professional版本的软件,如果你有一个学生账户,可以通过学生账户来注册专业版,注意:这不是教育版本,而是Professional。原创 2020-07-05 10:29:36 · 1602 阅读 · 4 评论 -
【数据集分析】NYT-Wiki关系抽取数据集分析(三)—— 直观的关系实例分布图
本节主要介绍用Matlibplot绘制关系分布图,更加直观展示数据集的分布。原创 2020-07-01 08:58:54 · 2309 阅读 · 0 评论 -
【数据集分析】NYT-Wiki关系抽取数据集分析(二)—— 统计类别和实例数
本节统计一下数据集中Train Set,Valid Set, Test Set中的类别个数和实例个数。原创 2020-07-01 08:39:54 · 4753 阅读 · 2 评论 -
【数据集分析】NYT-Wiki关系抽取数据集分析(一)—— 理解单条实例
最近拿到一个关系抽取数据集,nyt-wiki,分析了一波分布、重合等,分享一下分析思路和代码。本节进行单条数据分析。原创 2020-06-29 12:12:28 · 7361 阅读 · 1 评论 -
Python查看多维数组List的维度
直接用`len()`函数只能得到最外面一层`[]`的维度。因此,先把list转成numpy数组,再用numpy数组的`shape`属性获取数组维度。原创 2020-06-28 16:54:47 · 29228 阅读 · 2 评论 -
Python读取Json数据
读取json数据,实际上是把json格式变成python中字典、列表等格式化的数据,极大地方便索引查找。既可以用json库函数,也可以使用eval()内置函数。原创 2020-05-06 11:40:43 · 19909 阅读 · 0 评论 -
【新人向】ubuntu16.04 查看自己的电脑能不能用GPU以及Cudnn,TensorFlow,CUDA等的版本选择和安装
TensorFlow依赖cuda,cuda根据驱动定 ,驱动根据linux定,cudnn看好TF的版本安装一个就好。*本文可以根据你需要的Tensorflow版本先看第4部分,确定好了cuda和cudnn版本再从123部分开始。*原创 2020-04-24 20:21:30 · 3936 阅读 · 0 评论 -
飞桨学习总结
人流密度调优学习1 数据分析边界框标注坐标标注数据分辨率、来源场景、采集角度、人与人之间遮挡等是否不同。2 方案选择回归问题vgg resnet损失函数 均方误差等分类问题需要提前分好类别交叉熵损失目标检测问题精心设计网络结构损失也比较复杂密度图回归均方误差损失融合方法目标检测+分类目标检测+回归 等3 数据预处理1 ...原创 2020-04-08 21:30:12 · 682 阅读 · 0 评论 -
【数据挖掘】汽车价格预测(五)——模型融合
学习地点:https://tianchi.aliyun.com/notebook-ai/detail?spm=5176.12281978.0.0.6802593aoYN661&postId=95457总结stacking这件事有点类似adaboost[1],也就是将多个弱分类器,通过加权求和变成一个强分类器。[1] 具体可见《统计学习方法》P158...原创 2020-04-04 19:15:55 · 564 阅读 · 0 评论