Python
谷德白麻酱
来备忘的
展开
-
基于pytorch的多元中文分类
1. git项目参考https://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch2. 语料分布不均参考:https://zhuanlan.zhihu.com/p/1913551223. 基于梯度密度的交叉熵损失函数参考:https://github.com/qingkongzhiqian/NER_loss_compare...原创 2021-03-17 10:54:59 · 89 阅读 · 0 评论 -
word embedding之于预训练
我们的主题是预训练,那么问题是Word Embedding这种做法能算是预训练吗?这其实就是标准的预训练过程。要理解这一点要看看学会Word Embedding后下游任务是怎么用它的。它的使用方法其实和前面讲的NNLM是一样的,句子中每个单词以Onehot形式作为输入,然后乘以学好的Word Embedding矩阵Q,就直接取出单词对应的Word Embedding了。那个Word Embedding矩阵Q其实就是网络Onehot层到embedding层映射的网络参数矩阵。所以你看到了,使用Word原创 2021-03-04 11:16:14 · 460 阅读 · 1 评论 -
模型评价
True Positive(真正, TP):将正类预bai测为正类数.True Negative(真负 , TN):将负类预测为负类数.False Positive(假正, FP):将负类预测为正类数→→误报(Type I error).False Negative(假负 , FN):将正类预测为负类数→→漏报(Type II error).准确率(accuracy),其定义是: 对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。也就是损失函数是0-1损失时测试数据集上...转载 2021-03-03 15:01:06 · 98 阅读 · 1 评论 -
python命名规范
1.项目名称首字母大写+大写式驼峰,ProjectName2.模块名和包名全部小写+下划线驼峰module_name package_name3.类名称,异常首字母大写+大写式驼峰,class ClassName: ,ExceptionName4.全局变量、常量全部使用大写字母+下划线驼峰GLOBAL_VAR_NAME,CONSTANT_NAME5.方法名,函数名,其余变量,参数,实例全部小写+下划线驼峰method_name,function_name,insta..原创 2021-03-03 11:12:58 · 45 阅读 · 0 评论 -
PyTorch-Transformers初识
文章出处:https://baijiahao.baidu.com/s?id=1640539349483912777&wfr=spider&for=pcTransformers 理解:https://www.analyticsvidhya.com/blog/2019/06/understanding-transformers-nlp-state-of-the-art-models/?utm_source=blog&utm_medium=pytorch-transformers-..转载 2021-03-03 10:59:39 · 413 阅读 · 0 评论 -
pytorch 文本分类模型验证
# -*- coding: utf-8 -*-from importlib import import_moduleimport torchfrom utils import build_iteratorPAD, CLS = '[PAD]', '[CLS]'pad_size=32class TestNews(): def __init__(self): dataset = 'D:\pythonWorkSpace\\bert\example\Bert-Chines.原创 2021-02-26 10:26:55 · 297 阅读 · 1 评论 -
pytorch学习系列一
以下记录下pytorch学习初期需要下载的资源https://developer.nvidia.com/cuda-10.0-download-archive?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exelocal这个是下载cuda的https://blog.csdn.net/weixin_40392957/article/details/80207366这个是用迅雷下载cudn原创 2021-02-01 17:09:50 · 61 阅读 · 0 评论 -
将csv文件分割成多个文件
# -*- coding: utf-8 -*-import csvimport osimport pandas as pdhome_path = 'D:\\工作文件\\项目\\交通事故分类\\分割语料测试'data_set_path = os.path.join(home_path,'acd_simple_data.csv')# total_len = len(open(data_set_path, 'r', encoding='utf-8').readlines()) # csv文件行.原创 2021-01-28 16:08:09 · 3089 阅读 · 2 评论