weixin_44179676-CSDN博客

原创 pytorch多标签分类类别不平衡损失函数

pytorch多标签分类类别不平衡损失函数focal loss 多标签分类版softmax应用于多标签分类focal loss 多标签分类版def criterion(y_pred, y_true, weight=None, alpha=0.25, gamma=2): sigmoid_p = nn.Sigmoid(y_pred) zeros = torch.zeros_like(sigmoid_p) pos_p_sub = torch.where(y_true > zero

2020-11-15 15:28:12 3916

原创 git记录

git config --global user.name “lyg”git config --global user.email “liyaguang@xiaobing.ai”git config --global -l查看修改后的信息mkdir 文件名git init初始化空仓库git status可以查看状态git add 文件名将文件名添加到git从而可以追踪再次使用git status就会发现，别add的文件变绿了git commit -m “一段文本”即增加备注信息gi

2020-11-12 21:16:42 138

原创面试常考编程

双指针两数之和class Solution:# 字典时间复杂度O(N) 空间复杂度O（N）如果列表是排好序的可以使用双指针，时间复杂度O（N），空间复杂度为O(1) def twoSum(self, nums: List[int], target: int) -> List[int]: hashtable = dict() for i, num in enumerate(nums): if target - num in hash

2020-11-01 23:35:21 282

原创面试常问题（NLP）

面试常问题（NLP）深度学习基础如何选择激活函数？使用 ReLu 激活函数的优点？Batch_Size1 为什么需要 Batch_Size？2 Batch_Size 值的选择3 在合理范围内，增大Batch_Size有何好处？4 盲目增大 Batch_Size 有何坏处？5 调节 Batch_Size 对训练效果影响到底如何？四种归一化（BN,LN,IN,GN)BN:BN的作用：BN存在的问题：LNINGN宏平均和微平均F优化算法权值初始化方法有哪些？梯度消失、爆炸的解决方案如何提升模型的稳定性？深度学习

2020-11-01 17:22:50 510

原创解码策略

贪心核心思想：每一步取当前最可能的结果，作为最终结果具体方法：获得新生成的词是vocab中各个词的概率，取argmax作为需要生成的词向量索引，继而生成后一个词beamsearch核心思想： beam search尝试在广度优先基础上进行进行搜索空间的优化（类似于剪枝）达到减少内存消耗的目的具体方法：在decoding的每个步骤，我们都保留着 top K 个可能的候选单词，然后到了下一个步骤的时候，我们对这 K 个单词都做下一步 decoding，分别选出 top K，然后对这 K^2 个候

2020-10-31 20:49:17 3261 3

原创阅读理解模型汇总

SQuAD阅读理解模型SQuAD简介SQuAD 是由 Rajpurkar 等人[1]提出的一个最新的阅读理解数据集。该数据集包含 10 万个（问题，原文，答案）三元组，原文来自于 536 篇维基百科文章，而问题和答案的构建主要是通过众包的方式，让标注人员提出最多 5 个基于文章内容的问题并提供正确答案，且答案出现在原文中。SQuAD 和之前的完形填空类阅读理解数据集如 CNN/DM[2]，CBT[3]等最大的区别在于：SQuAD 中的答案不在是单个实体或单词，而可能是一段短语，这使得其答案更难预测。SQ

2020-10-25 23:13:29 1546

原创知识引入分类

外部知识1 显性知识词典（人工质量高、自动规模大但整都有静态的缺点）知识库（规模大、质量高、覆盖全但利用困难）2 相关数据领域数据本身数据挖掘3 模型词法句法语义依存分析多任务学习，通过与其他任务一块儿学习从而引入额外知识预训练语言模型中包含了一定知识、词向量学习...

2020-10-25 13:14:26 203

原创推荐系统模型汇总

待打卡FMwide&deepDeepFMDINDeep Interest Network for Click-Through Rate PredictionDIENDeep Interest Evolution Network for Click-Through Rate Predictionhttps://zhuanlan.zhihu.com/p/78365283

2020-10-25 13:09:05 348

原创文本匹配模型汇总

文本匹配模型汇总1 DSSMhttps://posenhuang.github.io/papers/cikm2013_DSSM_fullversion.pdfDSSM是2013年提出来的模型主要应用场景为query与doc的匹配，在这之前，用的更多的还是一些传统的机器学习算法，例如LSA，BM25等。DSSM也算是深度学习在文本匹配领域中的一个先驱者，接下来我们会先从其结构开始讲起，并简单介绍下其变体。1.1 模型Term Vector是文本转向量后的值，论文中作者采用的是bag-of-word

2020-10-06 11:29:34 2469 4

原创服务器间传输文件scp

服务器间传输文件scp [参数] <源地址（用户名@IP地址或主机名）>:<文件路径> <目的地址（用户名 @IP 地址或主机名）>:<文件路径> 举例： scp /home/work/source.txt work@192.168.0.10:/home/work/ #把本地的source.txt文件拷贝到192.168.0.10机器上的/home/work目录下 scp work@192.168.0.10:/home/work/source.t

2020-05-17 12:18:25 184 1

原创预训练语言模型

ELMo以来的预训练语言模型发展的概况一、不同视角下的预训练语言模型对比从不同维度对比【预训练语言模型】从特征抽取、预训练语言模型目标、BERT系列模型的改进方向、特征表示4个视角，对比预训练语言模型：不同的特征抽取机制RNNs：ELMO/ULMFiT/SiATL；Transformer：GPT1.0/GPT2.0/BERT系列模型；Transformer-XL：XLNet；不同的预训练语言目标自编码（AutoEncode）：BERT系列模型；自回归（AutoRegression）：

2020-05-12 13:09:36 1456

原创任务导向型对话

由于之前一直在关注闲聊型对话，对任务型不是很了解，突然看到了一个非常不错的文章，在这里记录一下，同时附上此神仙的链接https://zhuanlan.zhihu.com/p/83825070任务型对话1.对话动作用户通过按钮或自然语言的方式发出了类似的指令，比如”帮我找下附近的椰子鸡“，那么用户发出的这个蕴含在自然语言中的命令就称为用户动作user action。显然用户动作就可以看作是用户输入的语义表示。因此，将用户动作从用户的自然语言文本甚至语音信号中解析出来的过程就称为自然语音理解（NLU）或口

2020-05-12 09:24:41 1172

原创胶囊网络笔记

胶囊网络笔记胶囊胶囊https://spaces.ac.cn/archives/4819这篇文章真的太棒了一个向量，向量的模长代表概率，向量的分布代表着一定的方向，在计算loss时是使用模长计算，因此允许了向量内部的不同，从而保证鲁棒。底层的胶囊和高层的胶囊构成一些连接关系可以理解为底层胶囊使用底层的初级特征做分类，高级胶囊将多个分类的结果聚集整合起来。通过一些实验，此squash函数...

2020-05-05 01:15:14 198

weixin_44179676的博客