是算法不是法术-CSDN博客

原创【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案

【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案前言一、赛题二、模型设计三、训练技巧和提升方案四、总结代码开源前言比赛网页之前写过相关的赛题解读，想了解的朋友移步《语义匹配（二）搜狐文本匹配大赛BaseLine比较》本次比赛成绩：初赛第4，复赛第9，决赛第8。虽然最后因为才发现了提交代码有bug，但还是分享一下自己的PPT方案。一、赛题二、模型设计三、训练技巧和提升方案四、总结本次比赛主要是为了让自己多多尝试模型的改造与优化，对于数据的处理和洞察

2021-06-20 19:09:38 2578 13

原创信息抽取（五）实体命名识别之嵌套实体识别哪家强，我做了一个简单的对比实验

实体命名识别之嵌套实体识别哪家强前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy a

2021-05-06 09:57:31 5855 12

原创【论文复现】SimCSE对比学习: 文本增广是什么牛马，我只需要简单Dropout两下

文本增广是什么牛马，我只需要简单Dropout两下前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：impor

2021-04-30 19:59:56 23760 60

原创语义匹配（二）搜狐文本匹配大赛BaseLine比较：P-tuning和Conditional_LN实现多任务语义匹配

语义匹配（二）搜狐文本匹配大赛BaseLine比较：P-tuning和Conditional_LN实现多任务文本匹配比赛一、pandas是什么？二、使用步骤1.引入库2.读入数据总结比赛提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。即插即用提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数.

2021-04-26 18:59:37 2262 3

原创【论文阅读】开放域问答论文总结，文本召回与问答的另一种思路

【论文总结】开放域问答，纯文本召回与精排的另一种思路前言SCIVER: Verifying Scientific Claims with Evidence二、使用步骤1.引入库2.读入数据总结前言这篇文章是年前欠下来的，当时在选择比赛的项目时，SDP @NAACL 的第二项任务SCIVER: Verifying Scientific Claims with Evidence，和开放域问答系统非常相似，因此调研了一些开放域问答的经典文献和SOTA方法，在这里做一个总结。涉及论文：Reading W

2021-04-05 18:02:35 2176 3

原创【复盘比赛】SDP 2021@NAACL LongSumm 科学论⽂⻓摘要生成任务第一名

SDP 2021@NACCL LongSumm 科学论⽂⻓摘要生成任务第一名前言任务介绍问题描述数据展示模型尝试抽取模型尝试DGCNN抽取模型模型融合：除了K-fold或许我们可以换底BertSumm生成模型尝试End2end[PEGASUS + BIGBIRD]PEGASUS：专注于摘要生成的预训练模型BIGBIRD：线性复杂度的self-attention机制结果：重复解码严重，模型无法输出长摘要SBAS(session based automatic summarization model)1.引入

2021-03-15 09:54:44 1604 3

原创文本生成（二）【NLP论文复现】Relative position representations 相对位置编码突破Bert的文本长度限制！

NEZHA 相对位置编码突破Bert文本512长度的限制前言NEZHAHow to build UniLMGet 2D MASKSend 2D MASK to Bert使用UniLM实现新闻标题生成数据处理部分（略）模型训练技巧1:用自定义损失层来代替损失函数技巧2: 结合Embedding信息输出预测文本模型推理技巧3: BeamSearch解码精简你的词汇表技巧4: 精简你的词汇表，让你的模型收敛更快测试结果参考资料代码地址前言论文原文：NEZHA: NEURAL CONTEXTUALIZED .

2021-01-23 11:44:30 3650 3

原创【机器学习报告】我用链家的数据做了一个超过链家模型的二手房房价预测模型

我用链家的数据做的二手房房价预测模型，打败了链家自己的模型前言数据准备爬虫准备特征展示变量统计性描述数据处理数据清洗与异常值过滤数据截断数据集划分：特征处理模型与分析第一轮迭代第二轮迭代模型融合K折验证PK链家模型链家估价模型测试集准备模型PK代码开源前言在二手房交易市场中，普遍存在挂盘价与成交价偏差大的问题，如何精准预测二手房成交价成为一大难题。本模型的目标是训练出一个根据二手房相关特征来数据预测二手房成交价的模型，保证预测准确度要优于网站的预测模型，并给二手房出售标价提供参考价值。（好吧这其实是

2021-01-14 22:52:41 5665 24

原创文本生成（一）【NLP论文复现】Unified Language Model 文本生成从未如此轻松

Unified Language Model 文本生成从未如此轻松前言UniLMHow to build UniLMGet 2D MASKSend 2D MASK to Bert使用UniLM实现新闻标题生成数据处理部分（略）模型训练技巧1:用自定义损失层来代替损失函数技巧2: 结合Embedding信息输出预测文本模型推理技巧3: BeamSearch解码精简你的词汇表技巧4: 精简你的词汇表，让你的模型收敛更快测试结果参考资料代码地址前言一篇19年的微软论文，老规矩先放论文链接：https://.

2021-01-10 10:19:58 5659 4

原创【论文复现与改进】针对弱标注数据多标签矩阵恢复问题，改进后的MCWD算法，让你的弱标注多标签数据赢在起跑线上

改进后的MCWD算法，让你的弱标注多标签数据赢在起跑线上前言MCWD算法算法展示算法改进实现代码实验结果总结前言最近刷完了李航老师的《统计学习与方法》，手痒到又想复现几个算法，正好碰上在云音乐的云村视频标签运维标注不完全问题，也算是弱标注数据吧，之前这比数据作了多标签分类，尽管特征上线后各项数据都有所提升，但总感觉用神经网络直接对弱标签数据进行多标签分类很不舒服。基于以下两个思考点：存在标签缺失的问题，神经网络的意识在于我竟可能相信你给我的数据都是准确的，某个样本有某个标签是准确的，没有某个标.

2021-01-05 19:32:05 2025 1

原创信息抽取（四）【NLP论文复现】Multi-head Selection和Deep Biaffine Attention在关系抽取中的实现和效果

Multi-head Selection和Deep Biaffine Attention在关系抽取中的应用前言Multi-head Selection一、Joint entity recognition and relation extraction as a multi-head selection problem二、BERT-Based Multi-Head Selection for Joint Entity-Relation Extraction三、实现方法和模型代码展示Deep Biaffine

2020-12-15 14:45:35 7427 8

原创信息抽取（三）三元关系抽取——改良后的层叠式指针网络，让我的模型F1提升近4%（接上篇）

信息抽取（三）三元关系抽取——改良后的层叠式指针网络前言优化在验证集上的模型推理结果的SPO抽取方法不随机选择S(subject)，⽽是遍历所有不同主语的标注样本构建训练集。模型优化加入对抗训练FGM总结前言基于我上一篇的博客：信息抽取（二）花了一个星期走了无数条弯路终于用TF复现了苏神的《Bert三元关系抽取模型》，我到底悟到了什么？复现后的模型在百度2019年语言竞赛三元关系抽取的数据集上F1值仅达到77%，我在博文总结了几点可以优化的方向，并实现一系列层叠式指针网络的改良。在此贴出代码和提升结

2020-12-10 10:12:21 2409 8

原创【云音乐】从手游APP到云音乐视频标签分类，时隔3个月再次面对多标签任务，终于摸索出了一些小经验。附自定义评估函数代码

【云音乐】从手游APP到云音乐视频标签分类，时隔3个月再次面对多标签任务，终于摸索出了一些小经验。前言一个好用的评估函数常用的多标签任务评估函数我选择平均准确率合理的特征处理和模型特征处理合理的模型如何面对热门标签对冷门标签的压制总结前言之前在个推实习的时候，接到了对手游app的多标签分类任务，当初应该是10+个一级标签，20+个二级标签，两者之间是层次关系，当初还是懵懵懂懂只知道把所有爬下来的特征（文本、icon、包大小等）提取特征之后一股脑的拼接在一起然后随便叠几个dense层就sigmoid输出

2020-12-08 13:10:31 451

原创信息抽取（二）花了一个星期走了无数条弯路终于用TF复现了苏神的《Bert三元关系抽取模型》，我到底悟到了什么？

信息抽取（二）花了一个星期走了无数条弯路终于用TF复现了苏神的《Bert三元关系抽取》模型，我到底悟到了什么？前言数据格式与任务目标模型整体思路复现代码数据处理数据读取训练数据处理模型搭建模型参数图Conditional_LayerNormalizationSPO的抽取，评估并保存模型模型训练一些排坑可能的优化方向总结前言先上热菜致敬苏神：苏剑林. (2020, Jan 03). 《用bert4keras做三元组抽取》[Blog post]. Retrieved from https://kexu

2020-12-03 10:09:10 3358 2

原创信息抽取（一）机器阅读理解——样本数据处理与Baseline模型搭建训练（2020语言与智能技术竞赛）

2020语言与智能技术竞赛-机器阅读理解_样本数据处理与SQuAD_baseline模型训练前言样本数据处理二、使用步骤1.引入库2.读入数据总结前言最近看到今年早些时候百度的“2020语言与智能技术竞赛”比赛，里面有五个赛道，三个赛道与信息抽取有关，分别是机器阅读理解、关系抽取、事件抽取。最近正好对信息抽取任务比较感兴趣，所以拿来复现一下baseline模型，同时参考参考大佬们的想法，学习下思想和技巧。参考比赛：Tweet Sentiment Extraction、2020语言与智能技术竞赛-机.

2020-11-12 14:13:30 2198 6

原创语义匹配（一）【NLP论文复现】Sentence-BERT 句子语义匹配模型的tensorflow实现以及训练Trick

Sentence-BERT 句子语义匹配模型的tensorflow实现以及训练trick论文模型回顾建模与训练模型代码部分数据处理训练模型训练Tricktrick1 warm up代码实现：trick2 focal loss代码实现：总结与思考论文模型回顾论文链接：https://arxiv.org/abs/1908.10084文章在已有的语义匹配模型的基础上提出了基于Bert的句义匹配孪生网络模型介绍：将两个句子通过Bert（注意：在对句子相似度建模时，两个句子经过的Bert层应该是共享权重.

2020-11-03 15:26:33 6664 24

原创文本分类（一）EWECT微博情绪分类大赛第三名Bert-Last_3embedding_concat最优单模型复现

tensorflow2.0 + transformers EWECT微博情绪分类大赛第三名Bert-Last_3embedding_concat最优单模型复现前言代码部分训练结果总结迭代优化前言最近正在实现网易云评论情绪分类，用于评论社区研究，在搜索相关比赛的实现方法，看到了为数不多的单模型也能达到较好效果的情况，因此拿来复现作为第一版模型。复现模型：微博情绪分析评测（smp2020-ewect）No.3 拿第一导师请吃肯德基 usual语料部分情绪分类最优单模型。模型结构：代码部分te.

2020-10-30 10:03:31 1744 4

原创【强化学习】Q-learning 寻找最优路径解

题目并尝试将运动方向扩展至 number_move = 4 : 动作集合：← ↑ → ↓ number_move = 8 : 动作集合：← ↑ → ↓ ↖ ↗ ↘ ↙ number_move = 9 : 动作集合：← ↑ → ↓ ↖ ↗ ↘ ↙ + stopQ-learning 寻找最优路径解import numpy as npclass Flybrid: ''' in the qusetion , i use Q-learing to slove th

2021-01-15 14:37:34 2945 1

原创【长文本处理】长文本划窗分割算法

长文本划窗切片算法给定一段长文本，对长文本进行滑动窗口，切成一系列更短的文本，其中切片后的最小文本长度和窗口滑动的步长作为参数，且切分后每段文本都是完整的句子。断句标点可自行限制范围。这种切割方式可以用于为长文本的数据处理作准备。实现代码import reimport numpy as npclass text_cut: def __init__(self,min_len =20,step=10, stop_list = None): self.min_len = mi

2021-01-12 15:10:37 4685

原创统计学习方法第二十一章作业：PageRank迭代算法、幂法、代数算法代码实现

PageRank迭代算法、幂法、代数算法import numpy as npclass PageRank: def __init__(self,M,D=0.85): self.M = np.array(M) self.D = D self.n = self.M.shape[0] def iter_way(self,max_iter=100,e=1e-3): self.R = np.ones(self.n)/self.n

2021-01-02 11:55:52 588 1

原创统计学习方法第二十章作业：潜在狄利克雷分配 LDA 吉布斯抽样法算法代码实现

潜在狄利克雷分配 LDA 吉布斯抽样法算法import numpy as npimport jiebaclass LDA: def __init__(self,text_list,k): self.k = k self.text_list = text_list self.text_num = len(text_list) self.get_X() self.NKV = np.zeros((self.k,self

2021-01-01 22:55:26 723

原创统计学习方法第十九章作业：马尔可夫链蒙特卡罗法、吉布斯抽样算法(书上题目) 代码实现

马尔可夫链蒙特卡罗法作业19.7import numpy as npimport matplotlib.pyplot as pltfrom scipy.stats import betaclass MCMC: def __init__(self,scale=0.5): self.ta = np.random.random(1) self.scale = 0.5 def update_ta(self): ta_n = np.rand

2021-01-01 22:53:19 883

原创【强化学习】马尔可夫决策链MDP 寻找有陷阱的迷宫最优路径解

Trap maze:MDP is used to solve the problem of trap maze. In the maze, in addition to the starting point and the end point, there is also the tendency of trap. When the trap area or the outer wall is touched, it will directly end and cannot continue. Moreo

2020-12-30 20:32:08 1119

空空如也

空空如也