自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(41)
  • 收藏
  • 关注

原创 【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案

【比赛报告】biendata_2021搜狐校园文本匹配算法大赛_解决方案前言一、赛题二、模型设计三、训练技巧和提升方案四、总结代码开源前言比赛网页之前写过相关的赛题解读,想了解的朋友移步《语义匹配(二)搜狐文本匹配大赛BaseLine比较》本次比赛成绩:初赛第4,复赛第9,决赛第8。虽然最后因为才发现了提交代码有bug,但还是分享一下自己的PPT方案。一、赛题二、模型设计三、训练技巧和提升方案四、总结本次比赛主要是为了让自己多多尝试模型的改造与优化,对于数据的处理和洞察

2021-06-20 19:09:38 2397 13

原创 信息抽取(五)实体命名识别之嵌套实体识别哪家强,我做了一个简单的对比实验

实体命名识别之嵌套实体识别哪家强前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy a

2021-05-06 09:57:31 4925 12

原创 【论文复现】SimCSE对比学习: 文本增广是什么牛马,我只需要简单Dropout两下

文本增广是什么牛马,我只需要简单Dropout两下前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):impor

2021-04-30 19:59:56 20986 60

原创 语义匹配(二)搜狐文本匹配大赛BaseLine比较:P-tuning和Conditional_LN实现多任务语义匹配

语义匹配(二)搜狐文本匹配大赛BaseLine比较:P-tuning和Conditional_LN实现多任务文本匹配比赛一、pandas是什么?二、使用步骤1.引入库2.读入数据总结比赛提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。即插即用提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数.

2021-04-26 18:59:37 1929 3

原创 【论文阅读】开放域问答论文总结,文本召回与问答的另一种思路

【论文总结】开放域问答,纯文本召回与精排的另一种思路前言SCIVER: Verifying Scientific Claims with Evidence二、使用步骤1.引入库2.读入数据总结前言这篇文章是年前欠下来的,当时在选择比赛的项目时,SDP @NAACL 的第二项任务SCIVER: Verifying Scientific Claims with Evidence,和开放域问答系统非常相似,因此调研了一些开放域问答的经典文献和SOTA方法,在这里做一个总结。涉及论文:Reading W

2021-04-05 18:02:35 1686 3

原创 【复盘比赛】SDP 2021@NAACL LongSumm 科学论⽂⻓摘要生成任务 第一名

SDP 2021@NACCL LongSumm 科学论⽂⻓摘要生成任务 第一名前言任务介绍问题描述数据展示模型尝试抽取模型尝试DGCNN抽取模型模型融合:除了K-fold或许我们可以换底BertSumm生成模型尝试End2end[PEGASUS + BIGBIRD]PEGASUS:专注于摘要生成的预训练模型BIGBIRD:线性复杂度的self-attention机制结果:重复解码严重,模型无法输出长摘要SBAS(session based automatic summarization model)1.引入

2021-03-15 09:54:44 1423 2

原创 文本生成(二)【NLP论文复现】Relative position representations 相对位置编码突破Bert的文本长度限制!

NEZHA 相对位置编码突破Bert文本512长度的限制前言NEZHAHow to build UniLMGet 2D MASKSend 2D MASK to Bert使用UniLM实现新闻标题生成数据处理部分(略)模型训练技巧1:用自定义损失层来代替损失函数技巧2: 结合Embedding信息输出预测文本模型推理技巧3: BeamSearch解码精简你的词汇表技巧4: 精简你的词汇表,让你的模型收敛更快测试结果参考资料代码地址前言论文原文:NEZHA: NEURAL CONTEXTUALIZED .

2021-01-23 11:44:30 2927 3

原创 【机器学习报告】我用链家的数据做了一个超过链家模型的二手房房价预测模型

我用链家的数据做的二手房房价预测模型,打败了链家自己的模型前言数据准备爬虫准备特征展示变量统计性描述数据处理数据清洗与异常值过滤数据截断数据集划分:特征处理模型与分析第一轮迭代第二轮迭代模型融合K折验证PK链家模型链家估价模型测试集准备模型PK代码开源前言在二手房交易市场中,普遍存在挂盘价与成交价偏差大的问题,如何精准预测二手房成交价成为一大难题。本模型的目标是训练出一个根据二手房相关特征来数据预测二手房成交价的模型,保证预测准确度要优于网站的预测模型,并给二手房出售标价提供参考价值。(好吧这其实是

2021-01-14 22:52:41 4551 24

原创 文本生成(一)【NLP论文复现】Unified Language Model 文本生成从未如此轻松

Unified Language Model 文本生成从未如此轻松前言UniLMHow to build UniLMGet 2D MASKSend 2D MASK to Bert使用UniLM实现新闻标题生成数据处理部分(略)模型训练技巧1:用自定义损失层来代替损失函数技巧2: 结合Embedding信息输出预测文本模型推理技巧3: BeamSearch解码精简你的词汇表技巧4: 精简你的词汇表,让你的模型收敛更快测试结果参考资料代码地址前言一篇19年的微软论文,老规矩先放论文链接:https://.

2021-01-10 10:19:58 4996 4

原创 【论文复现与改进】针对弱标注数据多标签矩阵恢复问题,改进后的MCWD算法,让你的弱标注多标签数据赢在起跑线上

改进后的MCWD算法,让你的弱标注多标签数据赢在起跑线上前言MCWD算法算法展示算法改进实现代码实验结果总结前言最近刷完了李航老师的《统计学习与方法》,手痒到又想复现几个算法,正好碰上在云音乐的云村视频标签运维标注不完全问题,也算是弱标注数据吧,之前这比数据作了多标签分类,尽管特征上线后各项数据都有所提升,但总感觉用神经网络直接对弱标签数据进行多标签分类很不舒服。基于以下两个思考点:存在标签缺失的问题,神经网络的意识在于我竟可能相信你给我的数据都是准确的,某个样本有某个标签是准确的,没有某个标.

2021-01-05 19:32:05 1686 1

原创 信息抽取(四)【NLP论文复现】Multi-head Selection和Deep Biaffine Attention在关系抽取中的实现和效果

Multi-head Selection和Deep Biaffine Attention在关系抽取中的应用前言Multi-head Selection一、Joint entity recognition and relation extraction as a multi-head selection problem二、BERT-Based Multi-Head Selection for Joint Entity-Relation Extraction三、实现方法和模型代码展示Deep Biaffine

2020-12-15 14:45:35 6293 7

原创 信息抽取(三)三元关系抽取——改良后的层叠式指针网络,让我的模型F1提升近4%(接上篇)

信息抽取(三)三元关系抽取——改良后的层叠式指针网络前言优化在验证集上的模型推理结果的SPO抽取方法不随机选择S(subject),⽽是遍历所有不同主语的标注样本构建训练集。模型优化加入对抗训练FGM总结前言基于我上一篇的博客:信息抽取(二)花了一个星期走了无数条弯路终于用TF复现了苏神的《Bert三元关系抽取模型》,我到底悟到了什么?复现后的模型在百度2019年语言竞赛三元关系抽取的数据集上F1值仅达到77%,我在博文总结了几点可以优化的方向,并实现一系列层叠式指针网络的改良。在此贴出代码和提升结

2020-12-10 10:12:21 2097 8

原创 【云音乐】从手游APP到云音乐视频标签分类,时隔3个月再次面对多标签任务,终于摸索出了一些小经验。附自定义评估函数代码

【云音乐】从手游APP到云音乐视频标签分类,时隔3个月再次面对多标签任务,终于摸索出了一些小经验。前言一个好用的评估函数常用的多标签任务评估函数我选择平均准确率合理的特征处理和模型特征处理合理的模型如何面对热门标签对冷门标签的压制总结前言之前在个推实习的时候,接到了对手游app的多标签分类任务,当初应该是10+个一级标签,20+个二级标签,两者之间是层次关系,当初还是懵懵懂懂只知道把所有爬下来的特征(文本、icon、包大小等)提取特征之后一股脑的拼接在一起然后随便叠几个dense层就sigmoid输出

2020-12-08 13:10:31 303

原创 信息抽取(二)花了一个星期走了无数条弯路终于用TF复现了苏神的《Bert三元关系抽取模型》,我到底悟到了什么?

信息抽取(二)花了一个星期走了无数条弯路终于用TF复现了苏神的《Bert三元关系抽取》模型,我到底悟到了什么?前言数据格式与任务目标模型整体思路复现代码数据处理数据读取训练数据处理模型搭建模型参数图Conditional_LayerNormalizationSPO的抽取,评估并保存模型模型训练一些排坑可能的优化方向总结前言先上热菜致敬苏神:苏剑林. (2020, Jan 03). 《用bert4keras做三元组抽取 》[Blog post]. Retrieved from https://kexu

2020-12-03 10:09:10 2852 2

原创 信息抽取(一)机器阅读理解——样本数据处理与Baseline模型搭建训练(2020语言与智能技术竞赛)

2020语言与智能技术竞赛-机器阅读理解_样本数据处理与SQuAD_baseline模型训练前言样本数据处理二、使用步骤1.引入库2.读入数据总结前言最近看到今年早些时候百度的“2020语言与智能技术竞赛”比赛,里面有五个赛道,三个赛道与信息抽取有关,分别是机器阅读理解、关系抽取、事件抽取。最近正好对信息抽取任务比较感兴趣,所以拿来复现一下baseline模型,同时参考参考大佬们的想法,学习下思想和技巧。参考比赛:Tweet Sentiment Extraction、2020语言与智能技术竞赛-机.

2020-11-12 14:13:30 1891 6

原创 语义匹配(一)【NLP论文复现】Sentence-BERT 句子语义匹配模型的tensorflow实现以及训练Trick

Sentence-BERT 句子语义匹配模型的tensorflow实现以及训练trick论文模型回顾建模与训练模型代码部分数据处理训练模型训练Tricktrick1 warm up代码实现:trick2 focal loss代码实现:总结与思考论文模型回顾论文链接:https://arxiv.org/abs/1908.10084文章在已有的语义匹配模型的基础上提出了基于Bert的句义匹配孪生网络模型介绍:将两个句子通过Bert(注意:在对句子相似度建模时,两个句子经过的Bert层应该是共享权重.

2020-11-03 15:26:33 6052 24

原创 文本分类(一)EWECT微博情绪分类大赛第三名Bert-Last_3embedding_concat最优单模型复现

tensorflow2.0 + transformers EWECT微博情绪分类大赛第三名Bert-Last_3embedding_concat最优单模型复现前言代码部分训练结果总结迭代优化前言最近正在实现网易云评论情绪分类,用于评论社区研究,在搜索相关比赛的实现方法,看到了为数不多的单模型也能达到较好效果的情况,因此拿来复现作为第一版模型。复现模型:微博情绪分析评测(smp2020-ewect)No.3 拿第一导师请吃肯德基 usual语料部分情绪分类最优单模型。模型结构:代码部分te.

2020-10-30 10:03:31 1548 4

原创 【强化学习】Q-learning 寻找最优路径解

题目并尝试将运动方向扩展至 number_move = 4 : 动作集合:← ↑ → ↓ number_move = 8 : 动作集合:← ↑ → ↓ ↖ ↗ ↘ ↙ number_move = 9 : 动作集合:← ↑ → ↓ ↖ ↗ ↘ ↙ + stopQ-learning 寻找最优路径解import numpy as npclass Flybrid: ''' in the qusetion , i use Q-learing to slove th

2021-01-15 14:37:34 2625 1

原创 【长文本处理】长文本划窗分割算法

长文本划窗切片算法给定一段长文本,对长文本进行滑动窗口,切成一系列更短的文本,其中切片后的最小文本长度和窗口滑动的步长作为参数,且切分后每段文本都是完整的句子。断句标点可自行限制范围。这种切割方式可以用于为长文本的数据处理作准备。实现代码import reimport numpy as npclass text_cut: def __init__(self,min_len =20,step=10, stop_list = None): self.min_len = mi

2021-01-12 15:10:37 3217

原创 统计学习方法第二十一章作业:PageRank迭代算法、幂法、代数算法 代码实现

PageRank迭代算法、幂法、代数算法import numpy as npclass PageRank: def __init__(self,M,D=0.85): self.M = np.array(M) self.D = D self.n = self.M.shape[0] def iter_way(self,max_iter=100,e=1e-3): self.R = np.ones(self.n)/self.n

2021-01-02 11:55:52 429 1

原创 统计学习方法第二十章作业:潜在狄利克雷分配 LDA 吉布斯抽样法算法 代码实现

潜在狄利克雷分配 LDA 吉布斯抽样法算法import numpy as npimport jiebaclass LDA: def __init__(self,text_list,k): self.k = k self.text_list = text_list self.text_num = len(text_list) self.get_X() self.NKV = np.zeros((self.k,self

2021-01-01 22:55:26 592

原创 统计学习方法第十九章作业:马尔可夫链蒙特卡罗法、吉布斯抽样算法(书上题目) 代码实现

马尔可夫链蒙特卡罗法作业19.7import numpy as npimport matplotlib.pyplot as pltfrom scipy.stats import betaclass MCMC: def __init__(self,scale=0.5): self.ta = np.random.random(1) self.scale = 0.5 def update_ta(self): ta_n = np.rand

2021-01-01 22:53:19 782

原创 【强化学习】马尔可夫决策链MDP 寻找有陷阱的迷宫最优路径解

Trap maze:MDP is used to solve the problem of trap maze. In the maze, in addition to the starting point and the end point, there is also the tendency of trap. When the trap area or the outer wall is touched, it will directly end and cannot continue. Moreo

2020-12-30 20:32:08 896

原创 统计学习方法第十八章作业:PLSA 概率潜在语义分析算法 代码实现

PLSA 概率潜在语义分析import numpy as npimport collectionsimport jiebaclass PLSA: def __init__(self,text_list,k): self.k = k self.text_list = text_list self.text_num = len(text_list) self.get_X() def get_X(self):

2020-12-23 15:10:36 428

原创 统计学习方法第十七章作业:LSA潜在语义分析算法 代码实现

LSA潜在语义分析算法import numpy as npimport jiebaimport collectionsclass LSA: def __init__(self,text_list): self.text_list = text_list self.text_num = len(text_list) self.get_X() def get_X(self): self.cuted_text = [jie

2020-12-20 15:48:09 456

原创 统计学习方法第十六章作业:PCA主成分分析算法 代码实现

PCA主成分分析import numpy as npclass PCA: def __init__(self,x,R=None): self.x = np.array(x) self.dim = self.x.shape[-1] self.num = self.x.shape[0] self.R = R self.X = None self.r_list = None self.r_v

2020-12-19 13:57:38 710 2

原创 【强化学习】多臂老虎机——E_greedy、UCB、Gradient Bandit 算法 代码实现

多臂老虎机import numpy as npimport matplotlib.pyplot as pltclass E_greedy: def __init__(self,arm_num=10,epsilon=0.5): self.arm_num = arm_num self.epsilon = epsilon self.arms = np.random.uniform(0, 1, self.arm_num) self.Q

2020-12-17 08:56:04 2209

原创 统计学习方法第十五章作业:SVD矩阵分解 代码实现 及其在推荐的应用和矩阵压缩意义

SVD矩阵分解import numpy as npclass SVD: def __init__(self,x): self.x = np.array(x) def get_r_rv(self,x): x = np.array(x) s_matrix = x.T.dot(x) r_list, r_v = np.linalg.eig(s_matrix) return r_list,r_v def

2020-12-13 22:37:24 338 1

原创 统计学习方法第十四章作业:聚类—层次聚类聚合/分裂算法、K_means聚类算法 代码实现

层次聚类聚合/分裂算法import numpy as npimport copyimport matplotlib.pyplot as pltclass Hierarchical_cluster: def __init__(self,k=None,p=2,dis_way='min',c_way='agg'): self.k = k self.p = p self.dis_way = dis_way self.c_way =

2020-12-08 21:25:03 769

原创 再战FGM!Tensorflow2.0 自定义模型训练实现NLP中的FGM对抗训练 代码实现

TF版本2.2及以上def creat_FGM(epsilon=1.0): @tf.function def train_step(self, data): ''' 计算在embedding上的gradient 计算扰动 在embedding上加上扰动 重新计算loss和gradient 删除embedding上的扰动,并更新参数 ''' data = data_adapter.expand_1d(data)

2020-12-08 11:02:29 2439 5

原创 统计学习方法第十一章作业:随机条件场—概率计算问题、IIS/GD学习算法、维特比预测算法 代码实现

随机条件场—概率计算问题、IIS/GD学习算法、维特比预测算法这一章的算法不是很好写,整整研究了好几天,代码还是有点小问题,仅供参考。用的是书上定义的特征函数。import numpy as npclass CRF: def __init__(self,y=None,x=None,y_num=None,x_num=None,N=None): self.y = y self.x = x self.y_num = y_num sel

2020-12-01 15:19:05 144 1

原创 统计学习方法第十章作业:HMM模型—概率计算问题、Baum-Welch学习算法、维特比预测算法 代码实现

HMM模型import numpy as npclass HMM: def __init__(self,A=None,B=None,Pi=None,O = None): if A: self.A = np.array(A) else: self.A = None if Pi: self.Pi = np.array(Pi) self.i_num = le

2020-11-28 11:10:41 367

原创 统计学习方法第九章作业:三硬币EM算法、GMM高维高斯混合模型 代码实现

三硬币EM算法import numpy as npimport mathclass Three_coin: def __init__(self,pai=0.0,p=0.0,q=0.0): self.pai = pai self.p = p self.q = q def comput_y_sita(self,y): return self.pai*self.p**y*(1-self.p)**(1-y) + (1-self

2020-11-22 17:05:55 350

原创 统计学习方法第八章作业:分类问题AdaBoost算法、回归问题提升树算法 代码实现

分类问题AdaBoost算法import mathimport numpy as npclass Adaboost_tree: def __init__(self,X,Y,feature_type='discrete'): self.X = np.array(X) self.Y = np.array(Y) self.N = len(X) self.feature_num = len(X[0]) self.w =

2020-11-22 09:47:53 271 2

原创 统计学习方法第七章作业:SVM非线性支持向量机之SMO序列最小优化算法代码实现

SMO序列最小优化算法import numpy as npimport mathfrom sklearn.metrics import accuracy_scorefrom sklearn.model_selection import train_test_splitclass SVM: def __init__(self,kernal='GKF',C=1): self.keranl=kernal self.b = 0 self.X = N

2020-11-21 15:02:34 252

原创 统计学习方法第六章作业:逻辑斯谛梯度下降法、最大熵模型 IIS / DFP 算法代码实现

逻辑斯谛梯度下降法import numpy as npimport matplotlib.pyplot as pltclass logist: def __init__(self,a=1,c=None,max_iter=9999): self.w = None self.a = a self.c = c self.max_iter = max_iter def sigmoid(self,x): x =

2020-11-21 11:13:38 298

原创 统计学习方法第五章作业:ID3/C4.5算法分类决策树、平方误差二叉回归树代码实现

ID3/C4.5算法分类决策树import numpy as npimport mathclass Node: def __init__(self,feature_index=None,value=None,label=None): self.feature_index=feature_index self.value=value self.child=[] self.label=labelclass C4_5: d

2020-11-18 00:17:41 472

原创 统计学习方法第三章作业:一般k邻近、平衡kd树构造、kd树邻近搜索算法代码实现

一般k邻近import numpy as npimport matplotlib.pyplot as pltclass K_near: def __init__(self,X,Y,K=5,p=2): self.K = K self.X = np.array(X) self.Y = np.array(Y) self.p = p def cauclate_dis(self,x1,x2): return np

2020-11-15 20:44:17 238

原创 统计学习方法第二章作业:感知机模型原始形式与对偶形式代码实现

原始形式实现import numpy as npimport matplotlib.pyplot as pltclass Perceptron_orginal: def __init__(self,n=1,max_iter=10): self.rate = n self.max_iter = max_iter def fit(self,X,Y): X = np.array(X) Y = np.array(Y)

2020-11-15 11:11:07 189

原创 Tensorflow2.0 + Transformers 实现Bert FGM对抗训练惩罚梯度损失函数

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档Tensorflow2.0 + Transformers 实现Bert FGM抗训练惩罚梯度损失函数前言变种实现Transformers中的word_embeddings代码修改实验效果总结前言之前看了很多关于NLP中应用对抗训练的文章,测试结果都很香,所以想在自己在用的模型上试一试看看能不能提升效果,参考了一些代码找到了pytroch和keras实现,但发现对于tensorflows来说更改训练过程非常繁琐,而且容易出错,如果要配

2020-10-29 19:27:12 2704 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除