远皓-CSDN博客

原创 Kaggle宠物收养比赛亚军复盘

写在前面这个比赛是在19年4月结束的，已经过去一段时间。完赛时我是季军，但后面由于冠军大哥作弊被发现并除名，我在排行榜上的位置也变成了亚军。这个比赛很有特点，是难得一见的“多模态数据”比赛，也是我唯一的Solo金牌，初学者应该能从中学到不少东西。正文的内容其实也是去年写的，但原来是放在自己的博客里，一共也没几个人看过。后面我会把之前的一些复盘都发出来，希望可以启发到有需要的人。赛题概况...

2020-04-25 13:43:15 858

原创 Kaggle TensorFlow 2.0 Question Answering 16名复盘

赛题海报这是Kaggle春节前结束的一个阅读理解的比赛[1]，我和管老师曹老师最终获得16/1233的成绩。成绩来自于管老师的提交，我自己的最好成绩大概排在23名的样子，不好不坏，略低于我们的预期。数据集这次比赛的数据集来自于Google，名为Natural Questions，简称NQ。数据集早在19年初就已经公布，在官网[2]上还有排行榜。这个数据集和SQuAD挺像的，...

2020-04-25 13:35:38 446

原创能跟你聊DOTA的神经对话模型：Meena&DialoGPT

提到对话机器人或者聊天机器人，国内的朋友可能先想到的是微软小冰或者苹果Siri。这两个机器人由于需要完成一些功能性的任务，都采用了模块化设计，虽然神经网络在其中起到了重要作用，但输出结果并不是从输入语句“端到端”产生的。而且用过的朋友都知道，他们的聊天能力并不是很令人满意。今天介绍的神经对话模型则是一步到位，将对话历史作为输入，让模型直接生成下一轮的回复。学术一点说，神经对话模型本质上是在解决...

2020-04-25 13:30:28 1108

原创 REALM: Retrieval-Augmented Language Model Pre Training 解读

知识就是力量培根背景去年可以说是语言模型快速发展的一年，BERT、XLNET、Albert等等模型不断刷新各个NLP榜单。在NLP榜单中比较引人注目的应该属于阅读理解型的任务，例如SQuAD等等。以SQuAD为例，模型需要阅读一段给定的文本，然后回答几个问题，问题如果存在答案，答案一定可以在文章中找到。所以说虽然叫阅读理解，但其实和序列标注有点相像，是在给定序列中标出答案段。...

2020-04-15 13:04:59 1233

原创全面了解Beam Search 2：一些改进点

在上一篇文章中我们介绍了基础版的beam search，这篇文章是对它的一个扩展，可以在模型不改的情况下获得更好的生成结果。今天的介绍围绕的也是一篇蛮新的论文，《The Curious Case of Neural Text Degeneration》，根据这篇论文的版面内容，它应该已经被ICLR 2020接收了。论文截图Beam Search的问题先解释以下什么要对Beam Search...

2020-04-15 12:52:14 1947 1

原创全面了解Beam Search 1

最近研究了一下用基于BERT的encoder-decoder结构做文本生成任务，碰巧管老师昨天的文章也介绍了以生成任务见长的GPT模型，于是决定用两篇文章大家介绍一下在文本生成任务中常用的解码策略Beam Search（集束搜索）。解码及贪心搜索生成式任务相比普通的分类、tagging等NLP任务会复杂不少。在生成的时候，模型的输出是一个时间步一个时间步依次获得的，而且前面时间步的结果还会影响...

2020-04-15 12:45:50 1023

原创表格问答2：模型

先说一个小插曲。昨天的文章大概介绍了一下NL2SQL问题及数据集，文章发出之后有百度的大佬回复我说正在进行的2020语言与智能技术竞赛有语义解析赛道，百度精心准备了一个高质量的NL2SQL数据集，感兴趣的朋友可以关注一下。数据集包含200个Database以及对应的2.3979万对(question, SQL query)，其中18602对用于训练集，2039用于验证集，3156用于测试集。...

2020-04-14 22:57:29 806

原创表格问答1：简介

在公众号的第一篇文章中我们介绍了一个厉害的开放域问答系统REALM，它主要解决的问题是从知识库中找到问题相关的文章并从文章中找到问题的答案。REALM这种直接从文章中获取答案的设定在问答领域称为非结构化文档问答，而接下来我们将用几篇文章介绍一下与之相对应的结构化文档问答中的一个重要分支表格问答。什么是表格问答表格其实是一种信息密度很高的文档类型，与文章相比，更加适合作为电商、查询场景的知识源。...

2020-04-14 22:50:31 1194