天池“英特尔创新大师杯”深度学习挑战赛 第15名方案【自然语言处理方向】

序言

笔者参加“英特尔创新大师杯”深度学习挑战赛目前位列第15名,先将方案给出,欢迎批评指正,如有想上车参赛的同学请私信联系,另外提供代码和模型预测文件

比赛介绍

大赛背景

人类的活动离不开位置,从空间上可以表征为坐标,从文本上表征为通讯地址。通讯地址广泛存在于电商物流、政府登记、金融交通等领域。对通讯地址的分析、聚合服务已经是一项重要基础服务,支撑着诸多互联网场景,比如地图搜索、电商物流分析等。实际应用中,地址文本存在写法自由、缺省别名多、地域性强等特点,对地址的解析、归一和匹配等都造成困难。针对这些难点,阿里达摩院机器智能技术团队联合CCKS2021大会举办此次地址评测任务。该评测包含中文NLP的2个子任务,分别是:地址要素解析地址相关性任务

赛题介绍

地址是日常生活中一种重要的文本信息,诸多场景需要登记地址,如电商购物、外卖配送、人口普查、水电气开户等。常见的地址一般包含以下几类信息:

行政区划信息,如省、市、县、乡镇信息;
路网信息,如路名,路号,道路设施等;
详细地址信息,如POI (兴趣点)、楼栋号、户室号等;
非地址信息,如补充说明,误输入等;

地址要素解析是将地址文本拆分成独立语义的要素,并对这些要素进行类型识别的过程。地址要素解析与地址相关性共同构成了中文地址处理两大核心任务,具有很大的商业价值。目前中文地址领域缺少标准的评测和数据集,这次我们将开放较大规模的标注语料,希望和社区共同推动地址文本处理领域的发展。

中文地址要素解析任务的目标即将一条地址分解为上述几个部分的详细标签,如:

输入:浙江省杭州市余杭区五常街道文一西路969号淘宝城5号楼,放前台
输出:Province=浙江省 city=杭州市 district=余杭区 town=五常街道 road=文一西路road_number=969号 poi=淘宝城 house_number=5号楼 other=,放前台

(详细的标签体系及标注规范将随标注数据一起公布)

评估标准

我们通过将输出结果与人工标注的集合进行比较来分别计算每一种元素准确率(Precision),召回率(Recall)和F-1分值(F-1 score),并采用Micro-F1作为最终排名指标。

具体计算过程如下所示(以元素T为例):
给定一条地址输入(n),此地址中有x个T元素:
G_n={g_1,g_2,g_3…g_x},系统输出标注结果中有y个T元素如下:P_n={p_1,p_2,p_3…p_y},则实体标注的准确率定义如下:


实体标注的召回率定义如下:


实体标注的F1值定义如下:


其中N为整个测试集。

方案解读

BERT模型

BERT 全称为Bidirectional Encoder Representation from Transformers(来自Transformers的双向编码表示),谷歌发表的发的论文Pre-traning of Deep Bidirectional Transformers for Language Understanding中提出的一个面向自然语言处理任务的无监督预训练语言模型。是近年来自然语言处理领域公认的里程碑模型。

BERT的创新在于Transformer Decoder(包含Masked Multi-Head Attention)作为提取器,并使用与之配套的掩码训练方法。虽然使用了双编码使得BERT不具有文本生成能力,但BERT在对输入文本的编码过程中,利用了每个词的所有上下文信息,与只能使用前序信息提取语义的单向编码器相比,BERT的语义信息提取能力更强。

下面距离说明单向编码与双向编码在语义理解上的差异

   今天天气很差,我们不得不取消户外运动。

将句子中的某个字或者词“挖”走,句子变为

   今天天气很{},我们不得不取消户外运动。

分别从单向编码(如GPT)和双向编码(如BERT )的角度来考虑“{}”中应该填什么词。单向编码只会使用“今天天气很”这5个字的信息来推断“{}”的字或词,以人类的经验与智慧,使用概率最大的词应该是:“好”“不错”“差”“糟糕”,而这些词可以被划分为截然不同的两类。

通过这个例子我们可以直观地感觉到,不考虑模型的复杂度和训练数据量,双向编码与单向编码相比,可以利用更多的上下文信息来辅助当前的语义判断。在语义理解能力上,采用双向编码的方式是最科学的,而BERT的成功很大程度上有此决定。

BERT的结构

参数

L L L:Transformer blocks;

H H H:hidden size;

A A A:self-attention heads;

: _{ }: BERTBASE​: L=12, H=768, A=12, Total Parameters=110

_{ } BERTLARGE​: L=24, H=1024, A=16, Total Parameters=340

无监督预训练深度双向语言模型

(1) Token Embeddings是词向量,第一个单词是CLS标志,可以用于之后的分类任务Segment (2) Embeddings用来区别两种句子,因为预训练不光做LM还要做以两个句子为输入的分类任务(3) Position Embeddings和之前文章中的Transformer不一样,不是三角函数而是学习出来的.

结语

本文主要简略介绍个人参赛至今为止的进展和经验,另外提供更详细的方案解读和代码。想上车的小伙伴请私信联系,后续将继续更新进展和尝试更多模型参数。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
大学生参加学科竞赛有着诸多好处,不仅有助于个人综合素质的提升,还能为未来职业发展奠定良好基础。以下是一些分析: 首先,学科竞赛是提高专业知识和技能水平的有效途径。通过参与竞赛,学生不仅能够深入学习相关专业知识,还能够接触到最新的科研成果和技术发展趋势。这有助于拓展学生的学科视野,使其对专业领域有更深刻的理解。在竞赛过程中,学生通常需要解决实际问题,这锻炼了他们独立思考和解决问题的能力。 其次,学科竞赛培养了学生的团队合作精神。许多竞赛项目需要团队协作来完成,这促使学生学会有效地与他人合作、协调分工。在团队合作中,学生们能够学到如何有效沟通、共同制定目标和分工合作,这对于日后进入职场具有重要意义。 此外,学科竞赛是提高学生综合能力的一种途径。竞赛项目通常会涉及到理论知识、实际操作和创新思维等多个方面,要求参赛者具备全面的素质。在竞赛过程中,学生不仅需要展现自己的专业知识,还需要具备创新意识和解决问题的能力。这种全面的综合能力培养对于未来从事各类职业都具有积极作用。 此外,学科竞赛可以为学生提供展示自我、树立信心的机会。通过比赛的舞台,学生有机会展现自己在专业领域的优势,得到他人的认可和赞誉。这对于培养学生的自信心和自我价值感非常重要,有助于他们更加积极主动地投入学习和未来的职业生涯。 最后,学科竞赛对于个人职业发展具有积极的助推作用。在竞赛中脱颖而出的学生通常能够引起企业、研究机构等用人单位的关注。获得竞赛奖项不仅可以作为个人履历的亮点,还可以为进入理想的工作岗位提供有力的支持。
天池智慧交通预测挑战赛是由阿里巴巴举办的比赛,旨在通过数据分析和建模预测来优化城市交通系统。参赛者需要利用提供的交通数据集,通过构建模型并进行预测,提供交通出行时间的准确性和效率。这个比赛要求参赛者具备数据分析、建模预测和时间序列预测等相关技能。 参赛者可以先进行准备工作,包括数据集的分割和预处理,然后根据时间序列预测的思路,利用已有的历史数据进行训练模型,并预测未来的交通出行时间。可以根据过去的几个时间点的交通状况预测未来一个时间段的交通状况,进而生成整个月的序列。 具体的建模预测步骤包括:数据集的准备和预处理、特征构建、模型的选择和训练、时间序列预测等。在建模预测过程中,可以使用各种机器学习算法和时间序列预测方法,如回归模型、神经网络、ARIMA模型等,来进行交通出行时间的预测。通过不断调整模型的参数和进行交叉验证,优化模型的性能和准确性。 总之,天池智慧交通预测挑战赛是一个利用数据分析和建模预测的比赛,旨在优化城市交通系统。参赛者可以通过对历史数据的分析和预测,预测未来的交通出行时间,提高交通的准确性和效率。同时,参赛者需要具备数据分析、建模预测和时间序列预测等相关技能。<span class="em">1</span><span class="em">2</span><span class="em">3</span><span class="em">4</span>

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

wormhacker

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值