![](https://img-blog.csdnimg.cn/20201014180756913.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
reading
文章平均质量分 89
专心致志写BUG
看得出来是个学渣
展开
-
简略阅读《Test Selection for Deep Learning Systems》
《Test Selection for Deep Learning Systems》Abstract:深度学习模型的测试是具有挑战性的,因为涉及的计算的数量和复杂性。因此,测试数据选择以一种特别的方式手动执行。这就提出了一个问题,即我们如何自动选择候选数据来测试深度学习模型。最近的研究集中在定义度量标准来度量测试套件的完整性,并依赖这些度量标准来指导新测试的生成。然而,选择/优先级测试输入(例如,人工标记)的问题仍然是开放的。在本文中,我们基于模型不确定性(特定输入的模型置信度)的概念,对一组测试选择度原创 2021-10-07 14:25:08 · 336 阅读 · 0 评论 -
简略阅读《Guiding Deep Learning System Testing using Surprise Adequacy》
Guiding Deep Learning System Testing using Surprise AdequacyAbstract深度学习(DL)系统正迅速被应用于安全和安全关键领域,迫切需要测试其正确性和鲁棒性的方法。DL系统的测试传统上依赖于手工收集和标记数据。近年来,人们提出了许多基于神经元激活值的覆盖标准。这些标准本质上是计算在DL系统执行过程中,满足某些特性(如超过预定义阈值)的激活神经元的数量。然而,现有的覆盖标准不够细粒度,无法捕获DL系统所表现出的微妙行为。此外,评估的重点是显示对原创 2021-10-06 17:46:29 · 577 阅读 · 0 评论 -
软件缺陷自动修复技术
软件缺陷自动修复技术综述2.1基于启发式搜索(1) 利用变异算子采用遗传算法,通过定义代码片段的交叉和变异操作实现已有代码片段的重新组合,增大补丁的搜索空间随机搜索对遗传算法的优化对遗传算法中的表示方法进行了优化加速通过对遗传算法的种群初始化以及变异过程进行优化来补丁空间进行了扩充面向字节码(2) 利用历史修复补丁引入修复历史从历史修复中挖掘的代码修改操作指导补丁生成考虑了代码修改的上下文信息来约束搜索空间基于AST直接应用历史中人工修复的模板。(3) 利用相似代码与缺陷代码原创 2021-10-06 10:33:28 · 1129 阅读 · 0 评论 -
阅读《DialTest: Automated Testing forRecurrent-Neural-Network-Driven Dialogue Systems》
DialTest: Automated Testing forRecurrent-Neural-Network-Driven Dialogue Systems摘要:随着递归神经网络(RNN)的巨大发展,对话系统得到了长足的发展。许多rnn驱动的对话系统,如Siri、谷歌Home和Alexa,已经被部署来协助各种任务。然而,伴随着这种出色的性能,rnn驱动的对话系统,本质上是一种软件,也可能产生错误的行为,导致巨大的损失。同时,支持对话系统的RNN模型的复杂性和难驾驭性使得它们的测试具有挑战性。本文设计原创 2021-08-22 18:10:07 · 451 阅读 · 0 评论 -
阅读《SentiLARE: Sentiment-Aware Language Representation Learning with Linguistic Knowledge》
SentiLARE: Sentiment-Aware Language Representation Learning with Linguistic KnowledgeAbstract现有的预训练语言表征模型大多忽略了文本的语言知识,而文本的语言知识可以促进自然语言处理任务中的语言理解。为了便于情感分析的下游任务,我们提出了一种新的语言表示模型,称为SentiLARE,该模型将包括词性标签(POS tag)和情感极性(sentiment polarity, 从SentiWordNet推断)在内的词级语原创 2021-08-08 12:31:38 · 430 阅读 · 0 评论 -
阅读《Automatic Testing and Improvement of Machine Translation》
Automatic Testing and Improvement of Machine TranslationABSTRACT本文介绍了TransRepair,一种全自动测试和修复机器翻译系统一致性的方法。TransRepair结合了mutation和metamorphic testing来检测不一致的bug(无需使用human oracles)。然后采用probability-reference或cross-reference的方法对翻译进行后处理,以灰盒或黑盒的方式修复不一致。我们对两种最先进的翻原创 2021-08-07 18:00:09 · 186 阅读 · 0 评论 -
阅读《Unsupervised Evaluation of Interactive Dialog with DialoGPT》
Unsupervised Evaluation of Interactive Dialog with DialoGPTAbstract为开放域对话研究定义有意义和可解释的自动评估指标是很重要的。标准语言生成指标对于对话是无效的。本文介绍了FED度量(细粒度对话评估),这是一个使用DialoGPT的自动评估度量,没有任何微调或监督。它还引入了FED数据集,该数据集是通过注释一组具有18个细粒度对话质量的人-系统和人-人对话来构建的。FED度量(1)不依赖于真实的响应,(2)不需要训练数据,..原创 2021-04-26 12:03:59 · 363 阅读 · 0 评论 -
简略阅读《Testing Machine Translation via Referential Transparency》
Testing Machine Translation via ReferentialTransparencyAbstract近年来,由于深度神经网络的发展,机器翻译软件得到了快速的发展。人们在日常生活中经常使用机器翻译软件,比如在外国餐馆点餐、接受外国医生的医疗诊断和治疗、在网上阅读国际政治新闻等。然而,由于底层神经网络的复杂性和难解性,现代机器翻译软件还远未达到健壮性,产生的翻译质量较差或错误;这可能会导致误解、经济损失、对个人安全和健康的威胁,以及政治冲突。为了解决这个问题,我们...原创 2021-04-25 22:57:07 · 183 阅读 · 0 评论 -
简略阅读《Structure-Invariant Testing for Machine Translation》
Structure-Invariant Testing for Machine TranslationABSTRACT近年来,机器翻译软件越来越多地融入到我们的日常生活中。人们通常在各种应用中使用机器翻译,比如向外国医生描述症状,或者用外语阅读政治新闻。然而,为现代机器翻译提供动力的神经机器翻译(NMT)模型的复杂性和难解性使得这些系统的鲁棒性甚至难以评估,更不用说保证了。机器翻译系统可能返回劣质的结果,导致误解、医疗误诊、对个人安全的威胁或政治冲突。尽管机器翻译系统具有明显的重要性,但..原创 2021-04-25 22:35:01 · 132 阅读 · 0 评论 -
简略阅读《Machine Translation Testing via Pathological Invariance》
Machine Translation Testing via Pathological Invariance ABSTRACT随着深度神经网络性能的提高,机器翻译软件已经深入到我们的日常生活中。然而,机器翻译软件经常返回错误的翻译,这可能会导致有害的后果,如经济损失和政治冲突。此外,由于底层神经模型的复杂性,测试机器翻译系统提出了新的挑战。为了解决这个问题,我们引入了一种叫做PatInv的新方法。PatInv背后的主要直觉是,不同意义的句子不应该有相同的翻译。在这一总体思想下,我们提..原创 2021-04-25 22:14:01 · 243 阅读 · 0 评论 -
BiasFinder: Metamorphic Test Generation to Uncover Bias for Sentiment Analysis Systems阅读
BiasFinder: Metamorphic Test Generation toUncover Bias for Sentiment Analysis Systems人工智能(AI)软件系统,如情感分析(SA)系统,通常会从大量可能反映人类偏见的数据中学习。因此,这些软件系统中的机器学习模型可能会根据特定的特征(如性别、职业、原籍国等)表现出非预期的人口统计学偏见。当SA系统预测相似文本的不同情绪时,这种偏见就会显现出来,而相似文本仅在描述的个体特征上有所不同。现有的关于SA系统中揭示偏见的..原创 2021-04-20 10:28:25 · 162 阅读 · 0 评论 -
《Multicore Locks: The Case is not Closed Yet》阅读
Multicore Locks: The Case is not Closed YetabstractNUMA多核机器非常普遍,许多多线程应用程序都受到锁争用的困扰。为了缓解这个问题,应用程序和库开发人员可以从过去25年设计的大量优化互斥锁算法中进行选择。不幸的是,目前还没有对这些优化锁算法在实际应用程序中的行为进行广泛的研究。在本文中,我们试图填补这一空白。我们在35个应用程序上对27种最先进的互斥锁算法进行了性能研究。我们的研究表明,在多核机器上锁定的情况还没有结束。实际上,我们的结论包括.原创 2020-11-14 09:55:14 · 275 阅读 · 0 评论 -
《Multi-task Learning based Pre-trained Language Model for Code Completion》阅读
Multi-task Learning based Pre-trained Language Model for Code Completion目录Multi-task Learning based Pre-trained Language Model forCode CompletionABSTRACT1 INTRODUCTION2 BACKGROUND2.1 Statistical Language Model2.2 Multi-task Learning2.3原创 2020-10-26 20:04:03 · 780 阅读 · 0 评论 -
《Contextualized Code Representation Learning for Commit Message Generation》阅读
Contextualized Code Representation Learning for Commit Message GenerationAbstract :为代码提交自动生成高质量的提交消息可以极大地促进开发人员的工作和协调。然而,源代码和自然语言之间的语义差异是这项任务的主要挑战。已经提出了一些研究来缓解这一挑战,但没有一项研究明确涉及提交消息生成过程中的代码上下文信息。具体来说,现有的研究对代码标记采用静态嵌入,将标记映射到相同的向量,而不考虑其上下文。在本文中,我们提出了一.原创 2020-10-26 10:56:27 · 573 阅读 · 0 评论 -
《DeepMutation: Mutation Testing of Deep Learning Systems》笔记
Abstract:深度学习(DL)定义了一种新的数据驱动编程范式,其中内部系统逻辑很大程度上是由训练数据塑造的。评估DL模型的标准方法是检查它们在测试数据集上的表现。测试数据集的质量对于获得训练模型的置信度非常重要。使用不适当的测试数据集,已经达到高测试精度的DL模型可能仍然缺乏通用性和健壮性。在传统的软件测试中,突变测试是一种成熟的测试套件质量评估技术,它分析测试套件检测到注入的错误的程度。然而,由于传统软件与基于深度学习的软件存在根本区别,传统的变异测试技术不能直接应用到DL系统中。在本文中,我们提原创 2020-09-07 16:28:30 · 708 阅读 · 0 评论 -
《Structure-Invariant Testing for Machine Translation》笔记
目录Structure-Invariant Testing for Machine TranslationABSTRACT1 INTRODUCTION2 A REAL-WORLD EXAMPLE3 APPROACH AND IMPLEMENTATION3.1 Generating Similar Sentences3.2 Collecting Target Sentences3.3 Representations of the Target Sentences3.4 Tr原创 2020-07-31 11:36:35 · 760 阅读 · 0 评论 -
《PTMs for NLP: A Survey》笔记
Pre-trained Models for Natural Language Processing: A SurveyXipeng Qiu*, Tianxiang Sun, Yige Xu, Yunfan Shao, Ning Dai & Xuanjing Huang最后,我们概述了PTMs未来研究的一些可能的方向。本调查旨在为理解、使用和开发用于各种NLP任务的PTMs提供动手指导。1 Introduction 随着深度学习的发展,各种神经网络被广泛用于解...原创 2020-07-27 17:48:35 · 1057 阅读 · 0 评论 -
《蜕变测试技术综述》笔记
《蜕变测试技术综述》笔记oracle问题,即测试人员很难构造程序的预测输出,以确定执行结果与期望结果是否相同。测试用例集可靠性问题,是指对于某个程序,很难构造一个可靠的测试用例集,使得程序的正确性可以由其中所有测试用例的正确执行来保证。为了解决oracle问题,澳大利亚斯威本科大学的 Chen等人提出了蜕变测试的概念囚。该方法认为测试 过程中没有发现错误的测试用例(成功的用例)也同 样蕴涵着有用的信息,它们可以用来构造新的用例以 对程序进行更加深入的检测,蜕变测试技术通过检查 这些成功用例及由它们构原创 2020-07-21 10:21:05 · 471 阅读 · 0 评论 -
Analyzing Compositionality-Sensitivity of NLI Models_笔记
Yixin Nie,* Yicheng Wang,* Mohit Bansal Department of Computer Science University of North Carolina at Chapel Hill {yixin1, yicheng, mbansal}@cs.unc.edu Analyzing Compositionality-Sensitivity of NLI Models理解词汇语义但不理解组合语义发现几个具有不同架构的最先进的...原创 2020-07-21 10:49:13 · 153 阅读 · 0 评论 -
What if We Simply Swap the Two Text Fragments?_笔记
Haohan Wang,1 Da Sun,2 Eric P. Xing3 1Language Technologies Institute, School of Computer Science, Carnegie Mellon University, Pittsburgh, PA, USA 2School of Information Science, Southeast University, Nanjing, China 3Machine Learning Department, Scho原创 2020-07-21 10:51:57 · 125 阅读 · 0 评论