传统的测试方法可以保证AI软件的质量吗?

本文探讨了人工智能软件测试的挑战,指出传统通过界面和功能测试AI软件如智能文本分类系统的不足。传统方法无法有效评估输入的多样性和概率值的合理性。正确的AI软件测试应理解其基于算法和数据训练的本质,采用如准确率、精确率和召回率等算法自带的评测指标进行评估,确保软件质量。
摘要由CSDN通过智能技术生成

近两年人工智能发展迅猛,各种应用层出不穷,但其质量却是良莠不齐。原因在于大部分测试童鞋还在用传统的测试方式也就是通过界面和功能对人工智能软件进行测试,但是AI软件从开发到测试都很不同于传统软件,本文就以智能文本分类系统为例通过两步来介绍为何传统的测试方法不能保证AI软件的质量。

一、工智能软件测试的痛点

目标

掌握人工智能软件测试面临的现实痛点

步骤

1.智能文本分类系统是AI自然语言处理的一个基本应用,界面如下图所示

 

2.对其测试时需要根据不同的输入点击获取标签得出所属的类别以及所属类别的概率值

3.通过功能和界面进行测试的话需要输入各种可能输入的文本,耗时巨大,并且也不太现实

4.从界面上对得到的score代表的概率值进行判断无法得出一个客观的评判,这个值多少合适判断不了

5.因此传统界面和功能测试完了判断不了智能文本分类系统能否上线

二、AI软件测试的正确方式

目标

掌握AI软件测试的正确方式

步骤

1.了解AI软件测试的本质

人工智能软件是根据算法对大量的数据进行训练找规律,最终得出一个模型来对新的数据进行预测,预测的时候会给出一个概率值。

2.AI软件测试的正确方式

通过实现人工智能算法自带的评测指标来进行AI软件的测试可以很好的评估软件的质量,完美解决穷举各种输入和概率值大小的现实问题

3.通过AI模型测试的具体评测指标

以智能文本分类为例,其采用了监督示机器学习的分类算法,对应的评测指标有:

准确率、精确率、召回率

总结

本文通过智能文本分类系统面临的测试难点来指出AI软件测试过程中的通用难题。以此指出了通过功能和界面测试人工智能软件不能保证AI软件的质量,正确的方式应该是通过实现AI软件算法自带的评测进行进行测试。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值