软件工程实践——软件评测作业

222100204何颖

已于 2024-04-16 13:40:25 修改

阅读量724

点赞数 10

文章标签：软件工程

于 2024-04-15 17:13:34 首次发布

本文链接：https://blog.csdn.net/weizhi_heying/article/details/137779393

版权

本文对比了百度的文心一言和阿里云的通义千问两款大语言模型在功能体验、优缺点、开发时间以及市场地位等方面的评估，指出它们的强项与改进空间，并对未来市场和产品生态提出建议。

摘要由CSDN通过智能技术生成

这个作业属于哪个课程	软件工程实践-2023学年-W班社区-CSDN社区云
这个作业要求在哪里	软件工程实践——软件评测作业
这个作业的目标	选择两个网站进行对比评测
案例分析要求	软件工程案例分析作业
其他参考文献	构建之法

第一部分调研，评测

一、文心一言

1、体验

1.1 介绍和使用软件:

文心一言是百度公司所研发的知识增强大语言模型，其英文名是ERNIE Bot，它能够与人对话互动，回答问题，协助创作，高效便捷地帮助人们获取信息、知识和灵感。它基于飞桨深度学习平台和文心知识增强大模型，持续从海量数据和大规模知识中融合学习，具备知识增强及检索增强和对话增强的技术特色。它已逐渐应用于百度搜索，基于文心大模型技术推出的生成式对话产品“文心一言”，将根本性地改变搜索引擎的运行模式，更接近人工智能的终极形态——人工智能助手，或可引领搜索体验的代际变革

功能1：听得懂潜台词、复杂句式、专业术语

功能2：快速生成文本、代码、图片、图表、视频

功能3：根据图片，分析图片内容，

功能4：除了对话功能，还有百宝箱功能

1.2 优缺点分析:

优点：
①图文丰富，既能和用户进行文字对话，解决用户问题，又能画图，上传图片解析，带来良好的体验；
②回答问题后，还有相关问题的延申标签，用户可以根据自己的需要点击标签继续提问，能更深入的理解和解决问题；
③百宝箱功能有各种板块，提供各种预先准备的指令，用户可以更方便快捷的选择相应的问题模板。

缺点：
①ai画图功能有所欠缺，对于复杂的描述，不能准确完整的达到要求；
②回答比较单一，同一个问题稍微改变一下，答案还是大同小异，没有更多的其他思路
③解锁更高级的模型，需要付费

1.3 用户对产品有什么改进意见？

加强模型的语义理解和生成结果的质量；优化训练算法，提高模型的性能和稳定性；
加强用户反馈和需求分析，提高生成结果的用户满意度；
加强数据安全和隐私保护，提高用户数据的安全性。

1.4 采访另一个用户:

a. 采访对象的背景，为什么选择这个人采访？
是软工的同学，平时也经常用到该产品，所以对其相关认识比较熟悉
b. 描述采访对象实际使用的产品栏目
文心一言
c. 采访对象使用软件的过程中会遇到的问题和亮点
问题：容易出错亮点：ai画图
d. 采访对象觉得从用户体验的角度来说需要改进的地方有哪些？
希望能免费程序准确一些

在这里插入图片描述

2、BUG

Bug发生时的测试环境
操作系统：Microsoft Windows 11 家庭中文版
浏览器：Microsoft Edge

可复现性：必然发生，因为存在逻辑错误，模型没有纠错

Bug具体情况描述：
输入：昨天的当天是明天的什么
正确答案：前天
文心一言答案：前一天

在这里插入图片描述

Bug的可能成因：
①虽然功能强大，涵盖绝大部分知识点，但它仍然是一个基于统计的模型，其推理能力受到训练数据和算法的限制。
②无法像人类一样进行真正的创造性思考或理解某些抽象概念。

对于Bug的预期及改进建议
①优化数据集，提高数据质量，是提升模型推理能力的关键。
②通过改进算法，让模型在处理数据时更加高效和精确。

3、结论

d) 好，不错
①能满足大部分的要求，更像是搜索引擎和ai画图的结合体，功能全面。
②能对话，灵活理解问题并回答，但是缺少一点创新，回答有些单一

二、通义千问

1、体验

1.1 介绍和使用软件:

通义千问，是阿里云推出的一个超大规模的语言模型。于2023年9月13日正式向公众开放。属于(AI Generated Content，AIGC)领域。是一个MaaS（模型即服务）的底座。

功能1：文本对话

功能2：图片理解

功能3：对用户上传的文档进行解析

功能4：百宝袋功能，用户可以根据需求选择相应的频道

1.2 优缺点分析:

优点：
①图文丰富，既能和用户进行文字对话，解决用户问题，又能画图，上传图片和文档进行解析，带来良好的体验；
②百宝袋功能有各种更具体的板块，用户可以根据需要选择对应的频道。

缺点：
①回答缓慢，画图功能的等待回应的时间长，大约要30多秒
②缺少创新，答案有一种模板的感觉

1.3 用户对产品有什么改进意见？

1、强化复杂场景下的逻辑推理能力和基于多因素综合判断的决策辅助功能
2、在理解和表达复杂、微妙的人类情感方面，仍有很大的提升空间。

1.4 采访另一个用户:

a. 采访对象的背景，为什么选择这个人采访？
是软工的同学，会经常和这些大语言模型打交道，所以对他们比较熟悉
b. 描述采访对象实际使用的产品栏目
文心一言
c. 采访对象使用软件的过程中会遇到的问题和亮点
①问题：不能实时更新因为需要依赖于定期的数据更新和模型迭代。
②亮点：全天候不间断地为用户提供服务，不会出现人多拥挤无法使用的现象
d. 采访对象觉得从用户体验的角度来说需要改进的地方有哪些？
界面问答部分可以占更大的空间，左边的导航栏设置可以收起的功能

2、BUG

Bug发生时的测试环境
操作系统：Microsoft Windows 11 家庭中文版
浏览器：Microsoft Edge

可复现性：必然发生

Bug具体情况描述：
当要求的画图要素过多的时候，不能每个要求都完全达到，比如我的要求是：人，猫，手机，狗，花，大海，蓝天，沙滩。根据给出的图片，可以发现没有出现人手机和狗，所以对于复杂的要求，会缺失一些要素，还有对细节的处理不太好，把图片放大发现猫的脸很奇怪。

Bug的可能成因：
①绘画模型通过训练学习了大量的图像数据，但其理解和生成能力仍有局限性。
②在生成图像时，可能会根据某种优化目标来调整输出结果，这过程中可能会牺牲部分非关键的细节要求以达到整体最优效果。

对于Bug的预期及改进建议
①优化数据集，提高数据质量，是提升模型推理能力的关键。
②通过改进算法，让模型在处理数据时更加高效和精确。

3、结论

c) 一般
没有明显的亮点，和文心一言感觉差不多，答案也没有很创新的地方，中规中矩

第二部分分析

1、开发时间估计

软件名称	功能	预估时间
文心一言	回答问题、提供信息、智能推理、绘图、解析图片文档	230天
通义千问	回答问题、逻辑推理、绘图、解析图片文档	210天

2、同类产品对比排名

功能	文心一言	通义千问
界面简洁度	中上	中等
回答准确度	中上	中等
画图完整度	中等	中上
功能丰富度	中上	中上
总体响应速度	较快	一般
总体评分	80	70

3、软件工程方面的建议

软件名称	建议
文心一言	加强逻辑推理方面的能力，加大训练和学习次数，以应对复杂、多层语境或高度抽象的问题有更好的回答
通义千问	培养模型自我学习优化、纠错的能力，能具有更多“人”的情感

4、BUG存在的原因分析

软件名称	原因分析
文心一言	是一个基于统计的模型，所以其推理能力受到训练数据和算法的限制
通义千问	绘画模型通过训练学习了大量的图像数据，但其理解和生成能力仍有局限性，所以不能完整符合要求

第三部分建议和规划

1、市场概况

大语言模型的市场大小正在快速增长。根据MarketsandMarkets发布的最新报告数据显示，全球大型语言模型市场规模预计将从2024年的64亿美元激增到2030年的361亿美元，2024年至2030年预测期内复合年增长率为33.2%。

直接用户主要包括普通用户和专业用户。普通用户主要利用大语言模型进行通用办公、辅助办公和内容创作等任务，专业用户例如需要对代码进行完善改错的程序员。
潜在用户包括那些尚未意识到大语言模型价值但对其有潜在需求的人群，比如医生、教师、律师、自媒体工作者

2、市场现状

2.1市场已存在的产品

chatgpt
文心一言
通义千问
字节Coze大模型
讯飞星火

2.2各自的优势/劣势

名称	定位	优势	劣势
chatgpt	一个多功能的、基于GPT技术的人工智能模型，它可以模拟人类对话，回答各种问题，支持多语种、多领域的应用	响应速度快、用户体验感好、知识充足、泛化性强、推理能力强（思维链）、交互性强（多轮对话）	可信性无法保障、成本高昂、无法生成图片、效果不稳定、可能生成有害内容、偏见性、答案冗长、难纠正 ChatGPT 的事实性错误、不适用于追求唯一性答案的情况
文心一言	通过对话、分享、发现等功能，帮助用户获得知识与灵感，同时满足他们在知识问答、文本创作、代码能力等多方面的需求	生图能力非常强大，生成图片的速度非常快、具有多模态生成能力、转换传统文化文本时注重保留原汁原味的精神内涵	过于注重词汇准确性，导致内容枯燥、在处理文本时，它主要依赖于预先设定的算法和规则，而较少尝试使用更加灵活、生动的表达方式
通义千问	是一个超大规模的语言模型，致力于成为一个通用技术平台。它不仅具备多轮对话、文案创作、逻辑推理、多模态理解以及多语言支持等功能，还能够与外部API进行融合，进一步拓展其应用场景	依托阿里云的强大算力，可以高效地处理和响应用户请求，保证服务的稳定性与可靠性、可以提供丰富的信息查询服务、具备广泛的知识储备和语言理解能力	文本语义正确性不高、对于情感交流和人际交往中的细微差别可能捕捉不够精确、尚不能完全实现对所有隐含敏感信息的识别和过滤。
字节Coze大模型	一款面向全球市场的AI聊天机器人和应用程序编辑开发工具。Coze旨在简化AI聊天机器人的创作流程，让用户无需深厚的编程背景也能便捷地创建和定制聊天机器人，满足个性化和多样化的应用场景需求	依托字节跳动自主研发的大规模语言模型技术，提供强大的自然语言理解和生成能力、除了基础的开发功能，Coze还提供了类似GPTs商店的功能，允许用户分享和购买AI组件，促进了AI技术的普及和商业应用的创新	对于完全没有编程背景的用户来说，理解和掌握一款复杂的AI工具仍可能存在一定的学习曲线、在商业化拓展方面，如何有效运营GPTs商店等增值服务，保证内容质量和创作者权益，同时实现可持续的盈利模式，亦是一大考验
训飞星火	科大讯飞研发的认知智能大模型，是一个集成多种人工智能技术的综合性平台，具备广泛的应用场景和服务能力	适用于商业文案创作、图片生成、聊天解疑等任务，并在V2.0版本中增强了多模态能力，可以对图像内容进行文字描述和理解，并生成图片	对新颖或幽默的问题可能无法给出合理或有趣的回答，对事实类问题可能出现错误或混淆、多模态内容生成质量可能有待提高

2.3各自的关系

关系：都是基于人工智能技术的大语言模型，它们在一定程度上互为竞品，特别是在自然语言处理、文本生成、智能问答、逻辑推理等领域有直接的竞争关系。

态势：在国际市场，ChatGPT凭借其卓越的用户体验和创新能力处于领先地位，在中国市场，文心一言、通义千训等各自依托母公司的资源和技术积累，在不同细分领域积极布局，相互之间竞争激烈。

2.4现处阶段

我认为正处于风口阶段，虽然市场上已经有了比较成熟的大语言模型，使用的用户庞大，但是潜在用户还很多，还有很多改进和提升空间。

3、市场与产品生态

3.1核心用户

核心用户是涵盖不同年龄层、职业背景和社会角色的人群，比如：日常生活中的普通用户、企业级客户及商业用户、医疗健康领域人员，典型用户是教育行业用户和TI从业技术人员
学历：大部分是专科以上的学生或者上班族群体
年龄：主要是青年、中年
专业：正在学习计算机相关的专业或者从事互联网IT相关职业
爱好：对互联网大数据ai智能有一定的关注度和熟悉度
收入：中高收入的IT从事者
（一）表面需求：①学生：作为在线学习助手，帮助解答学术问题、辅导作业；②IT技术人员：作为开发工具的一部分，帮助程序员快速查找文档、调试代码、解答技术疑问等
（二）潜在需求：成为自我提升的工具，比如提供职业技能学习、继续教育课程等资源、或者能作为科研助手，参与项目讨论，提供前沿科技动态和创新思维启发。

3.2用户间的关系

不同用户群体之间存在着潜在的关系和关联性，可以通过分析这些关系构造出一个二次特定用户生态：
①构建主题社区，让同一爱好的用户共同交流探讨，如出行旅游区、文学艺术讨论区、健身运动小组等。在此基础上，通过聊天机器人提供个性化服务，连接不同类型的用户，形成共享资源、互相启发的生态环境。
②根据用户收入水平差异，提供层次分明的定制化服务。比如，低收入群体通过使用初级服务逐渐提升自身，从而转化为中高收入群体的潜在用户；同时，中高收入群体的成功经验也可通过聊天机器人分享给其他用户，形成良好的用户生态循环。

3.3各相关产品间的关系

各个产品主要是在人工智能领域特别是自然语言处理（NLP）赛道上的存在竞争对手关系。每家公司都推出了自家的大规模语言模型产品，服务于不同的市场和客户群体，并致力于解决如文本生成、问答、对话交互等的NLP任务。同时，它们也可能通过合作和开放API等形式，在某些场合下形成共生关系，共同推动AI技术进步和产业生态繁荣。

可以基于各家产品的API或SDK，集成不同模型的优点，设计出满足特定需求的创新型应用。

4、产品规划

4.1设计新功能

为文心一言添加一个视频插件，允许用户上传视频并进行解析（如内容摘要、情感分析等），同时也可根据用户输入的文字要求或情境生成相应的AI视频内容

N（Need）：在当前的数字化时代，视频已成为人们获取信息和娱乐的主要方式之一。用户不仅希望可以通过文字与AI进行交互，更期望AI能理解并处理视频内容。此外，随着内容创作领域的蓬勃发展，用户对于生成高质量、个性化的视频内容的需求也在不断增加。因此，添加此功能是为了满足用户对视频内容解析和生成的需求。
A（Approach）：将采用先进的视频解析技术和AI生成算法。系统将上传的视频进行深度解析，提取关键信息。同时，基于用户的需求，生成具有创意和实用性的AI视频。这一解决方案结合了自然语言处理、计算机视觉和深度学习等前沿技术，为用户提供了全新的视频交互体验。
B（Benefit）：首先，视频解析功能可以帮助用户快速理解视频内容，提取关键信息，提高工作效率；其次，AI视频生成功能可以根据用户的需求，快速生成个性化的视频内容，满足用户在内容创作、广告宣传等方面的需求；最后，这一功能还可以节省大量的人工编辑和制作时间，提升工作效率。
C（Competitors）：在当前的AI市场中，虽然有一些产品提供了视频处理或生成的功能，但大多数产品还未能将自然语言处理与视频处理完美结合。文心一言通过添加视频插件功能，可以在市场中形成差异化竞争优势，吸引更多对视频处理有需求的用户。同时，随着技术的不断进步和应用的不断拓展，文心一言有望在这一领域形成领先地位。
D（Delivery）：首先，进行技术研发和测试，确保视频插件功能的稳定性和准确性；其次，与现有的文心一言平台进行集成，确保用户可以无缝切换和使用；最后，通过线上推广和用户教育，让更多用户了解并使用这一新功能。

4.2配置角色

角色	人数
项目经理	1
开发工程师	3
测试工程师	2
UI设计师	1

4.3详细计划

时间	规划
第1-2周：	①召开项目启动会：明确项目目标、任务分工和时间节点；②需求分析与设计：完成视频插件功能的详细需求分析，制定开发计划和测试计划；③环境搭建与准备：搭建开发、测试环境，准备必要的开发工具和资源。
第3-8周：	开发团队按照分工进行功能开发，每周进行进度同步和代码审查。UI设计师完成界面设计和制作，与开发团队保持密切沟通，确保界面与功能相匹配。
第9-12周	①集成测试：测试工程师对开发完成的模块进行集成测试，发现问题及时反馈给开发团队修复；②功能优化与调整：根据测试结果和用户反馈，开发团队对功能进行优化和调整。
第13-15周：	测试工程师进行全面的功能测试、性能测试和兼容性测试，确保软件质量和稳定性。还要准备用户培训材料和操作文档，为发布做好准备。
第16周：	按计划发布软件的改进版本，包括视频插件功能。发布后密切关注用户反馈和系统运行情况，收集数据进行分析，为后续迭代提供依据。