该文档是亚信科技与清华大学智能产业研究院联合发布的《DeepSeek 赋能自智网络高阶演进评测报告》,聚焦大模型在自智网络领域的应用,对 DeepSeek 等几款典型大模型进行多维度评测,为自智网络发展提供参考。
评测背景与目的
结合自智网络高价值场景业务需求,从语义解析、意图识别、推理能力等维度评测 DeepSeek 等大模型,为自智网络高阶演进提供科学依据与技术参考,推动通信行业智能化转型。
评测场景与指标体系
业务编排智能设计:测试语义解析、推理能力、知识检索等,评估业务智能编排的合理性、隐含信息理解等指标。
网络数据查询分析:考查语义解析、意图识别,评估查询分析意图识别准确率、提取准确率等。
网络拓扑生成:关注意图识别、语义解析,评估拓扑生成意图识别准确率、提取准确率等。
网络故障根因分析:涉及意图识别、自主规划等能力,评估根因分析的准确性、合理性、时效性等多方面指标。
IP 网配置生成:测试意图识别、知识检索、文本生成能力,评估配置生成的准确率、覆盖范围、相关性等指标。
一线装维服务:评测意图识别、语义解析、知识检索能力,通过知识检索指标、服务准确性等衡量。
感知诊断分析:考查意图识别、语义解析、知识检索,评估分析的准确率、覆盖范围、全面性等。
无线投诉处理(文档未完整列出,但可推测相关能力测试与其他场景类似):主要针对无线网络优化相关能力进行评估,如语义连贯性、准确性、完整性等。
DeepSeek 模型表现分析
优势:在多数场景和能力测试项中,DeepSeek R1 和 V3 与其他模型相比有一定竞争力,部分指标表现良好。
不足:处理少见网络专业问题时,知识检索的准确性和全面性不足;深度思考模式下存在过度思考现象,影响任务处理效率。
优化建议与展望
建议结合其他模型或方法弥补处理少见问题的缺陷,优化模型思考逻辑以平衡性能与效率,为后续自智网络发展和大模型应用提供方向 。
后台回复“250303C”,可获得下载资料的方法。
本公号使用腾讯元器(使用DeepSeek R1大模型)创建了智能交通技术AI服务,欢迎扫码进入体验(或在后台使用私信对话)。
点击文后阅读原文,可获得下载资料的方法。