大语言模型在审计工作中的应用场景

随着人工智能应用的不断扩展,审计人员如何有效地利用人工智能来辅助审计工作,已成为一个亟待解决的重要课题。在审计工作的数字化转型中,建立支持人工智能应用的数字化平台是核心任务。探索大语言模型在审计工作中的应用具有紧迫的现实需求和广阔的发展前景。

大语言模型在审计工作中的应用场景

基于计算机技术与深度学习的集成,人工智能模仿人类大脑的认知系统,执行比拟人类智能的任务,可以视为人类智能在物理维度或数字维度的延伸。生成式人工智能是人工智能模型的一个子集,此类模型能够从海量训练数据中学到一系列模式并依据概率生成新的内容,例如文本、图像、音频和视频数据,也可以根据某种风格生成相应的内容,提供了生产力的供给。大语言模型(Large Language Model,简称LLM),如智源的“智谱清言”、百度的“文心一言”、OpenAI的ChatGPT等,是生成式人工智能在自然语言处理(Natural Language Processing,简称NLP)领域的典型应用。这些模型不仅理解和分析文本,还根据它们在训练期间学到的模式和结构生成类似人类的文本。LLM在理解自然语言和解决复杂任务(通过文本生成)方面表现出强大的能力,可用于识别、总结、翻译、逻辑推理和生成文本,多模态的模型可以根据提示词工程(Prompt Engineering)生成图形、视频等,在某些任务上的表现已经开始接近人类。

现阶段,教育、医疗、法律、会计等垂直领域多场景专业大语言模型运用已成为趋势。例如,根据最新报道,英国法院已开始允许法官使用ChatGPT等大语言模型来辅助撰写法律文书,并制定了相应指南。在医疗行业,运用LLM辅助医生进行医学诊断、病历撰写,已成为最具发展前景的领域。应用于审计场景的专业大语言模型正在发展中,审计机关、高校都在展开探索。

图1 审计工作数字化转型的要素分解

随着人工智能应用的不断扩展,审计人员如何有效地利用人工智能来辅助审计工作,已成为一个亟待解决的重要课题。在审计工作的数字化转型中,建立支持人工智能应用的数字化平台是核心任务。这些平台应具备强大的数据处理和分析能力,以支持审计工作的各种需求。本文将结合图1的内容,以大语言模型(LLM)为例,探讨其在审计工作中的应用场景。随着大语言模型技术的发展,参数规模从数十亿到数千亿的公共LLM不断推出,并且可以私有化部署的本地化LLM也日益普及。最新报道显示,北京智源人工智能研究院仅用70万元预算就成功训练了一个全新的千亿参数大模型,这一成果显著降低了大模型训练的成本和门槛,为审计领域提供了新的机遇。因此,探索大语言模型在审计工作中的应用具有紧迫的现实需求和广阔的发展前景。

大语言模型在审计工作中的应用。

本文将审计工作划分为六个阶段,分别论述LLM的可能应用。

(一)审计对象监测。

“跳出审计看审计、跳出审计干审计”是深化研究型审计的内生要求,加强对审计对象及其业务的研究已成为审计系统的共识,本文将之归入为审计对象监测。以X区为例,该区几乎都是城市建成区,无农业区域,全区水陆域面积2*平方公里、其中陆地面积2*平方公里,辖区1*个街道办事处、**个社区居委会、*个社区工作站,全区常住人口约**万人。该区是著名的全域旅游区域,每年吸引大量游客。沿着“政治-政策-项目-资金”主线,收集形成覆盖全域审计对象的机构、政治、政策、项目、资金相关的多模态数据。借助大语言模型来分析这些多模态数据,可以对X区的经济、企业、投资、旅游等情况有个全面掌握,逐步形成区域态势感知。

例如,使用大语言模型来解读X区的“十四五”发展规划、旅游规划和数据要素规划等,可以按照以下步骤进行:(1)数据输入。首先,将X区的这些规划文件作为输入数据提供给大语言模型。这些文件可能包括政策文本、规划文档、相关数据报告等。(2)关键信息提取。大语言模型将分析这些文件,自动提取关键信息,如规划的主要目标、重点任务、预期成果、实施时间表等。模型可以识别和突出文档中的关键句子和段落。(3)主题和趋势分析。模型将进一步分析这些信息,以识别和总结规划中的主要主题和趋势。例如,在旅游规划中,模型可能会识别出发展特色旅游、提升旅游基础设施、推广文化旅游等关键主题。(4)任务和事项优先级排序。大语言模型还可以帮助确定各项任务和事项的优先级。通过分析文本中的强调词、频率和上下文,模型可以判断哪些任务或事项在规划中更为重要。(5)跨文档分析。如果有多份相关的规划文件,大语言模型还可以进行跨文档分析,找出不同规划之间的联系和一致性,或者识别潜在的冲突点。(6)生成摘要和报告。最后,模型可以生成一份摘要报告,总结规划的主要内容和关键点,为审计人员提供一个快速、全面的了解。

(二)项目计划。

结合对审计对象的监测,LLM可以通过对历史审计数据的学习和分析,推测本年度审计对象、审计事项的优先情况,为合理配置审计资源的提供支持,为审计项目计划制定提供参考和建议。如对党和国家重大决策部署政策文件、审计工作指导性文件、本地规划工作方案等进行情感和主题建模等分析,研判党中央对审计署及地方各级审计机关的要求、本地经济社会运行中的重大事项等。

(三)实施方案。

在编制实施方案之前,审计人员对被审计单位的基本情况、相关内部控制及其执行情况、财政财务情况、信息系统控制情况等进行了解和审查,可利用LLM协助评估被审计单位可能存在的问题,确定审计事项和审计应对措施。在注册会计师审计、内部审计中,运用LLM对审计对象及业务情况进行分析,并拟定审计内容和重点,已处于实际运用探索中。

(四)项目实施。

这是审计人员利用LLM发挥作用的主要场景。通过嵌入数据分析、文本阅读等插件,LLM可以处理和分析大量的结构化和非结构化数据。这些数据包括财务报表、交易记录、政策文件、会议记录等,都是审计过程中的关键信息来源。利用LLM,审计人员可以将所有相关数据转化为审计证据,或作为审计证据的支撑。这种方法取代了传统的抽样调查,能够提供更全面、更准确的审计证据,从而降低审计风险。NLP技术是LLM的核心组成部分,它通过语义理解模板自动解析非结构化文档,如政策文件、会议纪要、工作方案、合同等,从中提取审计所需的关键信息。例如,NLP可以帮助识别文档中的关键条款、潜在的风险点或合规性问题。通过自动化的数据分析和文本解读,LLM可以帮助审计人员快速筛选和处理大量信息,从而提高审计效率,并使得审计人员可以将更多的时间和精力集中在高风险领域和复杂的审计问题上。增强审计深度和广度:利用LLM,审计人员可以对更广泛的数据源进行分析,更有效地制定审计决策和应对措施,增强审计的深度和广度。

(五)复核审理。

在复核审理阶段使用大语言模型(LLM)可以显著提高审计工作的效率和准确性。LLM可以自动分析审计过程中产生的底稿和证据材料。通过对这些材料的深入理解,模型可以帮助审计人员识别潜在的错误、遗漏或矛盾之处。LLM的强大推理能力使其能够评估审计证据与结论之间的逻辑关系。模型可以检查审计证据是否充分支持审计结论,以及这些结论是否合理和一致。在复核审理阶段,LLM可以帮助评估审计发现的问题和建议的质量。模型可以分析问题的严重性、建议的有效性,以及这些问题和建议是否有助于改进被审计单位的运营和治理。LLM还可以帮助评估审计目标是否已经实现。通过分析审计过程和结果,模型可以提供关于审计工作成功程度的见解。利用LLM,审计人员可以快速生成初步的审计报告、专报和信息。模型可以根据审计底稿和证据材料,自动编写报告草稿,包括审计发现、结论和建议。生成的初步报告需要审计人员进行进一步完善和修改。在这一过程中,审计人员可以利用LLM的建议和洞见,确保报告的准确性和完整性。简言之,通过利用LLM的这些功能,审计人员不仅能够提高审计工作的效率,减少手动处理大量数据和文档的时间,还能够提高审计工作的效果,确保审计报告和建议的质量。

(六)审后跟踪。

利用数据挖掘技术如SVM,ANN,和KNN建立预测分类模型,为整改分类(如分为资金问题、项目问题、管理问题、政策问题)和整改力度(如分为立行立改、阶段性整改、长期整改)提供依据。根据被审计单位的整改情况,对比审计组提出的审计建议,形成整改情况全局展示图,突出整改重点,分析整改难点,帮助被审计单位改进决策,做出有效行动。收集审计整改情况,运用LLM来分析评判整改工作是否实现了期望目标,评估审计整改效果。

值得注意的是数据可视化贯穿数据分析全过程,是一项不可或缺的数据分析能力,能够生成各类表格和图形,帮助我们分析趋势、洞察原因,并促进组织内部有效沟通,预测和指导下一步工作。LLM将使得数据分析和可视化更加智能、便捷,也对审计人员的数据认知素养提出更高要求,不仅需要仔细考量对LLM的提示词(prompt)是否有效合理,还需要对其输出进行专业解释,最终决定是否采纳其提供的建议。只有审计人员与LLM形成一个不断迭代、持续互动的有机体,才能充分释放大语言模型的强大创造力以及审计人员特有的敏锐洞察力、深层次判断力。

大语言模型的应用与审计专用化训练。

根据收集到的数据,我们可以进行如下几个方面的工作。首先,对数据进行清洗和整理构建当地审计的语料库,该语料库由政策文本、审计报告、审计案例等文本数据组成,同时包含由资金链条相关的格式化数据。其次,使用已有的LLM,结合检索增强生成技术(Retrieval-Augmented Generation,简称RAG)和AI Agents,搭建一个适用于审计场景的审计系统,包括审计常识的问答场景、审计报告分析场景、审计问题发现场景等构建应用。最后,在语料库充足的基础上,可以使用模型微调技术,对现有的LLM进行微调,构建一个更适合本地审计应用的LLM。

数据整理,对于文本语料数据的整理,比如PDF、Word文档,可以使用Langchain或者Llama_index的doc_loader进行读取,并根据文本的长度进行切分,保存到向量数据库中。对于格式化数据,可以根据不同的使用场景,存储到关系型数据库或者图数据库中,以便于进一步的数据挖掘。如果是纸质文档,可以先将其扫描成图片,再用OCR技术进行文本信息提取,并使用上述数据库进行存储。可以利用现有LLM来生成训练数据,原始语料包括审计工作需要的公开资料以及审计对象及其业务的公开资料等。对于审计工作内部资料,则通过文本计算、特征工程、脱敏脱密技术来进行自动或人工生成训练数据。

应用构建,基于LLM的应用构建需要审计专家的介入,将审计经验转化成一系列提示词工程,构建符合审计场景的应用。比如审计常识的问答场景、审计报告分析场景、审计问题发现场景等。使用LLM对外提供的API,构建交互界面,使交互变得更加便捷,免去写代码操作的门槛。

本地LLM的微调,将整理好的语料资源整理成数据集,在已有开源基模型上进行模型参数微调,这一过程的目的是将一个通用的LLM,结合专家经验也就是语料构建出更适用于审计场景的专用LLM,以便更好服务与审计场景。

深度构建LLM应用,可以参考AutoGPT等框架的思路,针对一个审计问题让LLM自问自答,基于LLM的逻辑推理能力,先描述解决问题的整体思路,再让LLM去分解任务,并将每个细分的子任务让LLM继续分析和分解,直到分解成传统机器学习可以完成的任务,或者是数据库查询比对任务,直到任务完成。此部分应用取决于数据的完备性和可获得性,模型应用的执行权限,适合进一步集成时根据具体场景进行构建。

计算资源,对于LLM的使用,主要由两个场景。一方面是模型的推理,将模型部署起来对外提供API,在此基础上构建审计应用,这也是常见的使用场景。另一方面是模型微调,用收集整理好的语料基于基模型进行微调,做少量训练。总体上来说,微调的成本要远高于模型推理的成本,但是均需要使用GPU资源,现在很多云厂商均有足量的GPU计算时间。开展NLP、LLM相关研究的科研团队普遍建立了自己的计算能力,可以支持小规模的专用型模型训练部署。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

-END-


👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值