【摘要】在审计业务中,面向审计工作底稿的审计判断是当前审计工作面临的共同难题。面对海量繁杂的法规条款,审计判断存在审计定性不准确、定性依据引用存在困难、依法审计定性的规则悖反、处理处罚中自由裁量权使用不当等难题,确保审计判断的准确性和客观性是一个巨大的挑战。大语言模型通过自然语言处理和深度学习技术深入学习领域知识及其潜在关系,为审计判断提供了新的解决方案。本文以审计定性与法规推荐为目标,微调大语言模型,使其能够服务于审计概念理解、审计定性、审计法规推荐等任务。实验结果表明,该大语言模型相比通用大语言模型能够更加恰当地生成问题总结短语、推荐定性依据和处罚依据,为提高审计工作质量和效率提供了新的实现途径。
【关键词】审计判断;定性依据;智能审计;大语言模型
【中图分类号】F239.1""""" 【文献标识码】A""""" 【文章编号】1004-0994(2025)06-0021-8
一、引言
2024年3月5日,习近平总书记在参加十四届全国人大二次会议江苏代表团审议时强调,要牢牢把握高质量发展这个首要任务,因地制宜发展新质生产力。新质生产力作为新时代经济发展的核心动力,在数字经济背景下对审计工作提出了更高要求,大力推进数智化转型已成为审计工作实现高质量发展的迫切需求。近年来,大数据审计、智能审计等新型审计技术应运而生,推动了审计领域的技术创新,为审计人员提供了更加高效、可靠的工作手段和方法,也为审计技术数智化转型发展提供了新的路径。
在审计业务中,审计判断是指审计人员为了实现审计目标,依据有关标准,在审计实践和业务经验的基础上,通过一系列思维过程,对客观审计对象和主观审计行为所做出的某种认定、评价与决断(于凌云和吴建新,2012)。审计判断是审计活动的核心组成部分,是确保审计目标实现的关键手段,其直接影响着审计的质量和效果。目前,审计人员在审计判断过程中面临着一些共同难题: 一是难以用准确且合理的方式对审计问题进行总结; 二是法律法规的内容体系庞大且不断更新迭代,合理地运用法律法规进行审计判断变得尤为困难。由此可见,审计判断是一项知识密集型活动,需要审计人员熟知审计领域常见的问题表现形式及与之相关的法规制度,方能高质量、高效率地开展这项活动。
在人工智能浪潮中,大语言模型(Large Language Models,LLMs,简称“大模型”)凭借卓越的自然语言处理能力,正迅速成为人工智能研究与应用的新焦点,并引领自然语言处理乃至人工智能领域研究范式的转变(车万翔等,2023)。大模型技术是使用大量文本数据训练的深度学习模型,其在需要语言理解与生成、专业知识模拟与学习等信息密集、需要专业领域知识的应用场景中已展示出较强的应用潜力。因此,研究基于大模型的智能化审计判断技术具有深远的意义,可为推动人工智能技术在审计领域的实践应用提供新的视角。
本文以审计定性与法规推荐为目标,借助人工智能领域的大模型微调技术,使其服务于审计概念理解、审计定性、审计法规推荐等任务。本文在应用层面上,为提高审计工作质量和效率提供了新的实现途径; 在研究层面上,为人工智能技术赋能审计行业提供了坚实的基础知识和实验支持。
二、文献综述
(一)审计判断相关研究
目前,学者们认为审计判断中主要存在审计定性不准确、定性依据引用存在困难、依法审计定性的规则悖反、处理处罚中自由裁量权使用不当四个方面的难题,并从不同角度展开了研究。张乐玲(2018)针对当前审计定性中存在的主要问题,提出要规范审计定性的要点,即准确确定违规事项性质、恰当引用定性依据、规范审计定性用语,并建议审计人员加强相关法律法规的学习和内外沟通,同时审计证据要适当充分。班凤欣(2010)针对规范审计定性及处理处罚应当把握或注意的方面,提出审计人员在审计工作中应当以事实为依据、以法律为准绳,准确运用法规,规范定性及处理处罚在报告中的表述模式等。郑石桥和朱霁(2017)分析了依法审计定性可能出现的两种规则悖反情形,一是合法但不合理,二是合理但不合法,并提出了救助机制。徐波和廖晨琪(2022)围绕审计自由裁量权的滥用行为,讨论了自由裁量权与审计质量之间的辩证关系,分析了规范审计自由裁量权制度体系的着力点,并且提出了一些应对措施,以期为构建完善的审计自由裁量权制度体系提供参考。
(二)智能审计相关研究
人工智能技术在过去几年取得了令人瞩目的发展,不断推动着各行各业的变革与进步。大模型是人工智能领域的一个重要分支,具有广泛的应用场景,能够为不同行业赋能,助力行业发展。在法律推理领域,大模型具备案例分析、法律问答与审判辅助等实践能力。其通过自动化处理大量法律文书和案例,帮助法律从业者更快地找到相关信息,更准确地分析案件,从而提高工作效率和服务质量。部分工作的自动化处理能够减少从业人员的工作量,从而降低法律服务成本(张舟和刘文清,2024)。在金融领域,大模型通过先进的自然语言处理技术和机器学习技术,为金融行业带来多样化的能力,从对股票价格的预测到高级金融分析,这些趋势正在不断推动金融科技的发展(Xie等,2023)。同样,大模型也可以为审计行业提供创新性的解决方案(Huang等,2023)。
在智能审计理论研究探索方面,学者们阐述了智慧审计的概念,并提出了一系列智能化解决方案。在智能审计理论发展方面,杨道广等(2022)基于审计工作的系统性与复杂性以及数智技术应用的广泛性与交互性,提出了能够概括数智技术应用于审计的本质逻辑与核心思维的新概念——智慧审计。在此基础上,黄佳佳等(2023)提出了面向智慧审计的思维变革,并探讨了如何运用大模型、知识图谱、深度学习等人工智能技术构建审计平台。陈雪嵩(2024)探讨了大模型在企业内部审计中的具体应用以及其未来发展前景。在智能审计实践方面,程平等(2023)构建了基于 ChatGPT 的内部审计框架模型,为生成式人工智能技术在企业内部审计领域的智能化应用提供了参考和借鉴。
(三)文献评述
综上,学者们针对审计判断中存在的挑战,主要从人员培训和机制管理方面提出了相应措施,这对审计人员的专业能力和工作态度提出了更高的要求,其具体实施较为困难。而在审计技术方法方面,尽管近年来有学者探讨了结合人工智能技术特别是大模型技术的智慧审计的发展与应用,但鲜有研究深入探索人工智能技术与审计领域实务的结合。本文将审计判断抽象为一系列大模型学习任务,构建一系列指令数据集,并基于指令数据集微调大模型,同时运用多个指标评估大模型的生成结果,为人工智能技术赋能审计行业提供可靠的实验方案和结果验证。
三、当前审计判断中存在的难题
审计判断是指对审计工作底稿中的潜在问题、异常情况或重要事项进行性质评估,包括对财务报表、业务运作等方面的重要问题进行分析和判断,对照相关定性依据确定问题的性质,根据审计定性的结果参照相应的法规体系进行处理处罚。审计判断的流程如图1所示。
对于输入的审计工作底稿,审计人员首先需要进行问题总结或问题分类; 其次,针对该问题检索恰当的企业内部或国家级制度文件、法律法规作为定性依据; 最后,若对该问题的定性参考的是某条法律条款(如《税收征收管理法》第六十三条),则可能存在对应的罚则条款作为处罚依据(如《税收征收管理法》第六十三条)。若是将该流程智能化,则期望智能系统能够自动输出审计问题的总结短语、相关定性依据及处理处罚依据。
由此可见,审计判断是一项复杂且具有一定主观性的评估活动。审计人员在实践中进行审计判断时面临着一些挑战,主要包括审计定性不准确、定性依据引用存在困难、依法审计定性的规则悖反及处理处罚中自由裁量权的使用不当等。这些挑战的存在不仅影响了审计判断的质量和效率,还可能对审计结果的公正性和透明度造成影响。
(一)审计定性不准确
由于定性标准尺度不一,不同人员对相同问题的定性可能差别较大,同一人员对不同问题的定性没有统一标准,导致处理处罚上大相径庭,有的甚至歪曲定性(班凤欣,2010); 审计人员有时只看表面现象,没有触及事项本质(张乐玲,2018),这样的定性结果无法清晰准确地表述问题,也有可能与真实情况相偏离。例如,针对图1审计工作底稿中“某个商业公司的业主为了逃避纳税……”的问题,审计人员可能没有正确定性为“偷逃税款”,而是定性为其他问题,比如“不规范的账务处理”。对于定性不准确的问题,一般要求审计人员收集适当充分的审计证据(班凤欣,2010)、以审计证据所表现的事实为依据进行定性、规范定性在报告中的表述模式(张乐玲,2018)。这对审计人员的工作态度和工作质量提出了更高的要求。
(二)定性依据引用存在困难
由于非结构化的法规文件种类繁多、内容繁琐,审计人员在对照问题寻找相应审计依据或处罚依据的过程中,需要逐行逐段地阅读大量文件,时间成本较高。并且,审计人员还有可能会引用废止或失效的规定(张乐玲,2018)。此外,问题的定性依据不唯一。例如,针对“少(多)计收入(或者隐瞒、虚列收入)”的问题,《会计法》第二十四条及《企业会计准则第14号——收入》第二章均作出了相应的规定。对于定性依据引用存在的问题,一般要求审计人员加强相关法律法规的学习,关注各种法律法规的颁布和更新,拓展自身知识面(班凤欣,2010;张乐玲,2018)。
(三)依法审计定性的规则悖反
严格应用法律法规进行问题定性可能会出现两类规则悖反的情形: 一是合法但不合理,二是合理但不合法(郑石桥和朱霁,2017)。例如,某员工利用公司宽泛的报销政策,以“提高家庭办公环境水平”为由购买家居装饰品进行报销。虽然合法,但从商业道德和资源管理的角度来看,这种行为属于假公济私,违背了报销本意和公司的资源管理原则。有学者提出了规则悖反的救助机制,即: 对于合法但不合理的情形,实行目的性扩张(郑石桥和朱霁,2017),在维护合法性的前提下,采用法律漏洞补充方法进行补充,以促进其合理性水平的提升; 对于合理但不合法的情形,实施目的性限缩(郑石桥和朱霁,2017),在确保合理性的基础上,通过合法的方式对规则进行限制,以达到合法性目的。但这要求审计人员在法学知识、伦理责任和专业技能方面具备极高的素养。
(四)处理处罚中自由裁量权使用不当
由于审计系统对于自由裁量权的使用没有明细的规范(班凤欣,2010),审计人员一般根据自己的经验进行处罚,如果对自由裁量权没有正确的认知,就不能真正发挥自由裁量的作用,从而导致自由裁量权的滥用。例如,《税收征收管理法》第六十三条规定“对纳税人偷税的,由税务机关追缴其不缴或者少缴的税款、滞纳金,并处不缴或者少缴的税款百分之五十以上五倍以下的罚款”。税务机关在确定处罚金额时,对纳税人处不缴或者少缴的税款百分之五十或者五倍的罚款均符合规定,但这两种罚款金额存在一定差距。有专家提出循序渐进地构建审计自由裁量权体系制度(徐波和廖晨琪,2022),但这会进一步增加制度的复杂性,也需要耗费较多的时间和资源。
四、大模型在审计判断中的应用设计
(一)大模型技术概述
大模型的发展可以概括为三个阶段: 基础模型阶段(2018~2021年)、能力探索阶段(2019~2022年)和突破发展阶段(2022年至今)(Zhao等,2023)。2020年,由OpenAI发布的包含千亿参数的生成式大模型GPT-3.0开启了大模型时代。2022年11月30日,OpenAI发布了对话式大模型 (Chat Generative Pre-trained Transformer,ChatGPT)。该模型允许用户使用自然语言对话形式进行交互,可实现包括自动问答、文本分类、自动文摘、聊天对话等各类自然语言理解和自然语言生成任务。这也引发了学术界和工业界对大模型的研究。
与传统人工智能技术相比,大模型表现出如下优越性:
1. 大模型具有较为丰富的世界知识。以BERT(Devlin等,2018)为代表的预训练语言模型由于模型参数规模与数据规模都相对较小,无法充分建模以及利用世界知识信息,需要以微调为主要手段来解决下游任务。而大模型在经过超大规模的数据预训练后可以学习到较为丰富的世界知识(Bubeck等,2023)。
2. 大模型具有较强的通用任务解决能力。大模型主要通过预测下一个词元的预训练任务进行学习,虽然并没有针对特定的下游任务进行优化,但能够建立远强于传统模型的通用任务求解能力,这也深刻影响了很多研究领域的科研范式。例如,自然语言处理领域的传统任务(如摘要、翻译等)都可以采用基于大模型的提示学习方法进行解释,而且能够获得较好的任务效果,早期任务特定的解决方案已经被逐步替代。
3. 大模型具有较强的复杂任务推理能力。除了具有通用性,大模型在复杂任务中还展现出较强的推理能力。例如,大模型能够回答知识关系复杂的推理问题,还可以解决涉及复杂推理过程的数学题目。在这些任务中,传统方法的性能相对较差,而大模型在经过大规模文本数据预训练后,能够展现出比传统模型更强的综合推理能力。
4. 大模型具有较强的人类指令遵循能力。大模型建立了自然语言形式的统一任务解决模式,即任务输入与执行结果均通过自然语言进行表达。通过预训练与指令微调两个阶段的学习,大模型具备了较好的人类指令遵循能力,能够根据自然语言描述下达的任务指令直接给出结果,这对于打造以人为中心的应用服务(如智能音箱、信息助手等)具有重要意义。除了以上主要的能力,当前大模型还展现出长程对话的语义一致性、较好的人类对齐能力、对于新任务的快速适配等重要优势。
随着大模型技术的迅猛发展,人工智能相关研究领域正发生着重要的技术变革,同时也对产业应用带来变革性影响,催生出基于大模型的应用生态系统,更多以大模型为基础技术架构的科技应用产品逐渐被开发出来,进而简化了原来复杂的工作处理流程,提高了工作的质量和效率。
(二)大模型在审计判断中的智能推荐框架构建
在法律领域有两种经典的推理路径: 一是规则推理路径; 二是案例推理路径(张舟和刘文清,2024)。其中,规则推理路径是基于现有的法律法规通过逻辑推理分析案件,案例推理路径是依据先前的判例和裁决来决定新的案件。这两种路径在法律推荐中各有优势和限制,再考虑到人为判断的影响,想要得出一个公正合理的推理结果具有一定的挑战性。在人工智能背景下,大模型可以更好地将两种推理路径结合在一起,以事实为依据、以法律为准绳,通过审计法规并结合案例进行分析,从而达到审计判断更恰当的效果。
本文提出的审计依据推荐思路是从审计工作底稿和审计依据同时出发,一方面根据审计工作底稿进行问题总结,另一方面对审计依据所描述的问题进行总结,基于相似的短语描述实现审计问题与审计依据之间的匹配,相似度越高,则该审计依据被推荐的概率越大,进而辅助审计人员进行审计判断。通过对审计判断领域知识的学习,大模型可以识别出审计工作底稿中的问题,并进行相关依据的推荐生成。审计判断大模型的能力展示如图2所示。
在法规推荐方面,审计判断大模型经过微调步骤掌握了全面、崭新的法律法规体系,自动化的法规推荐过程大大简化了审计人员的工作流程,使其能够更好地应对复杂的法律环境和审计挑战,为审计人员提供了省时省力的解决方案,提高了工作效率,保障了审计工作的准确性和合规性。
在审计判断方面,审计判断大模型不仅能根据审计问题简单地进行法规推荐,还会综合考虑法律法规、管理制度、绩效等多方面因素,并从伦理、道德规范、道德原则等多个角度进行全面评估。对于审计中出现的规则悖反情况,审计判断大模型会对其合理性和合法性两个指标同时进行分析,给出相关的定性依据以及判断标准。
在处理处罚方面,审计判断大模型在识别潜在的违规行为和异常时,能够把握一些关键细节,例如审计问题“挪用资金”的具体情况可能包括金额大小、挪用时间长短等。在判断违规行为的轻重时,审计判断大模型会基于这些因素,不受个人情感、偏见或压力的影响去评估问题的严重性,提供客观、基于证据的处理处罚意见,这确保了处理处罚的一致性,减少了主观因素对自由裁量权使用所带来的影响。
(三)大模型在审计判断中的任务构成
本文基于审计判断的实际应用场景,结合大模型微调学习的本质特征,抽象出各类型大模型微调任务,包括审计概念理解、审计定性和审计法规推荐。
1. 审计概念理解。该任务侧重于让模型理解审计的基础概念、工作流程等,包括: ①审计概念问答。这类问答的内容丰富、类型众多,涉及审计基础概念、审计工作流程等。②审计知识三元组。该任务基于黄佳佳等(2022)发表的《大数据驱动的审计知识库建设与应用》一文,从中抽取不同类型的审计知识图谱三元组(实体1,关系,实体2)构建微调数据集,使模型能够更好地理解实体之间的关系,如表1所示。
2. 审计定性。该任务侧重于从审计案例或法律法规中识别审计问题,并对问题进行总结和分类。
(1)审计问题总结,即对审计案例描述进行深入分析并用一段或一句话总结其中存在的审计问题。
(2)审计问题分类,即判断审计问题属于哪类审计项目,该任务涉及的项目类型及若干相关案例如表2所示。
(3)审计问题表现,即对文中所涉及的审计问题进行分析,回答该审计问题有哪些表现形式,例如“私设小金库”的表现形式为“在本单位财务会计部门账外或未纳入预算管理私存私放资金”。
(4)审计类型判断,即根据审计案例描述进行分析,判断该审计案例属于哪个类型的审计项目。
3. 审计法规推荐。该任务侧重于根据审计问题表现进行审计定性及处理处罚的法规推荐。
(1)审计依据生成,即对文中所描述的审计问题、该问题的表现形式或者审计案例描述进行分析,回答该审计问题可以依据哪些法律法规进行定性或处罚,如表3所示。
(2)审计法规分类,即判断法律法规名称(如《增值税一般纳税人登记管理办法》)属于哪个领域。本文构建的法规类别包括金融、会计、财经等10个国家审计涉及的常见类别。
(3)审计法规问答,即以内部审计指南、会计法规、企业管理条例等法律法规的内容为基础,通过GPT-4.0(Achiam等,2023)构建问答对,并筛选出高质量的问答对构成该指令数据。
五、大模型在审计判断中的应用: 实验研究与性能评估
(一)数据集收集与整理
基于抽象的审计判断任务,进一步为每个任务构造审计判断大模型指令调优数据集。其中,一些优质的审计案例来源于各类型审计实务与经典案例书籍,审计定性依据及处罚依据来源于《中央部门预算执行审计常用定性表述及适用法规向导(2023年版)》系列书籍。此外,还运用爬虫技术从互联网上获取大量法律法规条款内容,涉及国家级、企业级等层级。在此基础上,将收集到的数据整理成结构化数据。
(二)基于大规模微调任务构建指令集
根据任务需求构造相关的指令微调数据集,其中,针对法律法规类原始文本,本文使用GPT-4.0生成关于法律法规的提问和相应答案(Wang 等,2023)。为此,首先运用网络爬虫获得大规模法律法规文本,并将其转换为结构化三元组形式(法规名,条款号,条款内容); 其次,针对每条输入的法规三元组构建提示词并调用GPT-4.0生成问答对,在此过程中,不断优化提示词的写法以提高GPT-4.0生成问答对的质量; 最后,运用ROUGE-L、BERT等相似度指标评估生成的问答对与原始三元组之间的相似性,并过滤掉与原始法规内容相似度较低的问答对。通过上述步骤,最终可得到一份高质量的审计法规问答的指令数据。其中,提示词写法如图3所示。
针对其他各类型任务,通过人工构建prompt方式将原始语料转换为指令数据,指令数据示例如图4所示。
“id”字段表示当前任务类型与数据序号; “conversations”字段表示训练内容,包含问题和对应的答案。在这一对话中,用户发出了一条消息“请问什么是审计”,然后模型回答“审计是指由专设机关依照法律对国家各级政府及金融机构、企业事业组织的重大项目和财务收支进行事前和事后的审查的独立性经济监督活动”。本文参考上述格式构建审计判断大模型微调与评估的指令集,并依据7∶2∶1的比例划分训练集、验证集、测试集。统计数据量如表4所示。
(三)大模型选择和微调
在大模型选择方面,开源的基础语言模型Qwen系列使用了多达3万亿个不同文本和代码的令牌,涵盖了广泛的领域。这些模型在众多下游任务中一直表现出卓越的性能,即使与更大参数规模的模型相比也是如此。开源的7B参数基础预训练模型Qwen-7B-Chat旨在为开发者和应用程序提供更全面、更强大的大模型(Bai 等,2023)。
此外,本文在前期工作中通过构建审计领域的评测指令数据集评估了国内外主流开源大模型在审计指令数据集上的性能表现,包括Llama-2系列、ChatGLM3-6B、Baichuan-7B、Qwen-7B、GPT-3.5和GPT-4.0。从所有任务的综合评价结果来看,不同模型在不同任务上的表现各有千秋,但Qwen-7B针对审计领域的中文命名实体识别和关系分类表现最好,适用于审计问题定性的应用场景,如从审计工作底稿或法律法规中抽取审计问题短语。因此,本文最终选择开源的基础语言模型Qwen-7B-Chat作为微调模型。
在大模型微调方面,微调数据集由表4中的训练集和验证集组成,本文基于AdamW优化器(Loshchilov和Hutter,2019)对Qwen-7B-Chat进行了5次迭代的微调。批量大小设置为8,初始学习率为3e-4,学习率调度器类型选择为余弦,步长为0.01,输入文本的最大长度为2048。在显存为48GB的A40 GPU上进行LoRA(Hu等,2021)微调,历时50小时完成大模型微调。
(四)实验结果与评估
本文基于构建的大模型测试集评估Qwen-7B-Chat以及微调过的大模型,即Qwen-7B-Chat_FineTuning。选择 BERT Score(F1)(Zhang等,2020)和BART Score(Yuan 等,2021)作为文本相似度的度量指标,该指标通过计算两个句子向量编码的余弦相似度来评估预测答案与标准答案之间的相似性,预测答案与标准答案之间的相似度越高,该数值越大。此外,对答案准确度要求较高的任务采用ROUGE(Lin,2004)指标进行评估,该指标能够从标准答案与预测答案的重复度和精准性角度评估大模型生成答案的质量。测评结果如表5所示。
从表5中可以看出,经过微调,各项任务的答案质量均有较大幅度的提升,微调后的大模型对审计任务的理解更加准确,生成的答案质量更高。就审计判断任务而言,微调后的大模型对问题定性的总结更加精准,进而生成的推荐法规更加符合该审计问题的实际情况,大模型与审计领域任务的适配问题得到了有效缓解。
审计问题总结和审计依据生成任务的具体推理结果如图5所示,未微调大模型生成的内容中提到“《中华人民共和国会计法》第八十二条”,实际上《会计法》(2017年修正)一共只有五十二条内容,内容中提到的“挪用公款与职务侵占”等问题与实际审计问题“登记账簿不符合规定”并不相符。而经过微调的大模型在法规推荐上的准确度更高,生成答案与标准答案之间的相似度近乎100%。
六、基于大模型的审计判断智能系统构建探索
大模型技术的持续发展使其在审计判断实务中具有广阔的应用前景。例如,基于微调后的审计判断大模型可结合检索增强生成(Retrieval-Augmented Generation,RAG)(Chen等,2024)搭建审计判断智能系统,实现审计问题抽取/总结、审计法规推荐。该系统旨在提高审计法规推荐的准确性,同时通过结合RAG技术从法规库中检索出最恰当的真实法规,从而消除大模型在法规推荐方面存在的幻觉问题(Leiser等,2024)。该系统的构建和应用流程如图6所示。
首先,构建大规模审计相关法规知识库。该法规知识库针对收集和整理的法规三元组(法规名,条款号,条款内容),利用嵌入向量表示模型将法规三元组转换为高维稠密的语义向量,同时利用大模型对其进行关键词抽取并构建索引。
其次,在系统应用阶段,大模型针对审计人员输入的审计判断相关问题进行解读和分析,并生成“伪法规”结果。该“伪法规”存在一定程度的幻觉问题,即该“伪法规”并非真实存在的法规条款,但其语义与某个真实的法规条款具有较高相似度。因此,可利用该“伪法规”对法规知识库进行检索,以获取匹配度最高的若干真实法规作为审计判断的推荐结果。相比通用大模型,该系统推荐的法规条款更合理。
因此,在实践中,上述结合微调大模型与RAG技术的法规推荐系统可有效解决审计判断中存在的审计定性不准确和定性依据引用存在困难这两类难题,也能在一定程度上限制处理处罚中自由裁量权的使用。
七、总结
本文创新性地提出了一种基于大模型的审计判断智能化方案,专注于解决审计判断过程中所面临的困难。通过理论设计与实验研究,探索了相应审计法规体系构建框架,并成功构建了基于大模型的审计依据智能推荐框架。
在理论研究层面,本文将审计判断抽象为一系列大模型学习任务,并构建了一套审计判断相关的指令数据集。在实践层面,本文基于审计判断指令数据集微调大模型,并运用多个指标评估其生成结果,为人工智能技术赋能审计行业提供了坚实的实验方案和结果验证。在应用层面,本文面向审计判断的大模型构建了一套审计法规体系智能解决方案,该方案能够深入分析审计案例文本,协助审计人员进行审计判断,从而有效解决在审计判断过程中出现的审计定性不准确和定性依据引用存在困难等挑战,进而提高审计人员的工作效率,有效保障审计工作的准确性和合规性。在整体层面,本文设计的方案在审计实践中以“人主机辅”的形式进行审计判断,大模型作为辅助工具完成审计问题的识别、总结与分类以及审计依据的推荐等任务,而审计人员基于大模型的推荐结果进行审计判断。
在未来的工作中,我们将进一步完善和丰富审计判断方面的知识结构及内容。目前,我们将继续专注于深入探索审计判断过程中所面临的困难,继续扩充审计法规内容,并增加更多不同类型的审计案例,以提高推荐的准确性和多样性。此外,我们计划基于各类知识和任务构建更丰富的大模型微调指令数据,以更全面地训练审计判断大模型,推动人工智能技术在审计行业中的应用。
【基金项目】国家自然科学基金面上项目“面向国家审计的大模型训练与知识增强研究”(项目编号:62472227);江苏省高校自然科学研究面上项目“面向审计效能提升的领域知识图谱构建关键技术研究”(项目编号:23KJB520015)
【作者单位】南京审计大学计算机学院,南京 211815
DOI:10.19641/j.cnki.42-1290/f.2025.06.003
班凤欣.审计定性和处理处罚中存在的问题及其规范[J].审计月刊,2010(12):24~25.
车万翔,窦志成,冯岩松等.大模型时代的自然语言处理:挑战、机遇与发展[J].中国科学:信息科学,2023(9):1645~1687.
陈雪嵩.大语言模型在企业内部审计中的应用研究[J].会计之友,2024(11):23~29.
程平,喻畅,龚悦.基于ChatGPT的智能内部审计研究[J].会计之友,2023(20):7~12.
黄佳佳,李鹏伟,徐超.大数据驱动的审计知识库建设与应用[J].财会月刊,2022(3):101~107.
黄佳佳,李鹏伟,徐超.面向智慧审计的思维变革与审计平台构建研究[J].审计研究,2023(5):11~20.
徐波,廖晨琪.论自由裁量权与审计质量[J].安阳工学院学报,2022(5):63~65.
杨道广,陈波,陈汉文.智慧审计研究:理论前沿、实务进展与基本结论[J].财会月刊,2022(11):15~31.
于凌云,吴建新.审计判断偏误及其应对策略分析[J].会计之友,2012(29):102~104.
张乐玲.审计定性存在的问题及规范路径[J].审计月刊,2018(2):26~27.
张舟,刘文清.人工智能背景下法律推理模型建立探究[J].南方论刊,2024(1):70~72.
郑石桥,朱霁.依法审计定性、规则悖反与救助机制——兼论新常态下的依法审计定性[J].南京审计大学学报,2017(5):70~77.
【 主 要 参 考 文 献 】
(责任编辑·校对: 陈晶" 喻晨)