人机结合的智能情报分析系统设计与实现

known 发布于 2025-08-25 阅读(416)

摘" 要:文章首先对情报分析方法与人工智能的融合方式进行辨析,然后以AI赋能、人在回路的情报分析过程作为主导设计思想对智能情报分析系统进行整体功能架构及数据架构设计,同时为了降低使用门槛,提升数据分析结果的可解释性和准确性,提出了大语言模型与知识图谱的组合架构,并开发了人机结合的智能情报分析系统。该平台具备便于集成机器学习算法的架构,采用面向非技术用户的自然语言交互接口,使依赖人类智能的情报分析方法与依赖人工智能的大数据分析方法有机结合,极大地增强了分析人员的数据融合分析能力。

关键词:情报分析;数据融合分析;大语言模型;知识图谱;可视化分析工具

中图分类号:TP311" " 文献标识码:A" 文章编号:2096-4706(2024)11-0069-07

Design and Implementation of an Intelligent Human-Machine Intelligence Analysis System

DING Hongxin1,2, WANG Rong1,2, ZHOU Wei1,2, CAO Yang1,2, ZHI Ting1,2, DONG Houze1,2

(1.CETC Big Data Research Institute Co., Ltd., Guiyang" 550022, China; 2.National Engineering Research Center of Big Data Application to the Improvement of Governance Capacity, Guiyang" 550022, China)

Abstract: This paper first analyzes the integration of intelligence analysis methods and artificial intelligence, and then takes AI empowerment and human in the loop intelligence analysis process as the main design concept to design the overall functional architecture and data architecture of the intelligent intelligence analysis system. At the same time, in order to reduce the threshold for use, improve the interpretability and accuracy of data analysis results, a combination architecture of large language models and Knowledge Graphs is proposed, and an intelligent human-machine intelligence analysis system is developed. This platform has an architecture that facilitates the integration of machine learning algorithms. It adopts a natural language interaction interface for non-technical users, which organically combines intelligence analysis methods that rely on human intelligence with big data analysis methods that rely on artificial intelligence, greatly enhancing the data fusion analysis ability of analysts.

Keywords: intelligence analysis; data fusion analysis; large language model; Knowledge Graph; visual analysis tool

0" 引" 言

情报分析系统是以任务为导向的,它通过整合不同的技术来执行特定的情报分析任务,选择技术实现方法的种类和数量是根据研究对象和目标的任务需求来确定的[1]。一个情报机构的能力和效率可能并不是由其实体结构的大小决定的,而更多地取决于与其关联的人工智能或软件定义的情报机构的规模和水平。这些智能化部分代表了情报机构的智能水平,决定了该机构在应对不确定性、多样性和复杂性方面的聚焦和收敛能力。在信息爆炸的今天,情报的定义已经并不局限于“收集具有军事或政治价值的信息”,竞争情报系统被企业应用于信息的采集、处理和分析,为企业提供决策支持,以提高企业竞争力。所以,在海量数据急剧增长而存储介质愈发廉价,大量多源异构数据,比如文本、音频、图谱、视频、网络日志、地址位置信息以及模拟信号等数据被大量存储下来的今天,科学研究、国家发展与企业运营想要在激烈的竞争下取得先机,就必须充分利用好这些数据中隐藏的信息和洞见[2]。

但是想要从海量的多源异构数据中抽取关键信息并寻找亿万实体间的关联关系,在有限时间内仅靠人力几不可为。例如传统的视频分析任务,分析人员可能需要持续观察几小时、几十个小时甚至更长时间的视频文件以寻找有用线索,费时费力。如果利用针对特定场景识别的机器视觉模型,则可以自动抽取关键帧或片段供情报人员进行分析,这将大大缩减分析时间,完成效率上的飞跃。再比如近来以OpenAI的GPT系列模型为代表的大语言模型表现出惊人的能力,可以轻松对长文本进行摘要总结,提取其中的实体以及关系并直接生成图数据库的插入语句,快速完成从自然语言到知识图谱的转化。

另一方面,情报分析任务导向的性质决定了其情景的复杂性以及随机性,用于分析的数据以及分析活动的各个环节是随着任务场景的不同而发生变化的[3],所以很难通过几个通用的知识库或是零散的通用分析工具来帮助分析人员高效地完成分析任务。分析人员需要的是一种一体化的系统性解决方案,能帮助其应对海量的多源异构数据处理,适应跨领域的任务场景。

1" 情报分析与人工智能的融合方式辨析

传统情报分析流程包括确定分析目标、搜集数据、分析与处理、结果解析、报告撰写等过程。分析人员通过特定的调查方法和其他科学手段检索和鉴定相关的数据、信息和情报,然后对这些资料进行加工整理和分析,之后撰写情报报告并向用户提供[4]。

那么,开发一套“全自动”的情报分析系统,或是训练一个“万金油”大模型,是否可行?英国莱斯特大学的Phythian教授在2008年10月作了题为“情报分析的今天和明天”的报告指出:确保分析工具为分析服务,而不是成为分析师的主宰[5]。美国情报分析之父谢尔曼·肯特所说:“无论所要破解的难题如何复杂,也无论在搜集和存储所需信息时可能使用的技术多么复杂,有思想的人在情报机构中的最高地位永远都无法替代[6]。”确定方向、提出问题需要对所分析的问题进行多维度的深入理解,重度依赖分析人员的经验、智慧甚至直觉,完全依赖机器学习模型或是固定流程的“全自动”分析工具也是一种本末倒置的路线。一是因为机器学习模型的训练依赖于特定的数据集及参数调试,即使是强如GPT这样的大语言模型,在处理特定领域场景的任务时,也需要利用领域知识库对基础模型进行微调或二次训练才能获得更好的效果。更何况复杂的情报分析过程往往需要综合利用图像识别、语音识别等不同种类的多模态模型,目前能胜任所有任务的“全自动”模型尚不成熟。二是情报分析应以问题为导向,即最重要的不是数据,而是问题。而问题的提出、启发式线索发现以及数据收集过程往往依赖于分析人员的专业知识以及经验智慧,流水线式的“自动化流程”往往不具备实用价值,过于追求自动化的系统反而会因为让分析人员觉得束手束脚而被抛弃不用。所以分析工具的设计逻辑应该是作为专业人员的“外骨骼”,提供强有力的辅助,而不是取而代之[7]。

这里用一个例子来说明AI赋能、人在回路的情报分析过程,如图1所示。分析人员正在执行一起因为汽车事故而发现可疑人员,并以此为起点分析其他团伙成员组成的数据分析任务,整个分析过程有三个关键节点。一是以问题为导向的数据搜集。首先是确定分析目标,此时主要的挑战不是技术问题,而是方向和组织领导的问题[8]。情报分析人员根据任务情景采取各种调查方法进行数据搜集,这些数据可能是来自信息系统的结构化数据,比如业务系统、数据仓库的数据库表,也可能是来自非结构化文件,比如纸质卷宗、电子文本文档、场所监控视频、录音文件等。这个过程中涉及大量的实地调查工作以及纸质卷宗的整理工作,机器无法完全代劳。但是另一方面,借助AI技术将收集到的材料电子化、格式化,并自动提取其中的关键信息,对于提升效率来说又是至关重要的。二是实体及关系的定义。分析情景中所涉及的客观世界的实体及实体间的关系,比如人员、车辆、单位、设施、卷宗文件、视频文件是客观实体,这些实体之间诸如隶属、就职、包含等关系,是实体间的关系。本文中对实体及关系的定义是指将当前待分析数据集映射到客观世界模型(比如CIEM,国家信息交换模型)的过程。这一步非常重要,是后续数据图谱化以及做图分析的基础[9],也是用AI模型(比如大语言模型)进行实体及关系抽取的上下文信息。由于特定场景下数据的多源异构特性,这一步也很难通过某种单一的通用算法来自动完成。三是以问题为导向的分析挖掘。在完成了数据搜集、实体及关系的定义并已经将数据图谱化完毕后,需要分析人员根据实际情景设计情报分析路径,比如制定搜索条件找到关键实体作为切入点,再从通过各种图算法、AI算法的调用,对图谱进行深度分析挖掘并从非结构化实体中抽取出更多的实体和关系,最终输出有价值的情报[10]。

综上所述,情报分析的开展需要由分析人员来主导,人工智能可以为情报分析的关键节点进行赋能。两者的融合需要一种操作自由度较高、技术门槛较低的系统来进行支撑,能较好地嵌入情报分析流程,在给予情报分析人员充分自由度的同时,还能充分发挥人工智能的作用[11]。

2" 架构设计

2.1" 功能架构

智能情报分析系统由基础设施及四大功能模块组成:快速建图、智能检索、智能沙盘以及智能插件,如图2所示。

快速建图模块是用于管理多源异构数据的导入,并提供以拖拽动作为主的可视化面板,用户可以快速导入数据对象并为其建立关系,并以一键入图的方式将数据导入图数据库,供后续分析。用户可以通过该模块进行快速试验,随时修改已经形成的Schema、引入新数据,可重复进行数据入图操作。用户还可以为数据对象打上特定标签,为后续的分类统计分析及智能搜索提供便利。

智能检索是提供灵活的可配置搜索条件以及强大的模糊搜索支持。系统自动提取已导入的数据对象属性作为候选搜索条件,用户只需简单勾选即可完成配置。智能检索模块对搜索结果进行数据统计以提供情况概览,用户可以选择全部或部分搜索结果进入智能沙盘开展进一步的扩展分析。

智能沙盘是智能情报分析系统的核心操作界面,用户将在这个模块完成大部分的数据分析过程,包括如下三种分析模式:图探索分析、直方分析以及可视化分析。图探索分析依托图数据库的能力,支持基于某个数据对象的关系扩展、图算法分析以及为用户提供自定义图谱查询等功能。直方分析针对智能沙盘面板上的分析对象进行多维的统计及展示,并依托统计结果提供便捷的下钻范围反选功能,在分析对象过大时为用户提供快速掌握全局的能力。可视化分析主要是基于GIS可视化、遥感图像分析、报表可视化以及智能报告生成的能力,为用户提供直观的分析环境,并为多人协作、辅助领导决策提供生产资料。

智能插件模块是实现多源异构数据解析应用的核心底座,通过该模块可以引入诸如实体抽取、材料识别、图像识别等各个领域的模型算法对文本、图像等非结构化数据进行解析,并将模型输出结构放回智能沙盘进行扩展分析。同时支持数据智能导出,为机器学习工具平台提供训练数据支撑,形成模型训练、结果反馈、投入应用、优化模型的闭环。通过智能插件模块,可以形成围绕数据融合分析的智能应用生态,用于整合科研课题或者科研机构、实验室形成的算法能力,使得平台能力可以不断生长。

2.2" 数据架构

融合分析平台的数据架构图如图3所示。进入融合分析平台的数据源主要有四类:数据平台、应用领域业务系统、第三方数据源以及手工插入数据。这些多源异构数据通过快速建图模块生成原始数据对象,并导入至图数据库中,同时用户可以管理数据对象的标签和图空间Schema。需要指出的是图数据库中仅用于存放数据对象的ID、属性及关系,对于与之关联的大量时序数据、半结构化数据则存储在时序数据库及其他数据存储介质中。例如,物联网传感器的元数据信息(ID、名称、位置等)可以作为数据对象引入图数据库中,而其关联产生的大量时序传感数据则存放在时序数据库中,两者通过ID、链接地址等方式进行关联。已经进入图空间的数据对象可以通过智能检索模块进行检索,并自动对搜索结果进行统计展示。

用户将搜索结果引入智能沙盘后可以开展一系列数据融合分析操作。依托图数据库的计算能力,用户可以进行关系扩展查询、自定义查询以及图算法分析等操作;对于已经引入智能沙盘的数据对象,系统自动对数据对象及其属性进行分组统计,并以直方图的形式进行展示,用户可以通过直接点选直方图对智能沙盘的对象进行批量选择;通过可视化分析模块,用户还可以切换GIS模式,并一键式生成智能报告。智能沙盘的分析结果可直接用于支持智慧城市运营管理、公安政法案件调查、国安案件调查以及BHF场景等,辅助工作、办案人员开展数据分析工作。

智能插件模块是融合分析系统的AI能力底座,用户可扩展多种AI算法对非结构化的数据对象进行内容解析。实体抽取类模型的返回结果可以直接导入至智能沙盘进行扩展分析,并支持将实体抽取结果导入图空间,对图谱进行节点补充。智能插件模块的输出也能直接服务于业务应用场景,包括对AI模型训练平台的训练数据输出等。

2.3" 大语言模型与知识图谱组合架构

大语言模型通过训练数据学习了大量的文本知识,其在一些通用任务上对于问题的理解,包括错字、语法的问题的理解,鲁棒性远远强于传统基于KG的问答系统[12]。同时大语言模型可以理解上下文,生成连贯的回应,非常适用于面向非技术用户的自然语言交互接口。但是在模型的可解释性、生成内容的准确性、信息检索的精确性方面,大语言模型暂时还不能替代知识图谱,这是大型人工智能算法所固有的算法黑箱、算法缺陷、算法操控等风险决定的[13]。而在当前的大数据发展趋势下,如何实现分析结果的可解释从而提升其可用性,是当前大数据分析面临的主要挑战[14]。

基于上述分析,本文设计了如图4所示的大模型与知识图谱的组合架构。该架构下大模型充当人机交互的自然语言解释器、自然语言到图数据库或数据湖查询语言(例如Cypher、SQL)的翻译器以及自然语言到操作指令的转换器。而基于图数据存储的知识图谱则用于领域知识库的精确检索及可解释推理路径生成,并支持实时的数据增删改操作。基于大模型的自然语言交互界面一方面发挥大模型的广泛知识覆盖以及语义理解和处理能力,另一方面利用大模型的代码或操作指令生成能力降低图数据库、数据湖等工具的操作门槛。基于图数据存储的知识图谱一方面可以指导大语言模型的训练过程,以提高生成内容的准确性和可信度;另一方面在大语言模型无法提供准确答案时,可以对知识图谱进行实时检索以获取确切的信息。在知识需要快速更新变化的领域,基于知识图谱的知识库能具备更经济的快速更新能力,而无须频繁对大模型进行昂贵的重新训练。

3" 平台实现

3.1" 一键入图

如图5所示数据分析人员从界面左侧数据源列表中,将数据实体拖拽到画板生成数据对象;通过鼠标连接字段的方式进行实体关系配置操作;点击连接线上的气泡可弹出关系属性编辑框,用户可以编辑关系的名称及其属性。

完成对象及关系生成以及对象标签管理后,用户可点击“数据加载”按钮将数据对象及其关系导入图数据库中。该功能在后台根据用户配置实体及关系信息,将数据自动预处理为图数据库规定的数据格式,并执行导入任务。

3.2" 智能检索

搜索条件支持模糊查询:1)部分信息搜索,用“*”表示任意长度的缺失字符,例如输入Sam*,可以匹配Sam、Samuel、Samantha或任何以“Sam”开头的字符串;2)日期类型支持范围搜索;3)关键词查询,用引号(“”)框定匹配的关键词,用“AND”连接必须全部匹配的关键词组,用“OR”连接必须至少匹配一项的关键词组。

用户可以在搜索结果列表复选框中进行勾选,点击“导入”按钮后,被勾选的对象将进入智能沙盘面板中供用户进行探索分析。智能检索及智能沙盘界面如图6所示。

3.3" 实体合并

图7为实体合并功能示意,实体合并功能允许用户在多个选定的实体之间进行合并操作,以减少数据中的重复信息和不一致性。当智能沙盘面板上存在多个人员实体时,系统可以自动检测出具有相同证件号、手机号、地址等属性的实体,并向用户提供合并建议。用户可以选择接受这些建议,同时选中这些实体并执行合并操作。该功能提供了多种属性合并方式,包括默认保留字符串长度较长的属性、用户自定义选择一个属性、字符串拼接合并以及编辑操作。在合并完成后,系统将仅保留一条合并后的实体数据,并删除原有的实体数据。在删除之前系统会自动保存实体合并日志,并备份原始合并前的实体数据。

3.4" 智能插件

视频内容在智能沙盘面板中弹窗显示,并对关键信息进行标记,对于被标记的实体,用户可以右键弹出选项进行实体导入。

对于用户选择进行实体导入的实体,返回结果在智能沙盘面板中展示。例如“打架斗殴”事件实体从名为“DJF”的视频实体中解析得到,其应用了元数据抽取、人脸识别以及人体姿态识别等技术和机器学习模型,将该事件的属性(人员、时间、地点、行为等)抽取并封装为事件实体,最后导入图数据库中在面板上显示,供分析人员进一步操作,如图8所示。

3.5" 地理信息分析

系统还支持GIS分析模式,实体数据进入图数据库形成知识图谱以后,通过GIS引擎将实体在卫星地图上进行展示,如图9所示。随后,通过大模型将地理位置信息转换为图数据库搜索语句,对实体进行基于地理信息的搜索。实体搜索结果同样在卫星地图上展示,并通过遥感图像识别,将地理实体与人员实体进行关联,并隐式地将数据导入图数据库中,以便进行后续分析。

4" 结" 论

本文提出了一种人类智能与人工智能协同的数据融合分析系统,旨在辅助那些具备专业智慧但缺乏技术背景的分析师在面对大规模的多源异构数据时能够充分利用机器学习算法来融合数据与知识,从而挖掘出重要情报。

通过采用知识图谱化、大数据可视化以及机器学习算法等多种方法,我们为用户提供了一个高度自由度的人机交互接口,实现了人与机器的深度协作。这个系统的独特之处在于它不仅能够协助分析人员快速将异构数据转化为知识图谱,还能通过自然语言人机交互界面调用各类图算法,以发现目标实体之间的重要关系与模式。同时,由于其架构的易集成性,分析人员还可以根据任务场景自定义和集成算法工具包,实现低门槛、启发式地调用各种机器学习算法,从非结构化数据中抽取有效信息,扩展实体与关系,实现多维关联与可视化智能分析。

未来,数据融合分析系统会在智能决策支持、实时数据分析、自动化情报分析等方向做更深入的优化和改进,为解决现实世界的复杂问题提供更多有力的工具和方法。

参考文献:

[1] 化柏林,李广建.智能情报分析系统的架构设计与关键技术研究 [J].图书与情报,2017(6):74-83.

[2] 丁波涛.人工智能时代的情报学发展与创新——基于情报交流理论的视角 [J].情报学报,2021,40(3):321-332.

[3] 李品.战略决策制定的情报需求模型 [J].情报杂志,2023,42(3):72-78.

[4] 陈斌,梁春华,邹志鹏,等.情报研究定义的统计研究 [J].情报理论与实践,2019,42(3):20-23+106.

[5] PHYTHIAN M. Intelligence Analysis Today and Tomorrow [J].Security Challenges,2009,5(1):67-83.

[6] 谢尔曼·肯特.战略情报 为美国世界政策服务 [M].北京:金城出版社,2012.

[7] 杨建林,李品.基于情报过程视角辨析情报分析与数据分析的关系 [J].情报理论与实践,2019,42(3):1-6.

[8] 曾忠禄.大数据分析:方向、方法与工具 [J].情报理论与实践,2017,40(1):1-5.

[9] 汪雅君,刘亦卓,臧建国,等.情报分析构件化研究 [J].情报杂志,2022,41(3):47-54.

[10] 邱韵霏,李春旺.智能情报分析模式:数据驱动型与知识驱动型 [J].情报理论与实践,2020,43(2):28-34.

[11] 于洪,何德牛,王国胤,等.大数据智能决策 [J].自动化学报,2020(5):878-896.

[12] OMAR R,MANGUKIYA O,KALNIS P,et al. ChatgpT versus Traditional Question Answering for Knowledge Graphs: Current Status and Future Directions Towards Knowledge Graph Chatbots [J/OL].arXiv:2302.06466 [cs.CL].(2023-02-08).https://arxiv.org/pdf/2302.06466.

[13] 张涛,马海群.智能情报分析中算法风险及其规制研究 [J].图书情报工作,2021,65(12):47-56.

[14] 梅宏,杜小勇,金海,等.大数据技术前瞻 [J].大数据,2023,9(1):1-20.

作者简介:丁洪鑫(1991—),男,布依族,贵州惠水人,工程师,硕士研究生,研究方向:数据挖掘、数据治理等。

收稿日期:2023-10-26

基金项目:国家自然科学项目(U19B2020)

标签:  数据 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor