“大数据+人工智能技术”助力文化馆艺术普及

known 发布于 2025-09-08 阅读(209)

当前,互联网技术快速发展,人民生活水平不断提高,以智能手机为代表的智能终端设备广泛普及,随着各类互联网短视频平台的革新,群众对线上艺术普及提出了更高的要求。然而,承担群众艺术普及工作的文化馆由于经费不足、人才短缺以及服务方式老旧等问题,没有抓住时代的红利。现以“大数据+人工智能技术”为抓手,助力文化馆艺术普及。大数据技术可以全方位收集公众的各种活动信息从而形成海量数据,进而运用相关技术对数据进行多维度分析,从而有的放矢地开展艺术普及工作;人工智能技术用于线上系统的智能化提升。例如,可以运用自然语言处理(NLP)技术实现人机智能交互,让不善于使用智能设备的群众可以完成资源的快速搜索以及人机对话,再使用深度学习技术实现图片识别功能,可以让群众通过拍照扫描的方式获取相关信息。借助上述技术手段,可以精准地为群众提供艺术普及服务,并满足群众个性化需求,从而真正为文化馆艺术普及工作助力。

随着移动互联网技术的快速发展以及人民生活水平的不断提高,以智能手机为代表的智慧终端设备广泛普及,带来了巨大的发展红利。字节跳动、哔哩哔哩等新经济企业先后崛起,凭借短视频模式的创新以及先进技术的研发投入快速占据大量市场份额,并改变了用户上网习惯。同时,也在一定程度上提高了用户的审美、使用需求,在此背景下,过去的艺术普及方式已经不能满足当下的需求。

文化馆是开展群众文化工作、并给群众文娱活动提供场所的机构,其中,群众艺术普及是其主要的职责。然而,在移动互联网快速发展的同时,文化馆的发展却受到阻碍。首先是经费不足,除了少数沿海城市以及经济发达城市外,大部分文化馆都面临该问题。除去日常运转以及群众活动的资金投入,能够用于数字化建设的经费少之又少。其次是科技人才的短缺,在经费不足时更需要专业人才进行全局谋划才能高效使用经费,而互联网公司吸引了大部分科技人才,造成文化馆数字部门技术人才短缺,间接影响了数字经费的使用效率。最后是群众艺术普及方式老旧,根据过往经验安排各种展览、培训活动,事前没有经过科学的数据分析,导致群众参与度不高,造成资源的浪费,并且场馆的线上系统不注重用户体验。例如,查找资料和信息问询是群众最常用的功能,却只能通过键盘文字输入,无法通过图片识别来获取相关信息,从而降低了用户黏性。上述三个因素导致文化馆在群众艺术普及工作上进展缓慢。

为了解决上述问题并让群众艺术普及工作高效地开展,本文以“大数据+人工智能技术”为抓手,其中大数据是人工智能的基础,为智能模型的训练、调优提供了强有力的数据支持,而人工智能又是大数据的导向,为数据存储类型、范围指明了方向,二者紧密结合缺一不可。

大数据在文化馆艺术普及的应用

大数据技术是一系列技术的总称,包括数据采集、数据存储、数据分析处理等技术,并要求数据要具备四个的特性,即大量化﹑多样化﹑快速化、价值化。

艺术普及下大数据的四“V”特性

1.大量化

大量化是基础,没有海量的数据就不能称之为大数据。文化馆在数据收集方面有着先天的便利性,其每年要举办多场线上线下活动,可以通过技术手段轻松获取相关信息数据。以中山市文化馆为例,2021年全年开展了演出116场、展览65场、培训69场、公益讲座12场、非遗活动26场,以及大量的线上数字化体验活动,经过统计,市区线上线下总服务人次达446万,23个镇区的总服务人次达200万,这是一个巨大的数据宝库。

2.多样化

多样化强调数据要包括结构化数据、非结构化数据以及半结构化数据。其中,半结构化数据和非结构化数据包括了图片、文本、音频、报表等。随着技术的发展以及实际业务需要,文化馆已经可以轻松获取该类数据,每场活动都会进行视频的录制和活动照片的拍摄,只要加以整理便可以获取上述信息,之后便可以将这些数据作为OCR图片识别、NLP自然语义分析建模的训练语料。

3.快速化

快速化强调数据的时效性,因为过时的数据不但失去了指导性价值,而且还会对业务的开展造成误导,因此要确保数据的时效性。值得庆幸的是,在科技发达的今天,有多种技术可以保证数据的快速同步获取。其中,应用最为广泛的是Kafka消息队列技术,可以在保证千万级系统并发的同时快速读写数据,有这些技术的支持,便可以在群众参与活动或线上访问时高效地记录相关数据。

4.价值化

价值化强调数据要有甄别地进行获取,因为数据的存储和处理都是有成本的,包括时间成本和经济成本,而系统能够获取海量数据,其中存在着大量无效数据。因此,需要在数据获取前由业务人员和科技人员一起根据当前业务场景以及后续的发展需要进行梳理,从而确定数据获取的范围以及格式。

大数据在文化馆艺术普及的实现路径

1.数据采集

数据的获取途径有两种,分别是互联网数据和内部数据库数据。

互联网数据是指互联网平台上的公开信息。例如,北京市某区文化馆就在网上公布其2021年年报,其中详细阐述了其在2021年的各项服务数据,又如某数字文化馆线上展示的非遗照片等。这些数据包括半结构化数据以及非结构化数据,其可以为后续的图像识别以及自然语义分析提供大量的训练样本。例如,非遗图片可以进行图像识别模型的训练,得到可以快速识别不同非遗项目门类的模型,而年报可以进行自然语义分析训练,从而快速从文字中获取关键信息,上述数据的获取可以使用网络爬虫技术,定期对指定网站的相关栏目进行扫描并拉取文字、图片等数据,然后进行数据的清洗、转换,再存入数据库供以后使用。

内部数据库数据是指通过文化馆自身业务系统所获取的群众数据,如文化馆网站、公众号H5、小程序、视频号等。这些系统详细记录了用户浏览的全流程,如用户点击了哪些资讯、观看了哪些艺术视频、报名了哪些活动等。当前,业务系统进行优化后基本可以满足上述要求,而难点在于无需报名的线下活动,线下活动群众流量较大,且很多群众为初次参加,没有关注过文化馆线上系统,不愿意花费时间进行线上信息填写。同时,传统的纸质登记在效率和准确性方面都不尽人意,因此一定要选择简单便捷的方式来获取群众信息。笔者推荐使用微信API获取用户授权来收集信息,只需要现场放一个可以请求用户授权的微信二维码供群众扫描即可。这样做的原因是绝大多数的群众都使用微信App,而其API支持在用户授权时获取用户相关信息,对文化馆掌握活动举办情况以及根据性别、地区分析人员喜好有很重要的意义。

2.数据存储

数据存储分为持久化数据存储和非持久化存储,其中保存在服务器硬盘上且断电后数据不会消失的为持久化存储,而将数据保存在内存中且具有较高速读写效率的方式则称为非持久化存储。

持久化存储分为数据库系统和文件系统,代表技术分别为HBase数据库和HDFS文件系统,其中,后者给前者提供高可靠性的底层存储支持,通过上述技术可以高效地存储访问海量数据。非持久化存储的代表技术为Redis,该技术支持在缓存中高效地对数据进行处理,处理后的数据再进行持久化存储,这样可以降低服务器的响应频率,减少运行压力。目前,各地文化馆的服务器都由市政府统一运营、免费管理,因此,文化馆在创建大数据存储系统时只需要说明使用依据便可以向政数局提出申请,获得上述资源。

3.数据分析处理

数据分析处理是由HBase数据库使用Hive工具来响应业务人员的查询操作。例如,业务人员想查询某地区过去3年来,不同性别、镇区、活动类别的人员参与情况并按照顺序进行排列,这种在海量数据中进行的查询操作,普通数据库是无法快速响应的,很可能造成数据库宕机或查询过慢,但使用Hive工具却可以轻松应对,只需要提前设置好查询条件便可以离线运行,短则2小时、长则24小时便可以生成相关结果。

大数据技术对文化馆的后续发展至关重要,因此需马上着手部署。首先,要加快当前地区的群众数据采集,以中山地区为例,可以由市馆牵头,23个镇区共同参与,利用同一个业务系统来实现活动报名、线上艺术普及等,并在系统中增加相关程序,记录用户浏览数据。为了更好地进行推广,业务系统的设计一定要便捷,如支持微信快速登录等,降低群众的使用成本。同时,线下活动使用微信API扫码授权的方式来获取用户信息。其次,通过网络爬虫技术合法获取互联网公开信息,向当地政数局申请服务器资源,构建HDFS文件系统和HBase数据库,并使用Kafka消息存储技术完成数据存储。最后,定期通过各维度来对当前数据进行分析,从而科学地指导下一步工作,高效开展群众艺术普及工作。

人工智能在文化馆艺术普及的应用

本文所介绍的人工智能包括NLP自然语言处理以及深度学习。其中,NLP在信息检索、文本分类以及自然语言推理方面有着很广泛的应用,人机对话、机器客服便是基于该项技术完成的。而深度学习是学习样本数据的内在规律和表示层次,从而让机器具备人类识别图片、文字的能力,前者在某种程度上使用后者的相关方法来完成语言处理。当前,用户使用文化馆的线上系统查询检索的体验较差,满意度不高,因此可以基于上文的大数据平台完成以下内容。

NLP在文化馆自然语言处理的应用

NLP主要通过建模配合大量的样本训练来实现对用户输入语句的分析处理。当前,全国大多数文化馆的线上资源搜索还只是选择下拉框或关键字模糊查询,这种方法只适合对键盘操作较为熟练以及清楚了解查找资源种类的群众,如果是老人或儿童就无法很好地进行操作。因此,如果系统支持群众输入日常用语即自然语言或通过话筒输入声音,再使用第三方软件转换为自然语言来进行搜索就会极为便利,而从自然语言中提取关键词语的这一过程就要交给NLP来实现。

1.准备样本

此处的样本就是用户进行资源搜索的样本数据,如“我想找三乡茶果的制作视频”,样本的准备通常可以使用下述方法进行收集。首先是问卷调查,通过大范围地向群众发放调查问卷来收集,其次是暂时使用第三方的NLP程序,使用时记录用户的搜索语句,最后是程序通过代码批量生成样本。其中,比较推荐前两种方法,因为第三种方法生成规律是固定的,会导致模型过拟合,即在训练时模型表现很好,但在实际使用时效果很差。

2.样本处理

这里通过人工标注的方式对收集到的样本进行处理,首先要确定如下的标注规则。B,即Begin,表示开始;E,即End,表示结尾;S,即Single,表示单个字符;O,即Other,表示其他,用于标记无关字符;P,即Place,表示地名;C,即Category,表示种类;A,即Article,表示物品。如上例中“我想找三乡茶果的制作视频”可以输入如下,“B我S想S找S三乡P茶果A的S制作O视频CE”,通过类似的格式将收集到的所有样本进行处理。

3.模型训练

首先,将70%的样本数据作为训练集,30%的样本数据做测试集,然后使用深度学习Keras框架搭建模型,该框架可以在创建的模型中直接调用各种算法,且全部开源。模型使用BiLSTM+CRF命名实体算法来实现,其中BiLSTM是Bi-directional Long Short-Term Memory的缩写,CRF指的是条件随机场。整个模型分为三层,第一层为Embedding层,该层将训练集中的离散向量转换为连续向量;第二层为BILSTM层,计算发射矩阵,以此来判断当前属性关键词属于哪个标签;第三层为CRF层,该层引入当前属性的上下文信息,由此增加模型成功率。设置完成后使用训练集进行模型训练,并根据训练数据对模型进行不断调优,最后使用测试集进行验证,通过上述方法最终得到满意的模型。

4.模型应用

模型训练成功后便可以投放到线上进行实际调用,群众在线上系统搜索心仪资源时,只要录入自然语言便可以调用模型进行文字解析并完成查询、返回结果。以上文样本为例,当用户输入“我想找三乡茶果的制作视频”,系统将其作为入参传递给模型,模型经过解析后分析出当前语言中含有P样本(三乡)、A样本(茶果)以及C样本(视频),并将该结果返回给系统进行查询,继而给用户展示其想要的结果,人机对话也是建立在上述模型解析的基础上进行的。

深度学习图像识别在文化馆资源检索的应用

图像识别原理和NLP自然语言处理原理相同,都是对样本进行标注后在深度学习平台上调用相关算法进行模型训练,并将训练好的模型设置在系统上供群众调用。不同点在于,NLP是针对文字进行处理的,而图像识别是针对图片、视频。因此,所调用的算法也不相同,模型的训练算法在Keras上全部开源可以直接调用,其性能以及使用场景在相关学术论文都已经进行阐述,只要选择适合当前业务场景的即可。上线该功能后,群众可以在看展览时或者日常生活中对感兴趣的事物拍照,并将照片上传系统,通过模型进行检索获得想要的信息进行学习,通过该功能群众可以自主地利用文化馆的线上资源开展艺术的学习。

当文化馆应用大数据及人工智能技术后,海量的、有价值的群众活动数据便可以源源不断进行收集,并通过大数据分析得到每个活动在不同地区的参加情况以及不同时间哪类活动更受群众欢迎。这时,文化馆再以上述分析结果为依据,有针对性地、科学地安排各种活动,便可以发挥活动的价值,最大限度地增加受益群众。同时,群众在操作线上系统时,也可以更加智能化、更加人性化地检索艺术资源或进行信息问询,用户的满意度和黏性会大幅提高,从而更好地开展群众艺术普及工作。文化馆以“大数据+人工智能技术”为抓手,便可以直击当前业务痛点,顺应技术发展潮流,助力打造数字文化馆。

标签:  数据 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。

iidomino cuppor