基于云计算的大数据分析优化技术研究

known 发布于 2025-07-09 阅读(312)

摘  要:在有效解决大数据应用以及运行问题的措施中,基于云计算的大数据分析体系是主要策略。云计算应用技术处于大数据分析的重要环节中,在对大数据进行分析的流程中不可或缺。云计算技术能够使数据分析更加简单、快捷,而且能够使大数据分析的针对性和有效性大大提高,形成整个数据分析中各个环节的推动力;在大数据处理方面,云计算技术能够在一定程度上缩短数据处理时间,提高数据处理效率,增强系统响应的敏锐性。本文论述了大数据的基本处理流程,研究了云计算技术在大数据分析中的主要作用,从并行处理技术、存储与访问技术两个方面探究大数据分析流程优化技术。

关键词:云计算;大数据;数据分析;流程优化

中图分类号:TP311.13      文献标识码:A 文章编号:2096-4706(2019)14-0069-03

Research on Big Data Analysis and Optimization Technology Based on Cloud Computing

ZHU Peipei

(Henan Information Consulting Design and Research Co.,Ltd.,Zhengzhou  450008,China)

Abstract:In the effective solution to big data applications and operational problems,cloud computing-based big data analysis system is the main strategy. In the process of analyzing big data,cloud computing application technology is indispensable and is in an important part of big data analysis. Cloud computing technology can make data analysis simpler and faster,and can greatly improve the pertinence and effectiveness of big data analysis,forming the driving force of all links in the entire data analysis;in the field of big data processing,cloud computing technology can be certain to reduce the data processing time,improve the data processing efficiency,and enhance the sensitivity of the system response. This paper discusses the basic processing of big data,and studies the main role of cloud computing technology in big data analysis. It explores big data analysis process optimization technology from two aspects:parallel processing technology,storage and access technology.

Keywords:cloud computing;big data;data analysis;process optimization

0  引  言

在当今科技化迅速发展并全面普及的时代,云计算技术的研究与应用、大数据分析技术都是业界关注的热点问题;云计算从核心技术与应用场景等方面,都处在快速发展阶段,所涉及的数据资源也备受关注。信息化、网络化在各个领域中的应用,产生了大量数据信息,为了从大量数据中提取所需要的各类信息,对大数据的分析必不可少。为了进一步优化升级大数据分析流程,需要逐渐将云计算技术引入到大数据分析流程中,从而缩短海量数据处理花费的时间,提高数据分析的质量与效率,提升数据分析与处理系统的响应能力。在充分应用云计算技术的基础上,加强探究对大数据分析流程进行优化的路径,对信息技术的发展意义极其重大。

由于数据规模巨大,传统数据的存储与分析系统的容量已经难以满足大数据分析的要求,需要探究新的解决方案。以企业大数据分析为例,企业相关人员希望能够通过分析大数据,使潜在的商业价值被发掘出来,从而更好地提高自身产品的品质与服务的质量。在大数据分析的过程中,需要综合利用无线数据技术、高性能计算技术、高级数据库技术以及移动互联技术。数据存储技术的不断发展,大大降低了数据存储的费用开销。借助云计算技术,在大数据分析过程中能够更加容易地获得强大的计算能力;在大数据管理方面,相关技术灵活多样,各类技术都为大数据分析提供了良好的技术支持,如NewSQL、NoSQL、Hadoop以及图形数据库等。

1  大数据及其基本处理流程分析

从数据规模来看,大数据是海量数据,利用传统的数据处理方法和手段难以对大数据进行处理,需要借助高端信息处理方法与技术,在有限时间内对海量数据进行感知、获取、加工、管理、处理和共享应用。通常情况下,大数据呈现体量大、模态多样、生成快速、高价值、低密度的显著特点。对传统数据处理方法与技术进行升级,可以形成大数据技术。云计算技术出现后,逐渐产生较多的云计算技术平台,成为大数据处理的技术服务平台,给大数据处理流程优化带来较大便利。一般情况下,可以将大数据处理流程划分为数据采集、数据处理和集成、数据分析、数据解释。在数据采集过程中,全面采集各个端口的数据信息,并实现数据的预处理,使数据格式统一化,方便后续进行数据分析与计算,数据分析结果可以通过可视化手段传递到用户端。

数据采集阶段。由于互联网技术的快速发展与广泛应用,数据来源十分广泛,增加了较多数据生产的环节,使数据产出量得到较大幅度的提升,数据之间的关联更加紧密,复杂度不断增加,在数据采集精度和采集速度方面提出了更高要求。因此,需要进一步优化升级传统数据的整合处理技术,利用相关方法与技术,在短时间内将海量复杂数据进行快速简化处理,提高数据处理、整合和利用的水平,从而更好地为用户提供数据服务。在当前形势下,随着信息量的不断增大,如果继续单一依靠传统大数据处理技术,将难以应对海量数据带来的挑战。因此,企业迫切需要全面整合数据处理流程,研究更加有效的优化处理技术,从而使数据资源的利用价值和服务效能得到提升。

在大数据处理基本流程体系中,不同运行阶段的要求不同。在数据处理与集成阶段采用去噪、格式化等方式进行数据预处理,采用统一的数据结构,预处理前一阶段的采集数据。由于数据类型比较复杂,需要除去较多无效数据,转化为统一的数据格式,以便更好地利用。通常情况下,可以通过设计过滤器等方式,将无效数据去除,转化为有效数据。在数据分析阶段,根据不同的数据应用需求和价值功能方向、应用数据挖掘工具或者数据仓库工具,进一步分析原始的采集数据和整理的数据。在数据分析方面,有较多大数据分析服务商,能够提供专业的支撑产品和服务软件,对数据进行全面深度分析。在数据显示方面,当数据量不断增大时,数据分析结果输出无法通过传统模式进行展现,利用数据可视化技术,能够为数据解释和直观展现提供技术支持,向用户直观形象地展示数据分析结果,从而提高数据深度利用价值。

2  云计算与大数据分析

云计算是为了更好地服务互联网,设置的一种增加、使用与交付模式,利用互联网提供动态且易扩展的虚拟化资源,是一种按使用量付费的模式;用户根据自身需求进行访问、获取、利用资源。在大数据处理流程中,数据分析是最重要的部分,体现了数据的价值。基于大数据的数据分析是指利用相关方法与技术快速整合、深度处理获取的海量数据。作为大数据分析的重要支撑平台,云计算技术能够为大数据分析提供具有较强扩展性、经济性的存储和计算资源,奠定深度应用的基础。总体来看,大数据技术是云计算的拓展与延伸,从大数据的采集、储存、处理与应用,需要应用大量的技术;随着数据的快速变化,信息量日益膨胀,采用云计算的方式进行大数据分析,需要升级数据通信宽带,加强建设云资源,从而确保不断增强数据整合体系功能,满足社会发展要求。基于云计算的大数据分析,将云计算与大数据分析融合,优势主要体现在两个方面:能够借助云计算虚拟化环境,与用户的业务需求结合起来,深度优化配置各类资源,从而使大数据的可扩展性得到提升;进一步细化数据分析力度,提升数据本身的挖掘价值,有助于降低数据分析成本,全面提升硬软件设施利用率。

3  大数据分析流程中并行处理技术的优化路径

3.1  大数据逻辑分析的优化

在大数据分析中,按照逻辑关系将具体问题分解为各个要素,通过比较,对各个要素的影响因子进行评判,通过对影响因子的影响程度高低进行排序,从而分清主要影响因素和次要影响因素,经过推理,得到各个要素之间的关系,汇总分析结果,从而揭示问题本质规律。要优化逻辑分析思路,利用云计算技术对数据处理模型进行构建,对海量数据的分析任务进行分解,并行处理海量数据,并汇总计算处理结果,从而完成大数据分析任务。因此,从逻辑分析技术的角度来看,在大数据分析中利用云计算技术架构进行逻辑分析具有可行性。

3.2  数据管理架构的优化

在云计算模式下,分布式调度器、分布式锁服务、GFS文件系统能够优化升级数据管理架构。GFS文件对海量数据进行贮存,分布式锁服务能够管理、处理服务器以及元数据的信息。在主服务器监控方面,通过BigTable进行优化,扩展分布式存储系统,使其效能得到最大程度的发挥。监控分布式锁服务中的目录,从而实现负载均衡处理。在子表服务器存储系统中,依据时间的远近来处理数据,实现优化子表服务器存储系统。

3.3  数据模型组织结构的优化

对数据模型组织结构利用云计算技术进行优化时,以分布式多维映射表设计BigTable,实现优化数据模型组织结构。

4  大数据分析流程中存储与访问技术的优化路径分析

4.1  数据流以及控制流的分离

存储与访问是基于云计算的大数据分析流程的关键环节,利用GFS文件系统,操作数据流和数据库。将GFS文件系统节点做成控制集群,分析数据源头。同时,将应用程序访问链接设置在客户端,以库文件形式为主。在GFS集群中,数据操作大小为64MB,在整个文件系统中进行数据操作;为了方便操作,需要对数据块设置相同的索引号。集群中的数据块经过上述流程环节,向客户端统一发送引入信息。客户端收到信息,执行存储与读写等操作,该过程完成了服务器和客户端之间的联系。在一定幅度下,降低主控服务器的负荷载量,还能够多种数据块进行同时访问。

4.2  不缓存数据的优化

由于存在磁盘性能缺陷,文件系统需要频繁访问磁盘,产生大量缓存数据,降低了系统的操作性能,访问速度下降。利于云计算技术构建GFS文件系统,不缓存数据操作,提高文件系统性能。在GFS文件系统中,在内存中存储需要操作的文件块,当该文件块首次被用户访问时,系统先从磁盘中读取文件块,之后用户每次访问该文件块,可直接读取缓存,从而提高系统读、写操作的性能。

5  结  论

充分利用云计算技术,优化大数据分析流程,需要与大数据分析整体处理程序的具体要求相结合;对运行规律进行总结,对并行处理、数据存储与访问、组织与管理等方面不断探索,与未来发展和用户实际需求相结合;利用有效的系统快速整合处理海量信息,从而进一步提升大数据信息储存的价值,使数据资源应有的功能充分发挥出来。在优化设计过程中,要充分考虑现实需求、运行环境等各方面的因素,加强培训操作人员,实现理念与技术的有效融合,利用云计算技术,使大数据高效处理与利用的价值不断提高,从而推动数据的发展。

参考文献:

[1] 王伟钧.基于云计算的大数据分析流程的优化路径 [J].电子技术与软件工程,2017(21):164.

[2] 洪汉舒,孙知信.基于云计算的大数据存储安全的研究

[J].南京邮电大学学报(自然科学版),2014,34(4):26-32+56.

[3] 韩晶.大数据服务若干关键技术研究 [D].北京:北京邮电大学,2013.

[4] 孙海军.基于云计算的大数据处理技术 [J].信息安全与技术,2014,5(11):61-63.

[5] 田野,王彪,刘丹.基于大数据的一体化移动警务综合管控平台建设与应用 [J].湖南科技大学学报(自然科学版),2017,32(1):67-72.

[6] 邓仲华,刘伟伟,陆颖隽.基于云计算的大数据挖掘内涵及解决方案研究 [J].情报理论与实践,2015,38(7):103-108.

作者简介:朱培佩(1984-),男,汉族,河南周口人,项目管理人员,硕士,研究方向:大数据研究。

标签:  数据 

免责声明

本文来自网络,不代表本站立场。如有不愿意被转载的情况,请联系我们。