摘" 要:云计算作为一种新兴的数据与信息处理方式,随着互联网的普及和数据使用量的持续增长,正变得越来越重要。针对高职院校数据中心提供的基础设施即服务(IaaS)的异构数据中心架构,研究优化了云计算调度策略。通过对某高职院校的实际情况进行分析,提出了一种优化的工作流调度模型——多用户混合调度模型(MMSM),以提高系统性能和效率。该模型考虑了服务质量和效率之间的平衡,并通过调度算法优化工作流调度。通过仿真环境的测试和实验结果分析,验证了提出模型的有效性和性能优势。
关键词:高职院校;云计算;异构;工作流调度;性能优化
中图分类号:TP302 文献标识码:A 文章编号:2096-4706(2024)22-0081-05
Research on Performance Optimization of Heterogeneous Data Center in Higher Vocational Colleges
Abstract: As a new way of data and information processing, cloud computing is becoming more and more important with the popularity of the Internet and the continuous growth of data usage. Aiming at the heterogeneous data center architecture of Infrastructure as a Service (IaaS) provided by the data center of higher vocational colleges, the cloud computing scheduling strategy is studied and optimized. Through the analysis of the actual situation of a higher vocational college, an optimized workflow scheduling model——Multi-user Mixed Scheduling Model (MMSM) is proposed to improve system performance and efficiency. This model considers the balance between service quality and efficiency, and optimizes workflow scheduling through scheduling algorithms. Through the test of the simulation environment and the analysis of experimental results, the effectiveness and performance advantages of the proposed model are verified.
Keywords: higher vocational college; cloud computing; heterogeneity; workflow scheduling; performance optimization
0" 引" 言
云计算[1]代表了一种新颖的数据与信息处理方式,包括其存储、检索和处理等方面。它借助在线虚拟存储空间来实现,并且随着互联网的普及,数据使用量正在持续增长,据预测,到2025年每天将产生大约500艾字节的数据。云计算与传统的IT架构存在显著的区别在于其提供的存储和服务器资源具有出色的可扩展性和灵活性。无论需求是增加还是减少,云计算都能迅速适应,根据实际需求扩展或增强存储和服务器资源,从而展现出极高的成本效益。云计算的服务解决方案主要分为三种类型,即基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。
高职院校数据中心通常提供IaaS[2]服务,通过网络,数据中心的虚拟机、虚拟存储、服务器等资源服务于学校信息化建设。IaaS是一个按需扩展的平台,可以根据工作负载的类型进行灵活的扩展或缩减。目前随着高职院校信息化建设的深入推进,其数据中心规模和复杂性不断增加,某些高职院校采用的传统数据中心架构已经难以满足日益增长的教学、科研和管理需求,异构数据中心架构将不同类型的计算、存储和网络资源整合在一起,具有更高的灵活性和可扩展性,能够更好地满足高职院校的需求,但在实际运行中会存在一些问题,例如无法准确量化云基础设施上的调度和分配策略的性能,无法有效降低能源消耗。要解决存在的这些问题,提升异构数据中心性能,重点需要优化云计算的调度方法。笔者对某高职院校异构数据中心的云计算调度策略进行深入分析,提出了优化方案。
1" 云计算调度策略
在某高职院校,用户向云计算平台发送任务,平台根据调度策略[3]和资源情况完成用户发送的任务,如图1所示。
在虚拟化的环境中,调度策略用于将任务与可用资源相匹配,决定任务的完成顺序,将任务映射到合适的虚拟机(VM)以满足性能目标,也称为工作流调度。优化工作流调度可以有效提升云计算平台的吞吐量和处理速度,提高资源利用率,减少能耗,还可以有效管理云资源分配(计算、存储等),使得单位时间效益最大化。
云计算调度策略是指根据任务的特点和系统的状态,合理分配和调度资源,以最大限度地提高系统的性能和效率。常见的调度策略包括基于任务的调度、基于资源的调度、基于能耗的调度等。
基于任务的调度[4]是一种根据任务的特点和需求,将任务分配到最合适的节点上执行的调度策略。在异构数据中心中,任务的特点包括计算密集型、存储密集型、通信密集型等。基于任务的调度策略可以根据任务的特点,选择最适合的节点执行任务,从而最大限度地利用系统资源,提高系统的性能和效率。
基于资源的调度是一种根据系统的资源状况,动态调整资源的分配和利用的调度策略。在异构数据中心中,资源的异构性导致不同类型的资源具有不同的特点和性能。基于资源的调度策略可以根据系统的资源状况,合理分配和利用资源,以提高系统的资源利用率和吞吐量。
基于能耗的调度[5]是一种根据系统的能耗状况,调整资源的分配和利用的调度策略。在异构数据中心中,能耗是一个重要的考虑因素,合理的能耗调度策略可以降低系统的能源消耗和运维成本。基于能耗的调度策略可以根据系统的能耗状况,动态调整资源的分配和利用,以减少能源消耗和运维成本。
工作流调度算法主要分为两大类:静态调度和动态调度[6]。两种算法各有利弊。静态调度算法使用不变策略,在工作流调度过程中不会改变,而动态算法则在执行过程中不断变化,静态算法更稳定、更一致。静态算法的结果是已知的,但结果性能往往比较差。而在动态算法中,其策略是不断变化和增强的,导致了较高的时间复杂度,由于负载过重和不平衡,经常会出现一系列问题,但其结果要好于静态算法。
工作流调度[7]问题属于NP完备问题,其采用有向无环图(DAG)G=(T,S,W,C)表示,T表示节点/任务集,T={t1,t2,t3,…,tn},S表示节点之间的边(即依赖关系)集,例如边s(i,k)表示ti和tk之间的优先级约束。节点ti是tk的父节点,应先执行ti,才能启动任务tk,无父节点的节点为根节点,无子节点的节点为叶节点,边上的数字代表节点之间的通信成本,如图2所示工作流执行关键路径。
2" 一种优化的工作流调度模型
云计算框架中包含管理层和虚拟网络层。管理层负责管理虚拟网络,以执行用户的工作流,需要考虑到各种约束条件,本文提出了多用户混合调度模型(Multi-user Mixed Scheduling Model, MMSM)作为管理层系统模型,而虚拟网络则由各数据中心创建,虚拟网络可分为同构网络和异构网络两种类型。同构网络允许用户选择相同规格的虚拟机,而异构网络则由不同规格的虚拟机构成。根据某高职院校实际情况,本文选择异构虚拟网络。为了有效利用截止日期和可用资源,本文对多个用户的工作流进行了调度。调度模型包括四个主要组成部分:用户、工作流队列、调度系统和云基础设施。云用户可以通过互联网将其工作流提交至云端执行。所有提交的工作流都会根据其截止日期在队列中排列。执行系统负责管理云资源,并在考虑到工作流截止日期和功耗的情况下执行工作流,而云基础设施则负责实际执行工作流任务。
2.1" 多用户混合调度模型
MMSM考虑了服务质量和效率。这需要考虑到服务质量参数(如有效期、截止日期、成本)和效率(如功耗和利用率),目前还没有一种调度算法能同时考虑前述参数,本文提出MMSM来解决用户需求和服务质量及效率之间的权衡问题,MMSM结构如图3所示。
2.2" MMSM概要
MMSM可扩展管理租用的资源,由三个阶段组成:初始化阶段、虚拟机分配阶段和任务调度阶段。
当用户申请IaaS服务,模型通过选择一定数量的同质虚拟机来定义最大预算计划,以便在租用期限内将其添加到IaaS或从IaaS中移除。根据IaaS的特点,MMSM模型会安排上传的工作流,添加或删除IaaS虚拟机。MMSM的主要目标:通过满足预算和截止日期限制实现QoS,通过在所有约束条件下管理资源,实现云资源的最大利用率,并节约能源(电能)。MMSM总体步骤如算法1所示。
2.3" 初始化阶段
在这一阶段,模型会在分配流程开始前准备好系统信息。MMSM会收集有关可用资源和已提交工作流的信息,如已提交工作流的数量、每个工作流的信息、可用虚拟机的数量、截止日期和预算用户计划。根据截止日期限制,MMSM模型按降序排列工作流列表。初始化阶段在模型运行过程中不断变化,被用于接下来的阶段:虚拟机分配和任务调度。此外,MMSM工作流还会考虑用户的初始计划,以确定每个已提交工作流的预算和截止日期。MMSM工作流程根据用户计划实现用户需求和服务质量及效率。首先,用户应定义其IaaS的虚拟机数量。然后,用户检测在特定时间内租用虚拟机的最大数量。根据虚拟机的最大数量可以计算出最大预算[8],如式(1)所示。
其中n表示虚拟机最大数量,P(VMi)值表示每个虚拟机每小时的成本,B表示最大预算。根据每个已提交工作流的截止日期,模型会添加或删除虚拟机。初始化阶段的总体步骤如算法2所示:
2.4" 虚拟机分配阶段
在这一阶段,MMSM会分配一定数量的虚拟机,以满足截止日期约束和最大预算。
1)本阶段计算总期限(AD),如式(2)所示:
其中,m表示已提交工作流的数量。
2)计算所有工作流的预期完成时间(ECT),如式(3)所示:
(3)计算虚拟机分配算法所需的虚拟机数量,如式(4)所示:
其中,NC表示满足截止日期要求的所需百万指令总数,VAC表示额外的同构虚拟机的可用百万指令总数。VAC的计算如式(5)所示:
虚拟机分配阶段的总体步骤如算法3所示:
2.5" 任务调度阶段
任务调度阶段是将选定工作流的任务分配到合适的虚拟机中执行的过程。在这一阶段,MMSM根据用户的预算和截止日期计划来调度任务。首先,模型会将工作流程划分为若干级别,并根据根方向将级别按升序排列成列表。其次,模型选择每个级别,将其任务调度到不同的空闲虚拟机上执行。本阶段会重复前面的步骤,直到所有任务都被调度和执行。系统每隔一段时间就会检查工作流的执行状态,以确保执行过程正确无误。如果模型在执行过程中发现错误,就会解决问题,并将暂停的工作流迁移到新的虚拟机上。
3" 模型测试
测试仿真环境:使用WorkflowSim来模拟某高职院校云环境并实现MMSM,测试使用异构虚拟网络,虚拟机是随机生成的(100台虚拟机),内核数和内存大小不等。使用笔记本电脑酷睿i7、16 GB内存和Windows 10得出结果。为了评估云计算虚拟网络的性能,使用各种科学工作流应用程序作为数据集[9],即Montage、LIGO和Epigenomics。通过与遗传算法、粒子群优化算法[10]在总耗时、吞吐量、能耗等维度进行对比,如图4所示。
在不同流程的不同任务数量的情况下(任务数量分别为30个、420个、823个和1 875个),MMSM相比GA、PSO这些常用的工作流调度算法更节约时间,单位时间内可完成更多任务,同时也更节约电能。
4" 结" 论
本文提出了一种针对高职院校异构数据中心的云计算调度优化模型——MMSM。通过该模型,能够有效提高系统性能和效率,实现了服务质量和效率的平衡。实验结果表明,相比传统的调度算法,MMSM在总耗时、吞吐量和能耗等方面都表现出更好的性能。这表明了MMSM在高职院校数据中心的实际应用前景,并为进一步提升云计算调度策略提供了有益的参考和指导。
参考文献:
[1] 杨琛.云环境下基于QoS约束和遗传算法的资源调度优化研究 [D].杭州:杭州电子科技大学,2013.
[2] 关雅莉,陈学平.云计算教学资源库建设实践研究 [J].工业和信息化教育,2023(10):90-94.
[3] 邓见光.云计算任务调度策略研究 [D].广州:华南理工大学,2014.
[4] 刘陈伟,孙鉴,雷冰冰,等.基于改进粒子群算法的云数据中心能耗优化任务调度策略 [J].计算机科学,2023,50(7):246-253.
[5] 郭雯霞.云数据中心任务完成时间相关的节能与均衡优化调度算法 [D].成都:电子科技大学,2021.
[6] 杨戈,赵鑫,黄静.面向云计算的任务调度算法综述 [J].计算机系统应用,2020,29(3):11-19.
[7] 马学森,许雪梅,蒋功辉,等.混合自适应粒子群工作流调度优化算法 [J].计算机应用,2023,43(2):474-483.
[8] 张雪峰,杜孝平,王晓健,等.预算约束和截止时间敏感的高能效云工作流调度 [J].计算机工程与设计,2022,43(10):2829-2835.
[9] 蔡晓丽,钱诚.基于改进的粒子群算法的云资源调度策略 [J].微电子学与计算机,2018,35(6):28-30+35.
[10] LIU S,YIN Y. Task Scheduling in Cloud Computing Based on Improved Discrete Particle Swarm Optimization [C]//2nd Int. Conf. on Information Systems and Computer Aided Education (ICISCAE).Dalian:IEEE,2019:594–597.