马上注册,结交更多同行朋友,交流,分享,学习。
您需要 登录 才可以下载或查看,没有帐号?注册
x
作业调度管理系统主要负责接收用户提交的作业请求,并根据特定的调度规则以及用户对作业的要求选择合适的计算资源来完成用户作业。在作业调度系统的帮助下,对用户而言高性能计算集群系统就好像一台具备很多CPU的大服务器,多个用户可以同时使用这个系统。作业调度系统管理用户提交的作业,为各个作业合理地分配资源,从而确保充分利用集群系统的计算能力,并尽可能迅速地得到运算结果。 集群作业调度管理可以根据用户的需求,动态地完成集群的软硬件资源的管理和调度,保证用户作业公平合理地共享集群资源,提高系统利用率和吞吐率。 节点的调度分类: 在计算机系统中,存在着三种调度。从他们的层次来看,分别是作业调度、中级调度和进程调度。 高级调度:又称作业调度。其主要功能是根据一定的算法,从输人的一批作业中选出若干个作业,分配必要的资源,如内存、外设等,为它建立相应的用户作业进程和为其服务的系统进程(如输人、输出进程),最后把它们的程序和数据调人内存,等待进程调度程序对其执行调度,并在作业完成后作善后处理工作。
低级调度:又称进程调度。其主要功能是根据一定的算法将CPU分派给就绪队列中的一个进程。执行低级调度功能的程序称做进程调度程序,由它实现CPU在进程间的切换。进程调度的运行频率很高,在分时系统中往往几十毫秒就要运行一次。进程调度是操作系统中最基本的一种调度。在一般类型的操作系统中都必须有进程调度,而且它的策略的优劣直接影响整个系统的计能。
中级调度:又称交换调度。为了使内存中同时存放的进程数目不至于太多,有时就需要把某些进程从内存中移到外存上,以减少多道程序的数目,为此设立了中级调度。特别在采用虚拟存储技术的系统或分时系统中,往往增加中级调度这一级。所以中级调度的功能是在内存使用情况紧张时,将一些暂时不能运行的讲程从内存对换到外存上等待。当以后内存有足够的空闲空间时,再将合适的进程重新换人内存,等待进程调度。引人中级调度的主要目的是为了提高内存的利用率和系统吞吐量。它实际上就是存储器管理中的对换功能。 作业调度管理系统的基本要求: 1. 单一系统映像:从用户角度看,集群系统就好像一台具备很多CPU的大服务器,可以满足用户所需的运行作业的要求,用户无需关心其他的硬件或系统信息,可以全身心投入到专业应用的研究中。 2. 资源负载监控:为了确保每个作业都能分配到合适的资源,资源负载监控需要了解集群系统中各种资源的属性、状态以及用户提交的作业请求和正在运行的作业等信息,为基于策略的资源调度提供依据。 3. 资源管理:资源管理根据资源负载监控所获取的信息和相应的调度策略来给作业分配资源。另外,资源管理应该具有资源预留能力。这样不仅可以保留强大的资源给需要的作业,而且可以预留一定的冗余资源以应付集群中的结点失效和突发的计算。 4. 策略管理:策略管理综合从资源管理得到的各个计算节点上的资源状况和用户提交的作业信息,动态生成满足作业要求的资源的列表。策略管理还提供复杂的参数去定义计算环境和作业要求,并且提供简捷灵活的表达方式允许系统管理员实现基于特定策略驱动的资源调度方案。 5. 负载分析:作业调度系统还应提供相应的资源使用过程中的相关信息,方便后期的效率评估等工作的开展。 精确调度有效提高利用率 通过分析和研究后,我们认为通过采用作业调度技术能够较好地解决新遇到的大部分问题,保障高性能计算集群系统稳定、高效地运行,同时可降低部分PC集群规模扩充的需求。 1. 提高计算节点使用效率 现在生产项目不需要履行复杂的计算资源申请手续,直接提交相应的生产需求即可完成计算资源的分配,将计算节点故障对用户造成的影响降到最低。同时,作业调度根据用户作业请求的变化动态调整集群计算节点的使用,保证每个被调度计算节点高效率运行。 2. 降低高性能计算集群运维成本 通过作业调度技术的应用,可以根据生产需求动态调整高性能计算集群的使用规模,避免不必要的能源消耗,在很大程度上提高了集群系统的能源利用效率,这包括高性能计算集群计算子系统和相关的场地配套系统的能源利用效率,使集群能够充分发挥其解决大规模密集计算问题能力的同时合理降低其运行成本。 3. 奠定节能降耗的基础 对高性能计算集群来说,作业调度技术是节能降耗的前提和基础,以前的手工资源调度的方式容易产生失误或分配不合理的情况,势必会对科研生产造成影响,而采用成熟的作业调度技术将大大简化资源调度管理的环节。对于暂时用不到的节点,可以将其关机或睡眠,以最大程度地降低无用节点的能耗,相应的机房场地运行环境的能耗也随之降低。另外,利用资源调度软件提供的资源使用状况监控功能还可以形成相关集群运行情况报告,为决策提供可靠的依据。 综上所述,作业调度技术的应用直接影响高性能计算集群系统及其配套场地环境应用效果。 LicManager Node PBS调度管理系统 算法: (1)先来先服务(FCFS): 按作业到达的先后次序调度,它不利于短作业。 (2)短作业优先(SJF): 按作业的估计运行时间调度,估计运行时间短的作业优先调度。它不利于长作业,可能会使一个估计运行时间长的作业迟迟得不到服务。 (3)响应比高者优先(HRN): 综合以上两者,即考虑作业估计运行时间,又考虑作业等待时间,响应比是: HRN=(估计运行时间+等待时间)/估计运行时间 (4)优先级调度: 根据作业的优先级别,优先级高者先调度。(如果是数字,则数值越大优先级越高) 原则:
进程调度决定就绪队列中哪个进程将获得处理机,并实际执行将处理机分配给该进程的操作。进程调度是操作系统中最基本的调度,在批处理及分时系统中都必须配置。
调度的目标和原则:
1、公平性:(fairness)确保每个进程都能获得公平的CPU时间片
2、高效性:(efficiency)使CPU100%的时间都在工作
3、响应时间:(response time)系统对用户的反应时间
4、吞吐量:单位时间处理的工作量 目标: 1、调度应对所有作业都是公平合理的
2、应使设备有较高的利用率(提高系统利用率)
3、每次运行尽可能多的作业(提高系统吞吐量)
4、较快的响应时间 功能:
1、记录各作业在系统中的状态
2、从后备队列中挑选一部分作业投入运行
3、为被选中的作业做好执行前的准备工作
4、在作业执行结束时,做善后处理工作 使用步骤: 1、准备:编写描述改作业的脚本,包括作业名,需要的资源等。 2、提交:将该作业提交给PBS服务器。 3、排队:服务器将该任务排入适当的队列。 4、调度:服务器检查各工作节点的状态是否符合该作业的要求,并进行调度。 5、执行:当条件满足时,作业被发给相应的执行服务器执行。程序运行时执行服务器会收集程序的标准输出和标准错误流,等程序结束时,将这些信息返回给用户。 6、查询和调整:当作业在运行时,用户可以进行状态查询。用户发现作业提交错误时,可以删除正在运行的作业。 7、查看结果:使用文本编辑软件或者系统命令等方式,查看输出及错误信息显示。 特点: 1、简单易懂的人性化操作界面
2、支持动态加入计算节点 3、高速运算作业
4、可以支持数百台计算机系统 5、开放性和兼容性高 6、性能与价格的性价比优越
7、优秀的后台技术支持。 总结 为应对市场需求,lanmantech公司研发出的LMT-LicManager的Node PBS调度管理系统,考虑到商业公司的竞争加剧和应用普及的现状,高性能计算不再是一个不惜工本的应用领域,许多项目的预算约束越来越严格。这就要求厂商生产全系列的产品满足不同规模应用的需求、更加可靠地保护用户原有投资、加速IT投资回报,而且也要求实现资源按需供应和更大范围的资源共享,网格和公用服务等新的计算模式都要随着潮流趋势发展。 再有随着高性能计算集群应用规模的不断扩充,集群的管理问题也随之而来。大型企业起初集群规模较小,比较容易管理和维护,系统的能耗和运维成本问题还不明显。但随着集群规模的不断扩充,集群系统能耗高、利用效率低、大规模集群系统运维管理困难等缺点逐渐凸显出来。 在LicManager的Node PBS调度管理系统的帮助下,对用户而言高性能计算集群系统就好像一台具备很多CPU的大服务器,多个用户可以同时使用这个系统。Node PBS调度系统管理用户提交的作业,为各个作业合理地分配资源,从而确保充分利用集群系统的计算能力,并尽可能迅速地得到运算结果。 LicManager的Node PBS调度管理系统可以根据用户的需求,动态地完成集群的软硬件资源的管理和调度,保证用户作业公平合理地共享集群资源,提高系统利用率和吞吐率。
|