本帖最后由 章鱼大丸子 于 2014-11-10 16:48 编辑
LMT NEW PBS作业排队系统对作业调度运算 计算机应用从早期以大型主机为核心转变到现在以网络为核心,促进了集群系统的产生与应用。集群系统是指互相连接的多个独立计算机(称为节点)的集合,每个节点都有自己的存储器、I\O设备和操作系统。集群对用户和应用来说是一个单一的系统,其主要目标是通过网络互联实现全系统范围内的资源的共享,通过高效的资源管理和任务调度技术实现资源的高利用率,获得高性能,故而集群系统具有低技术、高性能的特性,同时提供了强大的批处理和并行计算能力,它代表了高性能计算机发展的新方向。 微机集群系统以其卓越的性能价格和良好的可扩展性等因素成为当今高性能计算机系统的主流体系结构。如何合理高效地使用微机集群系统所包含的丰富的计算资源,保护投资是非常紧迫的问题。开发适用于多种处理系统的全局并行作业调度软件,其中的作业调度算法是作业调度系统的核心,调度算法的优劣决定了作业调度系统本身的质量,决定了作业运行的稳定性、高效性等。 LMT NEW PBS作业排队调度程序从后备作业中选取若干个作业到内存并投入运行。它为选中作业建立进程并分配必要的资源,这时,这些被选中的作业处于执行状态。PBS作业调度的功能是记录系统中各作业的状况,从后备作业队列中挑选一批作业进入执行状态,以及为被选中作业分配资源建立进程和在作业执行结束后释放所占用的资源等。其中最主要的是从后备作业队列中选取一批作业进入执行状态。 根据不同的目标,将会有不同的调度算法。一般来说,调度目标主要是以下四点: (1)对作业应该是公平合理的; (2)应使设备有高的利用率; (3)每天执行尽可能多的作业; (4)有短的响应时间。 由于这些目标的互相冲突,任一调度算法要想同时满足上述目标是不可能的。例如,要想执行尽可能多的作业,调度算法就应选择短作业优先,而这对那些预计执行时间长的作业又是不公平的,甚至有可能永远得不到运行;要想对所有作业公平合理,调度算法就应选择先来先服务。如果考虑的因素过多,调度算法就会变得非常复杂,会使系统开销增加,资源利用率下降。 通常将作业或进程归入各种就绪或阻塞队列。有的算法使用于作业调度,有的算法适用于进程调度,有的两者都适应。
LMT NEW PBS作业管理系统的简单介绍:
(作业列表_查看所有作业:显现出作业的详细信息。作业详细信息包括作业文件参数、作业计算结果、作业ID、主文件编号、所需CPU数量、所需内存大小、软件名称、版本等等。) (作业调整:可以对正在排队的作业进行排队顺序的操作。)
(节点列表:显示所有节点记录。)
(节点维护:显示所有的节点信息,并且可以对节点进行新增、修改、删除操作。)
(节点平台管理:显示出所选节点平台的详细信息,并支持对去进行修改。)
(可用CPU配额管理:显示的是用户空闲时可用上限CPU数、紧张时可用上限CPU数。)
(作业节点实时状态监控图:显示当前实时的节点监控结果。)
(作业数据分析:依据时间范围、软件视图、用户视图、只显示软件、只显示具体队列等方式选择要查询的数据。)
(用户列表:查看用户的角色,系统管理员或提交人员角色。)
(CAE维护:查看到按软件名称排列的列表。该列表显示软件名称、软件版本、软件安装目录、软件程序绝对路径、主文件 后缀名、MPI路径、MPI版本等信息。)
(系统检测:可以对异常情况平台进行立即检测及修复功能操作。支持对平台查看历史日志。)
作业调度算法的选择和设计涉及多方面的因素,首先它依赖于并行计算机的体系结构,不同体系结构机器的节点资源使用模式不同,因而相应调度策略和理想算法也不同,实际上不会存在一种理想的调度策略适用于多种并行程序编程语言、体系结构和操作系统。正因如此,当前主流的作业系统都允许用户灵活的设定队列、用户约束、调度策略等,以期达到理想的调度效果。其次,调度算法的选择和设计依赖于评价标准,用户及系统管理员都有各自主观上的评价,如:作业调度系统的功能及灵活性;而站在客观的角度,作业系统应该能使系统上作业的平均响应时间最短,系统利用率最高,如何取舍评价指标则完全在于评价标准的确定。最后,作业流的规律和特点也影响调度算法的选择,有研究表明,针对不同的作业流特点,不同的调度策略对系统的平均响应时间、系统利用率有着不同的影响。
|