您的位置:主页 > 成功案例 > 斯伦贝谢软件使用技巧 > OTHERS 其它 >
成功案例
OTHERS 其它>>
3.SCM系统简介主要内容
1)SCM (Simulation Cluster Manager) 系统简介
2)某公司SCM系统简介:硬件,网络,配置
3)SCM作业提交
4)工作负载管理
5)SCM集群管理
6)SCM系统监控
7)SCM性能测试
8)在SCM上安装应用程序
9)SCM 参考文档
1 SCM (Simulation Cluster Manager) 系统简介
1)为什么要在Reservoir Simulation中用到集群系统
• 提高效率,并行运算减少运行时间
• 多用户/并发运行
• 可扩展
• 释放工作站/笔记本电脑以进行其它建模和解释任务
• 可运行大型复杂的油藏模型
• 集中计算资源,降低管理成本
2)部署集群的传统方法:非常复杂
• 硬件安装和设置(服务器,存储,网络)
• 每个节点上操作系统的安装,网络设置(IP地址,主机名等)
• OFED设置(驱动程序安装,配置,启动网络管理器等)
• 操作系统参数调整(如防火墙等)
• 用户创建,身份验证和ssh设置
• 外部NAS设置(网络设备,安装,配置)
• LSF安装和设置(许可,安装,用户,队列,资源,环境等)
• ECLIPSE/INTERSECT安装/升级和许可证设置
• MPI参数设置
• 设置用户环境
• 运行测试并与基准数据进行比较
3)SCM:集群系统优化的解决方案
• 在集群系统的部署阶段,系统的安装调试需要花费较长的时间;
• 由于集群系统的硬件/操作系统 /软件的复杂,管理起来难度很大,一旦出现故障不能及时解决,将导致生产时间的损失;
• 集群系统也很难进行优化。
SCM (Simulation Cluster Manager) 是由IBM Platform公司和Schlumberger 公司共同开发的集群系统优化的解决方案。
4)SCM的体系架构, 如下图:
5)SCM的主要特性
集群管理;工作负载管理;作业提交管理。
6)SCM集群管理,有以下特性:
• 服务器快速配置
• 基于Web的访问
• 轻松安装/升级ECLIPSE / INTERSECT
• 工作监控
• 轻松管理HPC集群(队列,用户,应用程序,操作系统)
• 资源利用综合报告(CPU,内存,节点,作业,许可证)
• 确保最长的正常运行时间
• 可以管理大型集群
7)强大的工作负载管理- LSF系统,有以下特性:
• 强大,全面,策略驱动的工作负载管理器
• 非常易于使用和维护
• 非常灵活和可定制
8)作业提交
用户可通过浏览器访问管理节点的Web页面, 通过Web GUI界面提交作业, 监控作业。
2 某公司SCM系统简介
1)硬件
• 管理节点 1个,硬件型号为HP DL380 G8。
不用于模拟计算,而是用于共享应用程序以及用户的home目录等,也用于管理资源,运行Admin和用户界面。
• 2个计算节点,CN01和CN02,共有60个核。
CN01:硬件型号为HP DL380 G9;
CN02:硬件型号为HP DL360 G9。
2)网络
• Public网络:可用于访问NAS和NIS,允许用户访问集群。地址范围为 10.x.x.41—43 /24。
• Private网络:用于运算节点访问管理节点上的资源如应用程序和NFS共享目录,在kick-start安装时运行DHCP服务,及各个节点之间内部通信。 地址范围为10.x.y.55—56 /24。
• iLO网络:iLO是管理接口,用于远程访问和管理服务器,开/关服务器的电源等。
• 未来还可以选择添加InfiniBand (IB),高速网络,使得作业在计算节点之间高速传输。这个选项很昂贵,目前没有采用。
3)配置
在这个集群中主要有2个系统。
第一个系统是SCM,SCM是集群的管理控制台,用于报告使用情况,控制作业,监视故障,以及其它任务。
第二个系统是Load Sharing Facility (LSF),LSF管理资源的使用,基于优先级和可用资源安排作业的运行。
3 SCM作业提交
1)用命令行提交作业
用putty登录管理节点,用命令行提交作业:
eclrun eclipse ONEM1.DATA
2)从用户工作站的Eclipse提交作业
从用户工作站的Eclipse可以提交作业, 并查看作业的状态。
3)通过Web GUI界面提交作业
用户也可通过浏览器访问管理节点的Web页面, 通过Web GUI界面提交作业, 监控作业;通过CLI命令行和PRT文件可以查看作业的运行情况。
4 工作负载管理
1)LSF 简介
LSF代表负载共享设施 (Load Sharing Facility) 。
• LSF是一个产品(来自IBM Platform Computing),它运行批处理作业,根据当前负载情况从集群中选择执行主机。
• 批处理作业保留在队列中,直到有适当的资源可用。
• LSF提供了对集群中的资源进行透明访问的功能。
• LSF可以将作业放入队列中。
• 队列可以限制主机的类型,作业何时可以运行(例如:晚上),用户等。
• 如果资源不足,作业将PEND,直到资源条件满足。
• LSF非常易于配置。
2)LSF常用命令
• Gives detailed information for all queues: # bqueues –l
• Shows user activity: # busers
• Displays load information for hosts: # lsload
• Displays hosts and their static and dynamic resources: # bhosts
• Displays information about LSF jobs: # bjobs -u all
• Shows old, completed jobs: # bhist -a
• Check lsf service status: # service lsf status/stop/start
• Starts LIMs on all hosts in the cluster: #lsadmin limstartup all
• Starts RESs on all hosts in the cluster: #lsadmin resstartup all
• Starts sbatchd on all batch server hosts: #badmin hstartup all
5 SCM集群管理
1)增加用户
# adduser
# passwd
# updatenode __Managed -F
在管理节点中编辑环境变量文件:/etc/profile.d/scm.sh,
/etc/profile.d/scm.csh, 然后:
# updatenode __Managed -F
2)增加外部共享NAS
在SCM安装前,在scm.conf中指定,当SCM安装完成后NAS会自动加载;
在SCM已经安装后,可手动安装NAS,在管理节点和计算节点中设置mount点:
1.在所有节点上创建mount目录。 以root用户登录管理节点并运行如下命令:
# mkdir 777 /data
# xdsh __Managed mkdir –m 777 /data
2.然后为所有节点在fstab中添加一行:
# xdsh __Managed “echo “headnode:/data /data nfs defaults 0 0" >> /etc/fstab"
注意:如果要从管理节点共享,还需要在/etc/exports中添加:
/data *(rw,async,no_root_squash)
3. 用以下命令将文件系统挂载到所有节点上:
# xdsh __Managed mount –a
3)节点安装和配置模板
• 节点安装是由配置模板来定义的。
• 配置模板由6部分组成:General, Components, Packages, Partitions, Networks, Post-Install Scripts。
• 配置模板可以在Web GUI中修改:Resources > Node Provisioning > Provisioning Templates。
节点安装可通过操作图形界面来完成, 非常方便。
6 SCM系统监控
登录到SCM系统后,可以监控并报告很多信息:
• Hardware Resources - Monitor and report overall cluster
• Each Compute Node – Summary
• Each Compute Node – Performance
• Each Compute Node – Jobs
• Each Compute Node – Alerts
• Each Compute Node – System Info
• Monitoring and Job Reporting
• Queue Utilization
• And others
7 SCM性能测试
可以使用ECLIPSE E100中的一百万个cell的基准测试来确定性能,并监控在对系统进行任何修改后它的性能是否发生了变化。可与之前运行的结果进行比较。
8 在SCM上安装应用程序
Schlumberger SIS应用程序(和第三方应用程序)可安装在SCM上。
有两种安装方式:用SCM 应用程序kit安装;手动安装。
Kit安装非常方便。当客户购买SCM及其支持时,他们将以kit方式获得SIS应用程序(前提是它支持SCM)。目前以kit格式提供的SIS应用程序包括:ECLIPSE,INTERSECT和PetroMod。VISAGE和PIPESIM计划包含在下一版本中。客户购买这些kit无需额外费用。
SCM 应用程序kit的安装方法以及手动安装应用软件的方法,请参见相关的文档。
9 SCM 参考文档
• SCM, ECLIPSE的文档能从Help 菜单页获得。
• 在缺省状态下, 只有 ECLIPSE的 文档能从Help菜单页获得。安装其它的kit 如INTERSECT和PetroMod后会增加相应的文档。
• 另外, SCM 手册的 pdf 文档能从SCM USB Stick 的 doc目录 以及管理节点的 /usr/local/scm目录获得。