1 山东大学计算环境
1.1 登陆节点
登陆结点是用户使用计算平台的唯一接口。用户在登陆结点编辑文件、调试程序、提交作业。用户使用账号和密码连接登陆结点成功后,即可使用相应的计算资源。 注:登陆节点目前只能在学校网络或者登陆学校VPN后访问。
序号 | 登陆节点操作系统 | 域名 | 备注 |
---|---|---|---|
1 | CentOS Linux release 7.8 x86_64 | login01.hepg.sdu.edu.cn | 外网直接登陆 |
2 | CentOS Linux release 7.8 x86_64 | login02.hepg.sdu.edu.cn | 外网直接登陆 |
3 | CentOS Linux release 7.8 x86_64 | login03.hepg.sdu.edu.cn | login01,login02内网跳转 |
1.2 SSH登陆集群
本节分别介绍 Linux、Windows 和 macOS环境下如何通过 ssh 登陆集群的方式。
1.2.1 Linux 下登陆集群
Linux 下最方便的是通过终端直接 ssh 登陆到集群。
[user@localhost ~] ssh username@login01.hepg.sdu.edu.cn
Password:
1.2.2 macOS 下登陆集群
macOS 下登陆集群的方式参考 Linux 下的登陆方式。
1.2.3 Windows 下登陆集群
Window 下没有原生的 SSH 客户端,需要安装第三方软件。 Windows 10 中带有原生 SSH 客户端,可通过添加功能添加 OpenSSH 功能。
1) SSH 客户端
Windows 下有很多 SSH 客户端软件,下面是一些比较常用的:
· Putty - 老牌的 SSH 客户端,十分小巧。
· MobaXterm - 带有 Xserver 和 SSH,支持标签页。
· Solar Putty - 支持标签页的 Putty。
· WinSCP - 非常好用的 SSH 客户端。
· Bitvise SSH - SSH Client 免费。
· Xshell - 商业软件,有免费的个人和教育版。
· WSL for Windows - Windows 10 的优选之一,可以完整使用 Linux 终端环境。
2) 登陆示例
下面以 Putty 为例,说明如何登陆集群。
\1. 从官网 下载安装包安装 。
\2. 打开 Putty,在 Host Name那里填上 user@hostname, 端口 Port 一般为 22。填写好后可以点击下面的 save 保存 session。如有保存 Session, 可以选中 session,点击 load。如图所示。
\3. 若想使用密钥登陆,在 Connection
-> SSH
-> Auth
里,填写自己的 密钥路径,如图红框内所示。
\4. 登陆集群。 点击下方的 Open
。首次连接会提示服务器指纹,选择是或否。“是”将保存指纹,“否”则不保存。保存后登录同一台服务器将不再提示(如果提示,则表示服务器指纹发生了变化,可能是重装系统所致)。
图 3.1-4 忽略连接中可能的警告提示。
若没有选择密钥登陆,则会要求输入密码。
1.2.4 密码修改
密码修改需要在登陆节点上执行
-bash-4.2$ passwd
Changing password for user zhengwei.
(current) LDAP Password:
New password:
Retype new password:
passwd: all authentication tokens updated successfully.
1.2.5 数据拷贝迁移
如果需要从原有集群,或者远程服务器拷贝数据到当前目录,可以参考如下命令
rsync -avz /sourcedir .
rsync 多种用法参考链接
1.3 作业运行提交查看
集群使用HTCondor作为作业调度系统,HTCondor支持高通量计算(High Throughput Computing), 具有快速吞吐计算任务的特点,适合当前计算环境。以下为作业交互基本使用方法:
1.3.1 作业提交
提交作业前,准备一个jdl作业描述文件,jdl文件里需要指明作业脚本路径、标准输出和标准错误文件,提交该jdl文件即可。例如:
- 已知作业脚本test_job.sh(脚本内容为示例,以实际作业为准):
#!/bin/bash
echo "This job is running on $(hostname)."
echo "We're doing a simple operation:"
result=$(expr 1 + 1)
echo " 1+1=$result"
echo "Job Done!"
注意, 该脚本必须有可执行权限,设置脚本可执行权限:
chmod 755 test_job.sh
- 编写作业描述文件test_job.jdl:
universe = vanilla
executable = test_job.sh
output = test_job.sh.out.$(Cluster).$(Process)
error = test_job.sh.error.$(Cluster).$(Process)
queue
其中,universe属性没有特别需要,不必修改;executable属性为作业脚本路径;output属性为标准输出文件,error属性为标准错误文件;最后一行以queue结尾,无特别需要,不必修改。
- 检查作业是否有特殊资源需求
- 选择不同操作系统版本。目前,集群中有SL6和CentOS7两种不同操作系统版本的计算资源,因此,在提交作业时需要特别指定需要的操作系统版本,添加requirements属性如下所示:
# request SL6 operating system
requirements = Target.OpSysAndVer == "SL6"
或
# request CentOS7 operating system
requirements = Target.OpSysAndVer == "CentOS7"
注意,如果不指定操作系统版本,作业会被随机分配到SL6或CentOS7的计算节点上。
- 运行命令condor_submit提交作业:
condor_submit test_job.jdl
1.3.2 作业状态查询
- 查询指定用户作业,例如,查询用户xiaoming的作业:
condor_q xiaoming
- 查询指定ID作业,例如,查询ID为1001的作业:
condor_q 1001
- 如果作业状态为'H', 表明作业被挂起,可使用如下命令查看H原因:
condor_q 1001 -hold
1.3.3 作业删除
- 删除指定用户作业,例如,删除用户xiaoming的作业:
condor_rm xiaoming
- 删除指定ID作业,例如,删除ID为1001的作业:
condor_rm 1001
1.3.4 其它
详细HTCondor使用说明,参考:
https://htcondor.readthedocs.io/en/stable/users-manual/index.html
更多示例参考:
http://vivaldi.ll.iac.es/sieinvens/siepedia/pmwiki.php?n=HOWTOs.CondorSubmitFile
1.4 文件存储服务
1.4.1 用户文件存储
本集群使用Lustre作为文件存储管理系统。LUSTRE是一个开源、可扩展的高性能面向对象的并行文件系统,被广泛应用于超级计算平台。在全球的超级计算机中有超过70%使用了LUSTRE文件系统。LUSTRE由元数据服务器(MDS)、对象存储服务器(OSS)以及客户端组成。通过元数据服务器,LUSTRE将所有对象存储服务器上存储设备组成统一的存储空间,提供给客户端挂载,完全兼容POSIX语义。LUSTRE具有很强的可扩展性,能够轻松管理数十PB的存储空间,且具有极高的性能,聚合带宽能够达到每秒几十甚至上百GB,因此其在高性能计算领域获得广泛应用。但是,由于LUSTRE元数据服务器的限制,在管理海量小文件时不具有优势,且不支持纠删码、副本等功能,因此LUSTRE文件系统被主要用于海量的实验数据存储。
当前lustre文件系统的信息如表1所示:
目录 | 用途 | 访问入口(客户端) | 空间大小 | 用户空间限额 |
---|---|---|---|---|
/sdufs | 实验数据,用户数据 | 所有节点 | 336TB | |
/sdufs2 | 实验数据,用户数据 | 所有节点 | 460TB | |
/belle2fs/home | 用户数据 | 所有节点 | *TB | 每人5G |
/belle2fs/bes3 | bes3实验数据 | 所有节点 | 250TB | 7TB |
/belle2fs/belle2 | belle2实验数据 | 所有节点 | 200TB | 14TB |
/belle2fs/sdu_hep | hep实验数据 | 所有节点 | 45TB | 每人500G |
1.4.2 用户查看目录使用配额
1.在特定目录下,对任意一个普通文件(非目录)执行命令lsattr -p ,查看该目录的project id
#lsattr -p nohup.out
1097 -----------------P nohup.out
发现这个目录的project id 是1097
2.执行 命令lfs quota -p 1097 /belle2fs ,查看该目录的配额使用情况
lfs quota -p 1097 -h /belle2fs
Disk quotas for prj 1097 (pid 1097):
Filesystem used quota limit grace files quota limit grace
/besfs5 1.362T* 50G 50G - 293249 0 0 -
1.4.3 CVMFS软件文件存储
CernVM-FS文件系统提供可伸缩、可靠和低维护的软件分发服务。帮助高能物理在用于运行数据处理应用程序的全球分布式计算基础设施上部署软件。CernVM-FS实现为用户空间中的POSIX只读文件系统(FUSE模块)。文件和目录驻留在标准web服务器上,并挂载在通用名称空间/cvmfs中,供用户作业读取软件,保证集群作业的正常运行。
CVMFS系统当前拥有13个软件卷,为不同实验作业提供软件环境,具体卷信息如表1所示:
路径 | 用途 |
---|---|
/cvmfs/bes3.ihep.ac.cn | 提供bes3所需的软件库 |
/cvmfs/bes.ihep.ac.cn | 提供bes所需的软件库 |
/cvmfs/cepc.ihep.ac.cn | 提供cepc实验所需的数据分析软件 |
/cvmfs/dcomputing.ihep.ac.cn | 提供分布式计算实验所需的数据分析软件 |
/cvmfs/gluex.ihep.ac.cn | 提供gluex实验所需的数据数据分析软件 |
/cvmfs/heps_ap.ihep.ac.cn | 提供HEPS实验所需的数据数据分析软件 |
/cvmfs/juno.ihep.ac.cn | 提供juno实验所需的数据分析软件 |
/cvmfs/lhaaso.ihep.ac.cn | 提供lhaaso实验所需的数据分析软件 |
/cvmfs/mlgpu.ihep.ac.cn | 提供gpu机器学习相关软件 |
/cvmfs/container.ihep.ac.cn | 提供容器运行环境 |
表1 CVMFS软件卷概况
1.5 站点监控服务
站点资源监控/SDU Resource Monitor :
站点运行监控/SDU Operational Monitor :
https://sitemon.ihep.ac.cn/grafana/d/WDuJRvqGz/yun-xing-jian-kong-sdu-operational-monitor?orgId=1