1 兰州大学计算环境
1.1 登陆节点
登陆结点是用户使用计算平台的唯一接口。用户在登陆结点编辑文件、调试程序、提交作业。用户使用账号和密码连接登陆结点成功后,即可使用相应的计算资源。
| 序号 | 登陆节点操作系统 | 数量 | 域名 |
|---|---|---|---|
| 1 | Scientific Linux 7.7 (64 bit) | 1 | login.lzuhep.lzu.edu.cn |
1.2 SSH登陆集群
本节分别介绍 Linux、Windows 和 macOS环境下如何通过 ssh 登陆集群的方式。
1.2.1 Linux 下登陆集群
Linux 下最方便的是通过终端直接 ssh 登陆到集群。
[user@localhost ~] ssh username@farm0.lzuhep.lzu.edu.cn
Password:
1.2.2 macOS 下登陆集群
macOS 下登陆集群的方式参考 Linux 下的登陆方式。
1.2.3 Windows 下登陆集群
Window 下没有原生的 SSH 客户端,需要安装第三方软件。 Windows 10 中带有原生 SSH 客户端,可通过添加功能添加 OpenSSH 功能。
1) SSH 客户端
Windows 下有很多 SSH 客户端软件,下面是一些比较常用的:
· Putty - 老牌的 SSH 客户端,十分小巧。
· MobaXterm - 带有 Xserver 和 SSH,支持标签页。
· Solar Putty - 支持标签页的 Putty。
· WinSCP - 非常好用的 SSH 客户端。
· Bitvise SSH - SSH Client 免费。
· Xshell - 商业软件,有免费的个人和教育版。
· WSL for Windows - Windows 10 的优选之一,可以完整使用 Linux 终端环境。
2) 登陆示例
下面以 Putty 为例,说明如何登陆集群。
\1. 从官网 下载安装包安装 。
\2. 打开 Putty,在 Host Name那里填上 user@hostname, 端口 Port 一般为 22。填写好后可以点击下面的 save 保存 session。如有保存 Session, 可以选中 session,点击 load。如图所示。

\3. 若想使用密钥登陆,在 Connection -> SSH -> Auth 里,填写自己的 密钥路径,如图红框内所示。

\4. 登陆集群。 点击下方的 Open。首次连接会提示服务器指纹,选择是或否。“是”将保存指纹,“否”则不保存。保存后登录同一台服务器将不再提示(如果提示,则表示服务器指纹发生了变化,可能是重装系统所致)。

图 3.1-4 忽略连接中可能的警告提示。
若没有选择密钥登陆,则会要求输入密码。

1.2.4 密码修改
在登陆节点上执行
yppasswd
1.3 作业运行提交查看
本地集群使用HTCondor作为作业调度系统,HTCondor集群支持高通量计算(High Throughput Computing),具有快速吞吐计算任务的特变,适合高能物理计算环境。以下为作业交互基本使用方法,更详细的使用说明参考(http://afsapply.ihep.ac.cn/cchelp/zh/local-cluster/jobs/HTCondor/)
1.3.1 作业提交
$ hep_sub job.sh # 默认使用SL6容器运行作业
$ hep_sub job.sh -os SL7 # 提交运行在SL7操作系统的作业
1.3.2 作业状态查询
$ hep_q -u # 查询当前用户下的所有作业
$ hep_q -i 4414 # 查询作业号为4414的作业状态
1.3.3 作业删除
$ hep_rm 4414 # 删除JobID为4414的作业
$ hep_rm -a # 删除当前用户的全部作业
1.3.4 其它
如使用GPU,请使用如下命令提交作业
$ hep_sub job.sh -os SL7 -wn farm2.lzuhep.lzu.edu.cn
1.4 容器使用
Singularity是目前在高性能计算平台上被大量应用的轻量虚拟化容器技术,能够提供操作系统级的虚拟化。 Hep_container是基于singularity容器管理命令开发的适用于高能所计算集群的容器客户端工具,满足用户使用多种操作系统版本及环境的需求。 说明:本文涉及的命令均需要在登陆节点上运行,所用命令在以下目录,建议将下面目录加入用户个人环境变量 PATH 中。
/cvmfs/container.ihep.ac.cn/bin/
1.4.1 命令说明
Hep_container的容器命令主要有三种操作images、shell、exec。可以在命令行中通过help参数查看各个命令的使用说明和样例
$ ./hep_container help
Usage : ./hep_container
CONTAINER USAGE COMMANDS:
shell Run a Bourne shell within container image
exec Execute a command within container image
images List Support container images
groups List Support groups
-g groupname With a specific group name
EXAMPLES:
./hep_container images
./hep_container groups
./hep_container shell SL5
./hep_container shell SL5 -g physics
./hep_container exec SL5 cat /etc/redhat-release
./hep_container exec SL5 python ./yourprograme.py
./hep_container exec SL5 -g physics cat /etc/redhat-release
1.4.2 查看支持镜像
命令格式:hep_container images 该指令可以查看当前提供的操作系统容器镜像。
$ hep_container images
Hep_container support images:
SL5 : Scientific Linux 5
SL6 : Scientific Linux 6
1.4.3 查看支持用户组/实验组
命令格式:hep_container groups 该指令可以查看容器命令当前支持提供的用户组或者实验组。通过 -g 参数指定用户组或实验组,容器内会挂载对应用户目录和实验目录。不指定-g参数默认采用主组作为用户组或实验组。
$ hep_container groups
Hep_container support groups:
lzuhep|kc2019|
1.4.4 进入容器环境
命令格式:hep_container shell [container image] 该指令可以在容器内启动一个shell,因此可以在容器外部与容器内部进行交互操作。运行exit则可以退出该shell。 下例为运行启动一个SL6操作系统镜像后,用户当前为SL6的系统环境.
$ hep_container shell SL6
Singularity: Invoking an interactive shell within container...
Singularity> cat /etc/redhat-release
Scientific Linux SL release 6.9 (Carbon)
Singularity> exit
exit
1.4.5 容器内执行命令
命令格式:hep_container exec [container image] [command] 该指令可以在外部主机上将指定的command运行在指定的容器内。 下例为在SL6的环境容器运行命令,并得到结果。
$ hep_container exec SL6 cat /etc/redhat-release
Scientific Linux release 6.9 (Carbon)
1.5 文件存储服务
1.5.1 用户文件存储
本集群使用NFS作为文件存储管理系统。NFS是一种简单的网络文件系统,客户端通过挂载方式访问服务器上数据,存储空间受到单台服务器的限制。计算中心部署了多套NFS系统,为用户和实验组提供存储空间,用于保存软件、脚本和一些实验数据,用户可以在NFS目录下提交作业。NFS主要可作为用户HOME目录,支持作业提交,但是它可扩展性差、访问速度慢、维护复杂,将在以后被逐步淘汰。在计算平台中,提供了多个NFS文件系统,具体信息如下表所示。
| 目录 | 用途 | 访问入口(客户端) | 空间大小 |
|---|---|---|---|
| /home | 用户根目录 | 所有节点 | 728G |
| /data | 实验数据 | 所有节点 | 21TB |
| /data2 | 实验数据 | 所有节点 |
1.5.2 CVMFS软件文件存储
CernVM-FS文件系统提供可伸缩、可靠和低维护的软件分发服务。帮助高能物理在用于运行数据处理应用程序的全球分布式计算基础设施上部署软件。CernVM-FS实现为用户空间中的POSIX只读文件系统(FUSE模块)。文件和目录驻留在标准web服务器上,并挂载在通用名称空间/cvmfs中,供用户作业读取软件,保证集群作业的正常运行。
CVMFS系统当前拥有13个软件卷,为不同实验作业提供软件环境,具体卷信息如表1所示:
| 路径 | 用途 |
|---|---|
| /cvmfs/bes.ihep.ac.cn | 提供bes所需的软件库 |
| /cvmfs/cepc.ihep.ac.cn | 提供cepc实验所需的数据分析软件 |
| /cvmfs/dcomputing.ihep.ac.cn | 提供分布式计算实验所需的数据分析软件 |
| /cvmfs/gluex.ihep.ac.cn | 提供gluex实验所需的数据数据分析软件 |
| /cvmfs/heps_ap.ihep.ac.cn | 提供HEPS实验所需的数据数据分析软件 |
| /cvmfs/juno.ihep.ac.cn | 提供juno实验所需的数据分析软件 |
| /cvmfs/lhaaso.ihep.ac.cn | 提供lhaaso实验所需的数据分析软件 |
| /cvmfs/mlgpu.ihep.ac.cn | 提供gpu机器学习相关软件 |
表1 CVMFS软件卷概况