高等技术研究院
山东省高等技术研究院是山东省人民政府举办的以高度国际化为特征的新型科研机构,旨在引领和推动区域基础科学研究,服务国家战略。
1 高等技术研究院计算环境
1.1 登陆节点
登陆结点是用户使用计算平台的唯一接口。用户在登陆结点编辑文件、调试程序、提交作业。用户使用账号和密码连接登陆结点成功后,即可使用相应的计算资源。 注:
序号 | 登陆节点操作系统 | 端口 | 登陆入口IP地址 |
---|---|---|---|
1 | Centos 7.8 (64 bit) | 22 | 202.122.37.130 |
2 | Centos 7.8 (64 bit) | 22 | 202.122.37.131 |
3 | Centos 7.8 (64 bit) | 22 | 202.122.37.132 |
1.2 SSH 登陆集群
本节分别介绍 Linux、Windows 还有 macOS环境下如何通过 ssh 登陆集群的方式。
1) Linux 下登陆集群
Linux 下最方便的是通过终端直接 ssh 登陆到集群。
[user@localhost ~] ssh yourusername@202.122.37.130
Password:
2) macOS 下登陆集群
macOS 下登陆集群的方式参考 Linux 下的登陆方式。
3) Windows 下登陆集群
Window 下没有原生的 SSH 客户端,需要安装第三方软件。 Windows 10 中带有原生 SSH 客户端,可通过添加功能添加 OpenSSH 功能。
4) SSH 客户端
Windows 下有很多 SSH 客户端软件,下面是一些比较常用的:
· Putty - 老牌的 SSH 客户端,十分小巧。
· MobaXterm - 带有 Xserver 和 SSH,支持标签页。
· Solar Putty - 支持标签页的 Putty。
· WinSCP - 非常好用的 SSH 客户端。
· Bitvise SSH - SSH Client 免费。
· Xshell - 商业软件,有免费的个人和教育版。
· WSL for Windows - Windows 10 的优选之一,可以完整使用 Linux 终端环境。
5) 登陆示例
下面以 Putty 为例,说明如何登陆集群。
从官网 下载安装包安装 。
打开 Putty,在 Host Name那里填上 user@hostname, 端口 Port 一般为 22。填写好后可以点击下面的 save 保存 session。如有保存 Session, 可以选中 session,点击 load。如图所示。
- 若想使用密钥登陆,在
Connection
->SSH
->Auth
里,填写自己的 密钥路径,如图红框内所示。
- 登陆集群。 点击下方的
Open
。首次连接会提示服务器指纹,选择是或否。“是”将保存指纹,“否”则不保存。保存后登录同一台服务器将不再提示(如果提示,则表示服务器指纹发生了变化,可能是重装系统所致)。
图 3.1-4 忽略连接中可能的警告提示。
若没有选择密钥登陆,则会要求输入密码。
6) 密码修改
密码修改需要在登陆节点上执行
[yanxf@login01 ~]$ kpasswd
Password for yanxf@SDIATKRB5:输入当前密码
Enter new password: 新密码
Enter it again: 新密码
Password changed.
如修改正确,则没有报错信息.
7) 数据拷贝迁移
如果需要从原有集群,或者远程服务器拷贝数据到当前目录,可以参考如下命令
rsync -avz /sourcedir .
rsync 多种用法参考链接
1.3 作业运行提交查看
集群使用HTCondor作为作业调度系统,HTCondor支持高通量计算(High Throughput Computing), 具有快速吞吐计算任务的特点,适合当前计算环境。以下为作业交互基本使用方法:
1) 作业提交
提交作业前,准备一个jdl作业描述文件,jdl文件里需要指明作业脚本路径、标准输出和标准错误文件,提交该jdl文件即可。例如:
- 已知作业脚本test_job.sh(脚本内容为示例,以实际作业为准):
#!/bin/bash
echo "This job is running on $(hostname)."
echo "We're doing a simple operation:"
result=$(expr 1 + 1)
echo " 1+1=$result"
echo "Job Done!"
注意, 该脚本必须有可执行权限,设置脚本可执行权限:
chmod 755 test_job.sh
- 编写作业描述文件test_job.jdl:
universe = vanilla
executable = test_job.sh
output = test_job.sh.out.$(Cluster).$(Process)
error = test_job.sh.error.$(Cluster).$(Process)
queue
其中,universe属性没有特别需要,不必修改;executable属性为作业脚本路径;output属性为标准输出文件,error属性为标准错误文件;最后一行以queue结尾,无特别需要,不必修改。
- 运行命令condor_submit提交作业:
condor_submit test_job.jdl
- 多核作业
在jdl文件中增加request_cpus属性, 如申请32核资源,jdl文件内容如下:
universe = vanilla
executable = test_job.sh
output = test_job.sh.out.$(Cluster).$(Process)
error = test_job.sh.error.$(Cluster).$(Process)
request_cpus = 32
queue
2) 作业状态查询
- 查询指定用户作业,例如,查询用户xiaoming的作业:
condor_q xiaoming
- 查询指定ID作业,例如,查询ID为1001的作业:
condor_q 1001
- 如果作业状态为'H', 表明作业被挂起,可使用如下命令查看H原因:
condor_q 1001 -hold
3) 作业删除
- 删除指定用户作业,例如,删除用户xiaoming的作业:
condor_rm xiaoming
- 删除指定ID作业,例如,删除ID为1001的作业:
condor_rm 1001
4) 其它
详细HTCondor使用说明,参考:
https://htcondor.readthedocs.io/en/stable/users-manual/index.html
更多示例参考:
http://vivaldi.ll.iac.es/sieinvens/siepedia/pmwiki.php?n=HOWTOs.CondorSubmitFile
1.4 文件存储服务
1) 分布式文件系统
分布式文件系统/lustre 为用户个人数据和实验数据提供共享的名字空间和海量存储空间,用户可以像使用本地文件系统一样使用/lustre, 如表1所示:
目录 | 用途 | 访问入口(客户端) | 空间大小 |
---|---|---|---|
/lustre | 用户home目录,实验数据 | 所有节点 | 2.4P+ |
每个用户在/lustre/user下有一个自己的目录,实验数据存放在/lustre/data下面,由数据管理员创建和管理。这两个目录子树对应不同的硬件磁盘池,查看两个磁盘池的使用情况:
#lfs quota -p ams.userpool /lustre
#lfs quota -p ams.datapool /lustre
每个用户的quota为500GB空间,30万个文件,查看方式为
#lfs quota -u wanglu -h /lustre
6个输出结果分别对应 空间占用,空间硬quota,空间软quota, 已经创建的文件数量,文件数量软quota,文件数量硬quota
2) CVMFS软件文件存储
CernVM-FS文件系统提供可伸缩、可靠和低维护的软件分发服务。帮助高能物理在用于运行数据处理应用程序的全球分布式计算基础设施上部署软件。CernVM-FS实现为用户空间中的POSIX只读文件系统(FUSE模块)。文件和目录驻留在标准web服务器上,并挂载在通用名称空间/cvmfs中,供用户作业读取软件,保证集群作业的正常运行。
CVMFS系统当前拥有13个软件卷,为不同实验作业提供软件环境,具体卷信息如表1所示:
路径 | 用途 |
---|---|
/cvmfs/bes3.ihep.ac.cn | 提供bes3所需的软件库 |
/cvmfs/bes.ihep.ac.cn | 提供bes所需的软件库 |
/cvmfs/cepc.ihep.ac.cn | 提供cepc实验所需的数据分析软件 |
/cvmfs/dcomputing.ihep.ac.cn | 提供分布式计算实验所需的数据分析软件 |
/cvmfs/gluex.ihep.ac.cn | 提供gluex实验所需的数据数据分析软件 |
/cvmfs/heps_ap.ihep.ac.cn | 提供HEPS实验所需的数据数据分析软件 |
/cvmfs/juno.ihep.ac.cn | 提供juno实验所需的数据分析软件 |
/cvmfs/lhaaso.ihep.ac.cn | 提供lhaaso实验所需的数据分析软件 |
/cvmfs/mlgpu.ihep.ac.cn | 提供gpu机器学习相关软件 |
表1 CVMFS软件卷概况