1 兰州大学计算环境
1.1 账户申请
兰州大学计算集群用户管理采用申请审核制,用户可通过该链接填写个人信息申请开通相关账户,账户有效期为一年。 如遇到任何问题请联系管理员lzuhep_exp_pub@outlook.com。
1.2 登陆节点
兰州大学计算集群登陆节点为用户使用计算平台的唯一接口。用户在登陆节点编辑文件、调试程序、提交作业。目前登录节点支持用户使用账号密码或SSH密钥登录。
序号 | 登陆节点操作系统 | 数量 | 域名 |
---|---|---|---|
1 | AlmaLinux 9.4 (64 bit) | 4 | lzulogin01.hep.lzu.edu.cn-lzulogin04.hep.lzu.edu.cn |
- 用户通过username@login.lzuhep.lzu.edu.cn登录集群后,将被随机分配到
login
和gpu01
两个节点,节点跳转时会提示用户再次输入密码(可设置ssh免密登录)。 login
和gpu01
均提供给用户的作为前台节点使用,两节点间可通过ssh 节点名
跳转。gpu01
节点额外提供两块NVIDIA RTX2080 Ti
显卡供用户前台调试GPU作用使用。
1.3 密码修改
密码口令安全防范要求
(1)不要使用弱口令。应使用 4 种类型字符(大小写字母、数字、特殊字符)、至少 10 位的口令。且不要包含用户名、个人信息、常见单词、简单字母序列、数字序列或键盘按键序列。
(2)不要在所外公共信息系统(比如微信、QQ、各类网站或APP等)使用和站点账户一样的口令。
(3)定期修改口令,建议一年修改一次。
(4)不得将账号口令借给他人使用。
在登陆节点上执行passwd命令以修改密码,密码修改后10分钟后新密码生效
[username@login ~]$ passwd
Changing password for user username.
Changing password for username.
(current) UNIX password:
New "Require:Upcase,Lowercase,Digit,SpecialCharacter,>10lenght" password:
Retype new "Require:Upcase,Lowercase,Digit,SpecialCharacter,>10lenght" password:
passwd: all authentication tokens updated successfully.
注:若需重置密码,请联系管理员lzuhep_exp_pub@outlook.com。
1.4 作业运行提交查看
兰州大学计算集群使用HTCondor作为作业调度系统,HTCondor集群支持高通量计算(High Throughput Computing),具有快速吞吐计算任务的特变,适合高能物理计算环境。以下为作业交互基本使用方法,更详细的使用说明参考 HTCondor 作业。
1.4.1 加载服务器作业所需环境
为使用HTCondor作业调度系统,推荐用户将如下命令添加至个人bashrc
中
$ source /cvmfs/common.ihep.ac.cn/software/hepjob/setup_hepjob.sh lzu # 加载cvmfs环境
$ export PATH=/cvmfs/container.ihep.ac.cn/bin:$PATH # 加载容器环境
注:建议用户将需要长时间运行(1小时以上)的程序以作业形式提交到计算队列。提交作业前,必须加载作业环境。
1.4.2 CPU作业提交
$ hep_sub job.sh # 默认提交方式(推荐)
$ hep_sub job.sh -os SL7 # 提交运行在SL7操作系统的作业
$ hep_sub job.sh -g lzuhep # 指定作业提交的组信息
1.4.3 GPU作业提交
$ hep_sub job.sh -gpu 1 -cpu 1 # 提交作业到GPU节点,并指定使用1张GPU卡,1个CPU线程
注:gpu01
节点加载有两张NVIDIA RTX2080 Ti
显卡,仅供用户前台调试GPU作业使用。
1.4.4 作业状态查询
$ hep_q -u username # 查询当前用户下的所有作业
$ hep_q -i 9527.0 # 查询作业号为9527.0的作业状态
1.4.5 作业删除
$ hep_rm 9527.0 # 删除JobID为9527.0的作业
$ hep_rm -a # 删除当前用户的全部作业
$ hep_rm 9527.0 -forcex # 强制删除作业
$ hep_rm 9527 # 批量删除9527.x对应的作业
1.4.6 作业hold处理
$ hep_q -u username -hold # 查询当前用户hold作业的原因
$ hep_release -a # 释放用户当前hold作业重新进入作业队列
1.4.7 作业时长
作业时长限制默认为100小时,如预期超过100小时,须指定长作业队列。
$ hep_sub job.sh -wt long # 指定提交长作业队列,限制30天
注:如需要提交大量长作业到队列,请提前联系管理员进行调度,以防极端调度情况发生,
1.4.8 作业内存
作业内存限制默认是3GB,可指定内存大小。
$ hep_sub job.sh -mem 3000 # 指定作业内存占用,3000代表3G
1.4.9 作业线程
CPU作业默认为单线程
$ hep_sub job.sh -cpu 1 # 指定线程数
注:作业无法跨计算节点调度,故单个作业指定线程数不能超过该计算节点的线程总数。
1.4.10 利用全局变量获取作业信息
以下全局变量可加入作业脚本中,使其输出作业信息
$_CONDOR_IHEP_JOB_ID # 作业ID
$_CONDOR_IHEP_REMOTE_HOST # 作业运行节点
$CUDA_VISIBLE_DEVICES # GPU信息
$_CONDOR_AssignedGPUs # GPU信息
1.5 文件存储服务
1.5.1 用户文件存储
本集群使用Lustre作为文件存储管理系统。Lustre是一种开源的高性能并行分布式文件系统,通常用于大规模高性能计算(HPC)环境中,提供了高性能、可扩展性和可靠性,适用于需要处理大规模数据集的应用场景。计算中心部署了多套Lustre系统,为用户和实验组提供存储空间,用于保存软件、脚本和一些实验数据。在计算平台中,Lustre提供了多目录,具体信息如下表所示。
目录 | 用途 | 访问入口(客户端) | 空间大小 |
---|---|---|---|
/lzufs/data | 用于存储实验公共数据 | 所有节点 | 与user合计2PB |
/lzufs/home | 用于存储个人程序 | 所有节点 | 366TB |
/lzufs/user | 用于存储个人数据 | 所有节点 | 与data合计2PB |
/lzufs/user2 | 用于存储个人数据 | 所有节点 | 1.5PB |
/lzufs/user2/bakup | 用于备份用户home空间 | 所有节点 | 500TB |
1.5.2 CVMFS软件文件存储
CernVM-FS文件系统提供可伸缩、可靠和低维护的软件分发服务。帮助高能物理在用于运行数据处理应用程序的全球分布式计算基础设施上部署软件。CernVM-FS实现为用户空间中的POSIX只读文件系统(FUSE模块)。文件和目录驻留在标准web服务器上,并挂载在通用名称空间/cvmfs中,供用户作业读取软件,保证集群作业的正常运行。
CVMFS系统当前拥有13个软件卷,为不同实验作业提供软件环境,具体卷信息如表1所示:
路径 | 用途 |
---|---|
/cvmfs/bes3.ihep.ac.cn | 提供bes3所需的软件库 |
/cvmfs/bes.ihep.ac.cn | 提供bes所需的软件库 |
/cvmfs/cepc.ihep.ac.cn | 提供cepc实验所需的数据分析软件 |
/cvmfs/dcomputing.ihep.ac.cn | 提供分布式计算实验所需的数据分析软件 |
/cvmfs/gluex.ihep.ac.cn | 提供gluex实验所需的数据数据分析软件 |
/cvmfs/heps_ap.ihep.ac.cn | 提供HEPS实验所需的数据数据分析软件 |
/cvmfs/juno.ihep.ac.cn | 提供juno实验所需的数据分析软件 |
/cvmfs/lhaaso.ihep.ac.cn | 提供lhaaso实验所需的数据分析软件 |
/cvmfs/mlgpu.ihep.ac.cn | 提供gpu机器学习相关软件 |
/cvmfs/lhcb.cern.ch | 提供lhcb所需软件库 |