10. FAQ
10.1 如何寻求帮助
当用户使用计算平台出现问题时,可以通过以下几种方式寻求帮助。
a. 电话服务支持(工作时间接听):88236855
b. 发送邮件咨询: helpdesk@ihep.ac.cn ihep_computing_service@ihep.ac.cn
c. 网页咨询:http://helpdesk.ihep.ac.cn
10.2 登录及账号相关问题
1. 登录lxlogin时,无法编辑文件,出现".Xauthority does not exist 或 "unauthorized"的报错。
登陆lxlogin后
-bash-4.2$ kinit huqb
Password for huqb@IHEPKRB5:
-bash-4.2$ aklog -d
Authenticating to cell ihep.ac.cn (server afsdb1.ihep.ac.cn).
Trying to authenticate to user's realm IHEPKRB5.
Getting tickets: afs/ihep.ac.cn@IHEPKRB5
Using Kerberos V5 ticket natively
About to resolve name huqb to id in cell ihep.ac.cn.
Id 10517
Set username to AFS ID 10517
Setting tokens. AFS ID 10517 @ ihep.ac.cn
-bash-4.2$ rm -f ~/.Xauthority
-bash-4.2$ exit
然后退出重新登陆。
或执行命令,查看空间是否用尽
fs listquota ~
Volume Name Quota Used %Used Partition
u07.huqb 500000 245490 49% 13%
注意查看隐藏文件或文件夹
ls -a ~
2. 我的密码忘记了,如何重置?
用户访问网址https://login.ihep.ac.cn 输入集群账号的注册邮箱,登陆后进行密码修改,使用修改后的密码重新登陆计算环境。
3. 我的密码正确,但无法正常登录
发送账号问题至ihep_computing_service@ihep.ac.cn
4. 我的账号过期了,如何处理
发送过期账号信息和延期申请至实验组负责人,抄送ihep_computing_service@ihep.ac.cn,实验组负责人同意延期后,账号管理员会对账号进行延期操作。
5. 设置登录节点别名
修改 ~/.ssh/config
,设置 SSH 别名。
Host lx
Hostname lxlogin.ihep.ac.cn
User user
Port 22
Host lhmtlogin
Hostname lhmtlogin.lhaaso.ihep.ac.cn
User user
Port 22
之后就可以通过如下方式来登陆集群了。
#### lxlogin.ihep.ac.cn
[user@localhost ~] ssh lx
#### lhmtlogin.lhaaso.ihep.ac.cn
[user@localhost ~] ssh lhmtlogin
10.3 作业相关问题
我的作业排队很久,还是无法运行。
a) 对于近期内运行过大量作业的用户,调度系统会实时计算并调低其优先级,以保证用户间的公平性。
b) 高能所计算集群长期维持于满负荷状态,在个别时期(如作业峰值期、存在高优先级公共服务作业等)资源极度紧张,难免出现长时间排队情况,只能耐心等待。
c) 特殊作业(如长作业、大内存作业等)可用资源有限,可能导致较长排队时间。
d) 排除前面原因后,可联系管理员寻求帮助。
我需要Scientific Linux 5的系统环境调试我的程序,但是登录结点只有scientific linux 6或7,该如何进行?
因安全问题,我们不再提供SL5登录节点,但提供SL5容器供用户调试软件。详情请参阅容器使用小节内容。
查询作业时,显示状态为hold,是什么原因?
最常见原因是向afs、workfs等目录下写出作业数据或日志,而这些目录在计算节点上是只读文件系统。
对HTCondor作业,若确认不是前述原因,可使用下面命令查询作业号为JobID的hold原因:
$ hep_q -i $JobID -hold
或
$ hep_q -u $user -hold
若对前述命令给出的原因说明存在疑问,请保留错误作业并联系管理员寻求帮助。
当发现作业出现问题,希望得到管理员帮助时,需要提供哪些信息?
请提供尽可能详尽的作业信息,包括但不限于作业号(JobID)、大概的作业提交时间、错误现象及提示、作业日志、作业运行路径和脚本等内容,并尽量保留作业现场不删除。管理员获取的信息越多,问题越容易查找。
如何查看我已经使用的计算资源情况?
请根据实际情况参考HTCondor作业、Slurm作业和Hadoop作业等小节中相关内容。
ATLAS用户提交作业失败。
当用户提交作业时返回错误信息如下:
$ Hold reason: Failed to convert environment to target syntax for starter (opsys=LINUX): ERROR: Missing '=' after environment variable ': Intel(R) Xeon(R) CPU E5-2660 0 @ 2.20GHz’.
发生这种错误的原因是:用户个人设置的环境变量中有特殊字符。解决的办法是删除这个环境变量:
$ unset "ALRB_infoProc"
10.4 文件存储相关问题
1. 我的目录突然无法正常写入了?
用户个人目录或是用户组的公共目录都被设置了最大可用份额。当使用空间超过最大可用份额时,相关人员会收到邮件提醒,需要尽快清理目录下文件。如果超过此份额,目录将被封掉,只能联系计算中心工作人员解封后再进行文件清理工作。
2. 我的文件被不小心删除了,还能恢复吗?
EOS 存储部分目录有回收站功能,可联系 李海波-88236883 或 毕玉江-88236838 进行恢复。如果该文件有备份,可以通过备份恢复服务进行恢复。
3. 哪些目录有备份?如何从备份中恢复文件?
有备份的目录列在 备份服务-各应用备份目录,可使用Amanda 进行数据恢复 。
4. 怎么查看我已经使用的存储空间份额?
AFS 存储可以通过 fs quota /afs/ihep.ac.cn/users/u/user
来看用户 user
的份额。 EOS 存储用户可以通过eos quota
命令来查看。
10.5 其它问题
- 我想为实验增加资源,该如何选择具体型号?