10. FAQ

10.1 如何寻求帮助

当用户使用计算平台出现问题时,可以通过以下几种方式寻求帮助。

a. 电话服务支持(工作时间接听):88236855

b. 发送邮件咨询: helpdesk@ihep.ac.cn ihep_computing_service@ihep.ac.cn

c. 网页咨询:http://helpdesk.ihep.ac.cn

10.2 登录及账号相关问题

1. 登录lxslc7时,无法编辑文件,出现".Xauthority does not exist 或 "unauthorized"的报错。

登陆lxslc7后

-bash-4.2$ kinit huqb
Password for huqb@IHEPKRB5:
-bash-4.2$ aklog -d
Authenticating to cell ihep.ac.cn (server afsdb1.ihep.ac.cn).
Trying to authenticate to user's realm IHEPKRB5.
Getting tickets: afs/ihep.ac.cn@IHEPKRB5
Using Kerberos V5 ticket natively
About to resolve name huqb to id in cell ihep.ac.cn.
Id 10517
Set username to AFS ID 10517
Setting tokens. AFS ID 10517 @ ihep.ac.cn
-bash-4.2$ rm -f ~/.Xauthority 
-bash-4.2$ exit 

然后退出重新登陆。

或执行命令,查看空间是否用尽

fs listquota ~
Volume Name                    Quota       Used %Used   Partition
u07.huqb                      500000     245490   49%         13% 

注意查看隐藏文件或文件夹

ls -a ~

2. 我的密码忘记了,如何重置?

用户访问网址https://login.ihep.ac.cn 输入集群账号的注册邮箱,登陆后进行密码修改,使用修改后的密码重新登陆计算环境。

3. 我的密码正确,但无法正常登录

发送账号问题至ihep_computing_service@ihep.ac.cn

4. 我的账号过期了,如何处理

发送过期账号信息和延期申请至实验组负责人,抄送ihep_computing_service@ihep.ac.cn,实验组负责人同意延期后,账号管理员会对账号进行延期操作。

5. 设置登录节点别名

修改 ~/.ssh/config,设置 SSH 别名。

Host lx6
    Hostname lxslc6.ihep.ac.cn
    User user
    Port 22
Host lx7
    Hostname lxslc7.ihep.ac.cn
    User user
    Port 22
Host lhmtlogin
    Hostname lhmtlogin.lhaaso.ihep.ac.cn
    User user
    Port 22

之后就可以通过如下方式来登陆集群了。

#### lxslc6.ihep.ac.cn
[user@localhost ~] ssh lx6
#### lxslc7.ihep.ac.cn
[user@localhost ~] ssh lx7
#### lhmtlogin.lhaaso.ihep.ac.cn
[user@localhost ~] ssh lhmtlogin

10.3 作业相关问题

  1. 我的作业排队很久,还是无法运行。

    a) 对于近期内运行过大量作业的用户,调度系统会实时计算并调低其优先级,以保证用户间的公平性。

    b) 高能所计算集群长期维持于满负荷状态,在个别时期(如作业峰值期、存在高优先级公共服务作业等)资源极度紧张,难免出现长时间排队情况,只能耐心等待。

    c) 特殊作业(如长作业、大内存作业等)可用资源有限,可能导致较长排队时间。

    d) 排除前面原因后,可联系管理员寻求帮助。

  2. 我需要Scientific Linux 5的系统环境调试我的程序,但是登录结点只有scientific linux 6或7,该如何进行?

    因安全问题,我们不再提供SL5登录节点,但提供SL5容器供用户调试软件。详情请参阅容器使用小节内容。

  3. 查询作业时,显示状态为hold,是什么原因?

    最常见原因是向afs、workfs等目录下写出作业数据或日志,而这些目录在计算节点上是只读文件系统。

    对HTCondor作业,若确认不是前述原因,可使用下面命令查询作业号为JobID的hold原因:

     $ hep_q -i $JobID -hold
    

     $ hep_q -u $user -hold
    

    若对前述命令给出的原因说明存在疑问,请保留错误作业并联系管理员寻求帮助。

  4. 当发现作业出现问题,希望得到管理员帮助时,需要提供哪些信息?

    请提供尽可能详尽的作业信息,包括但不限于作业号(JobID)、大概的作业提交时间、错误现象及提示、作业日志、作业运行路径和脚本等内容,并尽量保留作业现场不删除。管理员获取的信息越多,问题越容易查找。

  5. 如何查看我已经使用的计算资源情况?

    请根据实际情况参考HTCondor作业Slurm作业Hadoop作业等小节中相关内容。

  6. ATLAS用户提交作业失败。

    当用户提交作业时返回错误信息如下:

     $ Hold reason: Failed to convert environment to target syntax for starter (opsys=LINUX): ERROR: Missing '=' after environment variable ': Intel(R) Xeon(R) CPU E5-2660 0 @ 2.20GHz’.
    

    发生这种错误的原因是:用户个人设置的环境变量中有特殊字符。解决的办法是删除这个环境变量:

     $ unset "ALRB_infoProc"
    

10.4 文件存储相关问题

1. 我的目录突然无法正常写入了?

用户个人目录或是用户组的公共目录都被设置了最大可用份额。当使用空间超过最大可用份额时,相关人员会收到邮件提醒,需要尽快清理目录下文件。如果超过此份额,目录将被封掉,只能联系计算中心工作人员解封后再进行文件清理工作。

2. 我的文件被不小心删除了,还能恢复吗?

EOS 存储部分目录有回收站功能,可联系 李海波-88236883毕玉江-88236838 进行恢复。如果该文件有备份,可以通过备份恢复服务进行恢复。

3. 哪些目录有备份?如何从备份中恢复文件?

有备份的目录列在 备份服务-各应用备份目录,可使用Amanda 进行数据恢复

4. 怎么查看我已经使用的存储空间份额?

AFS 存储可以通过 fs quota /afs/ihep.ac.cn/users/u/user 来看用户 user 的份额。 EOS 存储用户可以通过eos quota命令来查看。

10.5 其它问题

  1. 我想为实验增加资源,该如何选择具体型号?

results matching ""

    No results matching ""