全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

实例诊断

最近更新时间:2025-09-03 15:54:38

实例自助诊断功能可以检测实例性能、网络、GPU等状态,协助您及时发现并了解裸金属实例的常见问题,确保实例正常运行。

操作步骤

  1. 登录裸金属服务器控制台

  2. 在左侧导航栏选择“运维与监控 > 自助诊断”。

  3. 在顶部导航栏选择目标实例所在地域。

  4. 单击“实例诊断”按钮或“实例诊断”页签,根据实例待诊断的当前问题,配置对应信息。

    参数

    说明

    取值样例

    诊断类型

    选择实例使用过程中遇上的问题。取值:

    • GPU设备健康检查:为实例级别检测,支持对所有RoCE实例进行检测,包括检测GPU实例单机内的设备健康(驱动配置、GPU卡和网卡配置是否正常等)、NCCL Test等。

    说明

    • 该检测对实例上运行的业务有损,可能导致业务中断,检测前,请确认实例的业务状态,并选择合适的时间进行检测,例如在业务空闲时进行检测。

    GPU设备健康检查

    诊断名称

    指定诊断的名称,如不设置,默认为ksc_epc_inspect。

    ksc_epc_inspect

    实例选择

    选择待诊断的目标实例。

    • 单个诊断:即一次只能选择一个目标实例进行诊断。

    • 批量诊断:即一次可以选择多台目标实例进行诊断。

    注意

    • 若目标实例已经处于正在诊断分析 的流程中,请等待诊断结束后,再选择该实例进行新的诊断。

    -

  5. 完成配置后,单击“开始诊断”按钮,进入诊断流程。

根据诊断项不同,检测时间也有所不同,请耐心等待,最长不超过60分钟。

  1. 等待诊断结束后,即可查看本次实例诊断结果。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈