全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

任务执行及开发类

最近更新时间:2026-05-20 16:38:07

Q1:训练任务失败后,如何排查失败原因?

可以通过以下方式排查原因:

  • 查看任务状态:在训练任务中单击指定任务,进入 任务概览 > 实例栏 > 状态,鼠标悬停于「失败」状态上,会显示失败原因。

  • 查看任务日志:在训练任务中单击指定任务,切换到 日志 页签,查看具体的错误信息。

Q2:训练任务创建完成后如何更改配置?

  1. 在训练任务列表中找到对应任务,点击 停止,对该任务进行停止操作。

  2. 将鼠标悬停于 更多 旁的箭头,点击 编辑

  3. 进入编辑任务界面更改配置,编辑完成后点击 保存

  4. 重新启动训练任务即可。

Q3:在个人 PC 上运行 SDK 示例代码时,如何配置 Access Key 进行身份验证?

有两种设置方式:

  • 方式一:设置环境变量

    export KSYUN_SECRET_ID=<您的SecretId>
    export KSYUN_SECRET_KEY=***
  • 方式二:直接在代码中配置

    cred = credential.Credential(
        "您的secretId",
        "您的secretKey"
    )

    cred = credential.Credential(
        os.environ.get("KSYUN_SECRET_ID", "您的AK"),
        os.environ.get("KSYUN_SECRET_KEY", "您的SK")
    )

Q4:在 API 调试时,镜像相关字段如何填写?

  • 使用平台官方镜像或自定义镜像时:
    只需填写 imageId 字段(填入平台镜像管理中看到的镜像 ID),无需填写 imageRegistryIdimageRepoId,保持为空即可。

  • 使用第三方镜像时,需要填写以下三个字段:

    • imageRegistryId:平台中已配置好的第三方镜像 ID。

    • imageRepoId:该镜像在第三方仓库中对应的仓库项目 ID。

    • imageId:镜像的完整标签。

Q5:镜像自动保存失败的情况下,如何确保开发机环境一致性?

  1. 若有镜像自动保存失败的情况,数据库镜像 ID 不会更新。

  2. 建议先停止当前任务,隔离现有环境。

  3. 使用最近保存的镜像版本启动新开发机实例进行验证。

  4. 确认环境一致性后重新关联正确镜像即可。

  5. 其他情况需联系金山云技术支持工程师处理。

Q6:无法查看实例日志怎么办?

  1. 登录控制台查看资源详情。

  2. 查看任务状态是否终止,若终止则说明实例已被集群回收。

  3. 检查资源组中的集群级日志采集系统(klog)功能是否开启。

  4. 若任务结束后在集群里无法查看日志,需要在 klog 界面下查看终止任务日志。

  5. 其他情况需联系金山云技术支持工程师处理。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈