最近更新时间:2025-03-25 08:41:34
创建训练任务后,您可以查看任务详情,并对其进行TensorBoard训练指标可视化查看、停止、克隆、删除等操作,本文为您介绍如何查看开发任务详情和管理训练任务等。
已创建训练任务,具体操作,请参见创建训练任务。
创建完训练任务后,返回训练任务列表,点击训练任务实例名称,即可进入训练任务详情。
概览详情中可以查看任务基本信息、任务配置信息、挂载配置信息、资源配置信息、故障检测配置信息、权限配置信息、任务实例信息等。任务实例可以查看日志、事件、进入容器终端等操作。
监控详情中可以查看GPU 温度、GPU 平均温度、GPU 总功率、GPU 功率、Tensor Core 利用率、GPU 利用率、GPU Xid 错误、GPU 显存、GPU PCIe 接收速率、GPU PCIe 传输速率、GPU 内存带宽利用率、CPU 和内存利用率、NVLINK 带宽总量、CPU 使用量(核)、Memory 使用量、网络带宽 Receive、网络带宽 Transmit等指标。
需要注意:监控的展示需要当前开发任务运行的资源池中的KCE容器服务集群已经绑定Prometheus实例,如果集群尚未绑定Prometheus实例,请前往绑定。具体操作请参见Prometheus实例管理
查看训练任务的日志详情。
事件的启用,需要在创建资源池时选择开启Klog日志服务,并选择一个具体的klog工程。
查看训练任务的事件详情。
事件的启用,需要在创建资源池时选择开启Klog日志服务,并选择一个具体的klog工程。
创建训练任务过程中,如果开启了TensorBoard,则可以通过任务列表中点击TensorBoard可视化查看训练指标。
任何状态的训练任务都支持克隆,点击克隆即可对当前训练任务的配置进行复制并进入一个新的创建训练任务页面。
等待、运行中状态的训练任务支持停止,单击停止,停止训练任务。
成功、失败、停止状态下的训练任务支持删除,单击删除,即可删除训练任务。
纯净模式