全局管理简介

最近更新时间:2021-04-09 18:18:00

查看PDF

在KingAI全局管理模块中,支持管理员对KingAI平台资源进行管理与监控,同时支持对子账号进行算力的分配与管理,全局管理一共分为资源管理、用户管理、活动日志、个人中心、镜像管理、AI商店六个功能模块。

资源管理

在KingAI资源管理模块中,支持主账号对所有子账号消耗的资源进行监控与管理,包含算力监控、集群监控和集群节点管理三部分。仅有主账可以显示该功能模块。

  1. 算力监控:支持监控平台资源的使用情况,监控指标如下:

    • 集群算力:以节点为监控粒度进行监控,显示当前空闲资源和总资源(可调度部分)。

    • 用户容器使用情况:支持查看用户的容器使用情况,显示信息包含用户名称、已使用算力时、CPU资源使用率、内存资源使用率、GPU资源使用率和资源闲置率等,支持按时间进行筛选,查看历史的使用情况。

    • 集群资源使用率:集群资源使用率为集群CPU资源使用情况。

    • 系统事件:显示任务的事件信息,包含事件名称、时间等字段。

    • 系统资源占用分析:显示各模块占用系统资源的占比情况,支持按不同CPU、GPU计算资源进行筛选展示。

    • 用户资源使用排名:显示主账号下所有子账号的资源使用排名情况,支持按时间、不同CPU、GPU计算资源维度进行筛选展示。

  2. 集群节点管理:支持用户对集群节点进行管理,支持对不同节点进行购买、启用、停用、删除等操作。

  3. 资源监控:支持监控平台集群的资源使用情况,监控集群、服务器、容器等多多维度,监控多项指标的动态变化。如下为一些示例指标及介绍:

    • CPU使用情况:该监控项展示了集群、各节点、各Pod的CPU使用率百分比,当CPU使用率比较高时会影响KingAI服务。

    • CPU平均负载:平均负载是指固定分钟同时处于就绪状态的平均进程数,监控维度分为1分钟、5分钟和10分钟三个维度。

    • GPU使用情况:该监控项展示了集群、各节点、各Pod的GPU使用率百分比。

    • 内存使用情况:监控项展示了集群、各节点、各Pod的HeapMemory使用率百分比。

    • 磁盘使用量:该监控项展示了集群、各节点、各Pod的磁盘使用率百分比。

    • 磁盘吞吐:该监控项展示了集群、各节点、各Pod在一秒内,磁盘进行多少次 I/O 读写。

    • IOPS:指单位时间内系统能处理的I/O请求数量,分为读、写两个维度。

    • 网络接收/传输:指网络接收和传输的速度;分为接受、传输两个维度。

用户管理

在KingAI用户管理模块中,支持管理员将平台中的算力资源进行统一管理分配,给用户进行统一算力上限管理,算力分配等,提高算力资源利用效率。仅有主账可以显示该功能模块。设置算力型号包含:

  • CPU使用上限,单位核心。

  • 内存使用上限,单位GB。

  • GPU型号(包含P40、tesla t4、titan V等多种GPU型号)和使用上限。

注意:子账号初次进入KingAI平台,算力资源上限和算力时均为0,需要管理员对子账号进行设置算力型号和算力分配的操作。

活动日志

在KingAI活动日志模块中,支持显示用户任务的调用事件(包含新建、暂停、编辑、删除等),详情如下:

  • 显示事件名称、事件开始类型、事件结束事件、状态等基本信息。

  • 支持根据时间跨度、事件类型进行筛选。

个人中心

在KingAI个人中心模块中,支持显示个人中心的算力信息,详情如下:

  • 支持显示用户算力信息,包含当前可用算力时、累计获取算力时、累计消耗算力时等。

  • 支持显示用户资源使用上限,包含CPU 使用上限、内存使用上限、GPU型号和使用上限。

  • 支持显示用户的算力消耗记录,包含时间、算力用量、占用信息,其中占用信息显示任务名称,支持任务名称跳转到该条任务中。

  • 支持显示用户的算力获取记录,包含时间、分配算力等信息。

  • 以正在运行和历史运行两个维度显示用户的任务统计,包含信息如下:任务名称、任务类型、算力用量、开始和结束时间。

文档内容是否对您有帮助?

根本没帮助
文档较差
文档一般
文档不错
文档很好

在文档使用中是否遇到以下问题

内容不全,不深入
内容更新不及时
描述不清晰,比较混乱
系统或功能太复杂,缺乏足够的引导
内容冗长

更多建议

0/200

评价建议不能为空

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

问题反馈