集群管理的一个重要目标是提高资源利用率,随着集群规模的扩大,基础设施成本上涨,资源利用率问题逐步突显,为降低成本,我们提供离在线混部方案。
1.登录金山云KMR控制台。
2.点击集群名称进入集群详情界面。
3.点击弹性伸缩页面的添加时间弹性策略进入配置界面。
4.配置相应策略,实现离在线混部。
当资源类型选为主机时,可参考弹性伸缩配置。
仅新建task支持选择容器,目前仅分时弹性类型支持选择容器。
资源类型: 当资源类型选为容器时,若集群在线业务资源不足,可能会抢占离线资源,造成任务中断。可通过Yarn Label管理队列放置非核心任务。
容器集群: KMR集群同一VPC下的容器集群。
磁盘可用容量: 计算过程中产生的shuffle数据存储在worker数据盘,建议您容器集群worker数据盘可用容量至少500G(可根据实际业务情况调整)。worker单盘可用容量小于设置容量将不启动POD。
计算资源冗余: 默认填写建议值:30%。最大100%,最小1%(每个worker离线资源预留量会根据您设置的资源冗余百分比,预留相应资源,建议您结合弹性伸缩能力,在保证在线业务不被影响的情况下,最大程度提升资源利用率。比如容器集群总量40C160G,在线业务低峰期为凌晨1:00-早上7:00,利用率为20%。则离线集群建议您每天凌晨1:30进行扩容,早上6:30进行缩容,离线资源预留量为25C102G)。
POD数量: POD数量最小为1,最大为容器集群worker数量。
优雅缩容: 资源类型为容器时,强制开启优雅缩容。
1.登录金山云KMR控制台。
2.点击集群名称进入集群详情界面。
3.查看容器集群信息。
扩容、缩容、弹性伸缩不支持操作资源类型为POD的节点组,可通过销毁实例选中具体POD删除。
销毁实例需按缩容流程,强制开启优雅缩容,先等待任务结束,再注销NM、删除数据,再删除POD。
容器资源关联Yarn Label,用户可通过标签设置非核心任务运行在POD上,极端情况下,POD被剔除可保证核心任务不受影响。
文档内容是否对您有帮助?
评价建议不能为空
非常感谢您的反馈,我们会继续努力做到更好!