离在线混部

最近更新时间:2023-08-28 17:21:10

查看PDF

集群管理的一个重要目标是提高资源利用率,随着集群规模的扩大,基础设施成本上涨,资源利用率问题逐步突显,为降低成本,我们提供离在线混部方案。

操作步骤

弹性伸缩

1.登录金山云KMR控制台

2.点击集群名称进入集群详情界面。

3.点击弹性伸缩页面的添加时间弹性策略进入配置界面。

4.配置相应策略,实现离在线混部。

image.png

主机

当资源类型选为主机时,可参考弹性伸缩配置。

image.png

容器

仅新建task支持选择容器,目前仅分时弹性类型支持选择容器。

image.png

资源类型: 当资源类型选为容器时,若集群在线业务资源不足,可能会抢占离线资源,造成任务中断。可通过Yarn Label管理队列放置非核心任务。

容器集群: KMR集群同一VPC下的容器集群。

磁盘可用容量: 计算过程中产生的shuffle数据存储在worker数据盘,建议您容器集群worker数据盘可用容量至少500G(可根据实际业务情况调整)。worker单盘可用容量小于设置容量将不启动POD。

计算资源冗余: 默认填写建议值:30%。最大100%,最小1%(每个worker离线资源预留量会根据您设置的资源冗余百分比,预留相应资源,建议您结合弹性伸缩能力,在保证在线业务不被影响的情况下,最大程度提升资源利用率。比如容器集群总量40C160G,在线业务低峰期为凌晨1:00-早上7:00,利用率为20%。则离线集群建议您每天凌晨1:30进行扩容,早上6:30进行缩容,离线资源预留量为25C102G)。

POD数量: POD数量最小为1,最大为容器集群worker数量。

优雅缩容: 资源类型为容器时,强制开启优雅缩容。

集群详情

1.登录金山云KMR控制台

2.点击集群名称进入集群详情界面。

3.查看容器集群信息。

image.png

注意事项

  1. 扩容、缩容、弹性伸缩不支持操作资源类型为POD的节点组,可通过销毁实例选中具体POD删除。

  2. 销毁实例需按缩容流程,强制开启优雅缩容,先等待任务结束,再注销NM、删除数据,再删除POD。

  3. 容器资源关联Yarn Label,用户可通过标签设置非核心任务运行在POD上,极端情况下,POD被剔除可保证核心任务不受影响。

文档内容是否对您有帮助?

根本没帮助
文档较差
文档一般
文档不错
文档很好

在文档使用中是否遇到以下问题

内容不全,不深入
内容更新不及时
描述不清晰,比较混乱
系统或功能太复杂,缺乏足够的引导
内容冗长

更多建议

0/200

评价建议不能为空

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

问题反馈