最近更新时间:2026-04-28 11:17:42
容器服务KCE提供了多种类型的组件用于管理集群的扩展功能,您可以根据业务需求部署、卸载组件。
容器服务KCE管理的集群组件包括系统组件和可选组件:
系统组件:创建KCE集群时,默认安装的组件。
可选组件:创建KCE集群时,可选择性安装的组件,用于扩展集群功能。
系统组件是KCE基础功能依赖的组件。例如,提供Kubernetes与金山云基础产品对接能力的cloud-controller-manager等。
注意:系统组件的升级、配置管理将由 KCE 统一进行管理维护,不建议您修改系统组件。
组件名称 | 组件类型 | 描述 |
kce-cluster-protector* | 其他 | 监控集群内异常事件,并采取相应策略防止引发集群控制面故障,保障集群可用性。 兼容版本:1.21及以上版本的Kubernetes集群版本 |
注意:此组件为默认选装。用户可在集群创建时取消选装或集群创建后卸载,若不安装此组件,可能出现因以下场景引起的故障,请谨慎操作。
针对的故障场景:在容器集群内创建Pod时,可能出现调度流程执行完成但kubelet准入校验未通过的情况,该情况会导致Pod进入Failed状态,系统继而重新创建新的副本Pod。
依据调度规则,新创建的Pod会被再次调度至同一节点,上述过程将持续循环,进而引发Pod数量异常过多,最终导致APIServer接口响应超时,甚至触发集群etcd发生内存溢出(OOM)故障。
保护措施:本组件负责监控集群内此类由准入失败引发的Pod循环创建事件,当监测到该类事件时,将对事件发生的节点执行打污点(taint)操作,临时对节点禁止调度,以防范Pod数量无限扩增的风险。
污点内容:
字段 | 值 | 示例 |
Key | admission-failed-kce | |
Value | [准入失败原因]_[触发时间] | SysctlForbidden_20260401-105648 |
Effect | NoSchedule |
影响说明:当发生问题场景,在同一个节点因同一个reason准入校验失败多次后,触发保护的节点被禁止调度,促使pod调度到其他节点;特殊情况,例如Pod的YAML 配置不符合规范 ,
如securityContext 中配置了所有节点均不支持的系统内核参数值,可能导致在全部可调度节点触发保护机制,大范围甚至全部节点被禁止调度。
可选组件是 KCE 提供的非必需部署的组件,您可以通过部署可选组件来使用 KCE 支持的增强功能,可选组件列表如下所示:
组件名称 | 组件类型 | 描述 |
|---|---|---|
kfs-csi | 存储 | 遵循标准CSI规范,提供了容器集群对接金山云文件存储(KFS)、云硬盘(EBS)存储服务的能力。由原有的 csi-driver 组件解耦得来。 |
ebs-csi | 存储 | |
flexvolume | 存储 | 通过Flexvolume插件,提供数据卷的挂载、卸载功能。 |
gpu-share | GPU | 通过共享调度,实现多个Pod运行在一个GPU设备上。 |
virtual-kubelet | 虚拟节点 | 通过部署virtual-kubelet组件来创建虚拟节点,将Kubernetes API扩展到KCI容器实例(此种方式将VK部署至集群内部,请保证集群有Node节点资源)。 |
colo | 混部&调度 | 在离线业务混部与调度,提升服务器资源利用率 |
纯净模式
