KS3-HDFS服务是一款数据湖存储加速产品。基于统一的元数据管理能力、数据加速能力、HDFS/POSIX协议兼容能力等,底层采用了云 HDFS 的元数据管理功能,用户可通过文件系统语义访问KS3服务,可以广泛应用于大数据、高性能计算、AI等场景。
注意事项
开通KS3-HDFS服务之前,需要了解KS3-HDFS服务与KS3其他功能的关系,操作KS3其他功能可能会造成数据无法访问、数据丢失、数据污染等风险。更多信息,请参见KS3-HDFS服务使用前须知。
费用说明
更多信息,请参见 计费方式与计量项说明。
功能优势
- 计算存储分离,按需扩容。
- 支持统一命名空间,简化数据管理,云上云下数据便捷流动。
- KS3-HDFS是KS3中的一个模块,客户免运维,且通过Bucket配置,即开即用,最终以SDK的形式提供用户进行客户端访问。
- 面向大数据生态,基于统一的元数据管理能力、数据加速能力、HDFS协议兼容能力等,更好地满足大数据领域的计算场景。
- 无需对现有的Hadoop、Spark大数据分析应用做任何修改。简单配置后即可像在原生HDFS中那样管理和访问数据,同时获得KS3无限容量、弹性扩展、更高的安全性、可靠性和可用性支撑。
- 提供元数据加速能力,用户可将重复读取的数据缓存,访问带宽全面提速。
应用场景
KS3-HDFS服务提供全面的大数据支持,其主要应用场景如下:
- 加速对象存储分析
实现数据长期存储的成本优化,通过对象存储承载数据,解决本地存储成本较高、可扩展性差问题,通过GaeaFS缓存加速使用对象存储平替本地存储。
- 混合云网关
存储和计算分离的混合云架构,由于数据离计算节点较远,需要通过网络从存储节点反复拉取数据,导致性能问题。GaeaFS可以实现数据本地化,利用本地计算集群闲置资源存储缓存数据,解决性能和成本问题。
- 数据湖构建
开放的数据湖,需要对接各种计算引擎,且会面临计算资源与存储资源扩容速度不匹配、存储系统需对接多数据源的问题,可借助GaeaFS支持多数据源、多计算引擎能力,实现计算存储分离,保证计算业务访问性能。
- Hive、Spark离线数仓
KS3-HDFS服务原生支持文件、目录语义和操作,支持目录原子性、毫秒级rename操作,适用于开源Hive、Spark离线数仓。在ETL场景下相较于KS3标准存储类型Bucket,KS3-HDFS服务具有更大的性能优势。
- HBase存储与计算分离
KS3-HDFS服务原生支持文件、目录语义和操作,可用于替代HDFS用做HBase存储与计算分离方案。利用KS3-HDFS将HBase数据存储到KS3,以此摆脱对HDFS本地盘的依赖,降低存储成本。
功能说明
功能 |
描述 |
HDFS语义 |
- 上传文件(create)
- 创建目录(mkdirs)
- 获取文件(open)
- 获取文件元数据信息(getFileStatus)
- 重命名文件/目录(rename)
- 删除文件/删除多个文件/目录(delete)
- 列出文件(listStaus)
- 获取访问协议(getScheme)
- 获取访问链接(getUri )
|
服务访问 |
1. KS3控制台支持挂载、卸载操作。缓存数据将会被加载到挂载的KS3目录下 2. 访问路径
- HDFS访问路径:bucket.cn-beijing.ks3-dls.ksyuncs.com/path
- KS3访问路径:bucket.ks3-cn-beijing.ksyuncs.com/path
|
访问控制 |
支持通过用户策略(UserPolicy)、 空间策略(BucketPolicy) 、 访问控制策略(ACL)进行相应权限的配置 |
支持计算引擎 |
presto、trino、flink、spark、hadoop |