金山云-文档中心-KS3-HDFS服务概述

查看更多结果

未找到含当前关键字的文档标题

页面目录

全部展开全部收起

未找到含该关键词的产品

文档中心

对象存储(KS3)

用户指南

数据湖管理

KS3-HDFS服务概述

最近更新时间：2023-11-06 17:00:26



KS3-HDFS服务是一款数据湖存储加速产品。基于统一的元数据管理能力、数据加速能力、HDFS/POSIX协议兼容能力等，底层采用了云 HDFS 的元数据管理功能，用户可通过文件系统语义访问KS3服务，可以广泛应用于大数据、高性能计算、AI等场景。

开通KS3-HDFS服务之前，需要了解KS3-HDFS服务与KS3其他功能的关系，操作KS3其他功能可能会造成数据无法访问、数据丢失、数据污染等风险。更多信息，请参见KS3-HDFS服务使用前须知。

元数据管理费用
使用KS3-HDFS服务时，会产生元数据管理费用。元数据管理费用=每小时内KS3-HDFS服务缓存的文件数量×元数据管理月单价÷30（天）÷24（小时）。公测期间，该计费项暂不收费。
数据使用费用
使用KS3-HDFS服务时，数据块采用了KS3的存储方式，可能会产生流量、存储等数据量。因此，KS3的计量计费方式适用于KS3-HDFS服务中的数据块。

更多信息，请参见计费方式与计量项说明。

计算存储分离，按需扩容。
支持统一命名空间，简化数据管理，云上云下数据便捷流动。
KS3-HDFS是KS3中的一个模块，客户免运维，且通过Bucket配置，即开即用，最终以SDK的形式提供用户进行客户端访问。
面向大数据生态，基于统一的元数据管理能力、数据加速能力、HDFS协议兼容能力等，更好地满足大数据领域的计算场景。
无需对现有的Hadoop、Spark大数据分析应用做任何修改。简单配置后即可像在原生HDFS中那样管理和访问数据，同时获得KS3无限容量、弹性扩展、更高的安全性、可靠性和可用性支撑。
提供元数据加速能力，用户可将重复读取的数据缓存，访问带宽全面提速。

KS3-HDFS服务提供全面的大数据支持，其主要应用场景如下：

加速对象存储分析
实现数据长期存储的成本优化，通过对象存储承载数据，解决本地存储成本较高、可扩展性差问题，通过GaeaFS缓存加速使用对象存储平替本地存储。
混合云网关
存储和计算分离的混合云架构，由于数据离计算节点较远，需要通过网络从存储节点反复拉取数据，导致性能问题。GaeaFS可以实现数据本地化，利用本地计算集群闲置资源存储缓存数据，解决性能和成本问题。
数据湖构建
开放的数据湖，需要对接各种计算引擎，且会面临计算资源与存储资源扩容速度不匹配、存储系统需对接多数据源的问题，可借助GaeaFS支持多数据源、多计算引擎能力，实现计算存储分离，保证计算业务访问性能。
Hive、Spark离线数仓
KS3-HDFS服务原生支持文件、目录语义和操作，支持目录原子性、毫秒级rename操作，适用于开源Hive、Spark离线数仓。在ETL场景下相较于KS3标准存储类型Bucket，KS3-HDFS服务具有更大的性能优势。
HBase存储与计算分离
KS3-HDFS服务原生支持文件、目录语义和操作，可用于替代HDFS用做HBase存储与计算分离方案。利用KS3-HDFS将HBase数据存储到KS3，以此摆脱对HDFS本地盘的依赖，降低存储成本。

功能	描述
HDFS语义	上传文件（create）创建目录（mkdirs）获取文件（open）获取文件元数据信息（getFileStatus）重命名文件/目录（rename）删除文件/删除多个文件/目录（delete）列出文件（listStaus）获取访问协议（getScheme）获取访问链接（getUri ）
服务访问	1. KS3控制台支持挂载、卸载操作。缓存数据将会被加载到挂载的KS3目录下 2. 访问路径 HDFS访问路径：bucket.cn-beijing.ks3-dls.ksyuncs.com/path KS3访问路径：bucket.ks3-cn-beijing.ksyuncs.com/path
访问控制	支持通过用户策略（UserPolicy）、空间策略（BucketPolicy）、访问控制策略（ACL）进行相应权限的配置
支持计算引擎	presto、trino、flink、spark、hadoop

文档导读

纯净模式常规模式

纯净模式

点击可全屏预览文档内容