全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

KS3-HDFS服务概述

最近更新时间:2023-11-06 17:00:26

KS3-HDFS服务是一款数据湖存储加速产品。基于统一的元数据管理能力、数据加速能力、HDFS/POSIX协议兼容能力等,底层采用了云 HDFS 的元数据管理功能,用户可通过文件系统语义访问KS3服务,可以广泛应用于大数据、高性能计算、AI等场景。

注意事项

开通KS3-HDFS服务之前,需要了解KS3-HDFS服务与KS3其他功能的关系,操作KS3其他功能可能会造成数据无法访问、数据丢失、数据污染等风险。更多信息,请参见KS3-HDFS服务使用前须知

费用说明

  • 元数据管理费用
    使用KS3-HDFS服务时,会产生元数据管理费用。元数据管理费用=每小时内KS3-HDFS服务缓存的文件数量×元数据管理月单价÷30(天)÷24(小时)。公测期间,该计费项暂不收费。

  • 数据使用费用
    使用KS3-HDFS服务时,数据块采用了KS3的存储方式,可能会产生流量、存储等数据量。因此,KS3的计量计费方式适用于KS3-HDFS服务中的数据块。

更多信息,请参见 计费方式与计量项说明

功能优势

  • 计算存储分离,按需扩容。
  • 支持统一命名空间,简化数据管理,云上云下数据便捷流动。
  • KS3-HDFS是KS3中的一个模块,客户免运维,且通过Bucket配置,即开即用,最终以SDK的形式提供用户进行客户端访问。
  • 面向大数据生态,基于统一的元数据管理能力、数据加速能力、HDFS协议兼容能力等,更好地满足大数据领域的计算场景。
  • 无需对现有的Hadoop、Spark大数据分析应用做任何修改。简单配置后即可像在原生HDFS中那样管理和访问数据,同时获得KS3无限容量、弹性扩展、更高的安全性、可靠性和可用性支撑。
  • 提供元数据加速能力,用户可将重复读取的数据缓存,访问带宽全面提速。

应用场景

KS3-HDFS服务提供全面的大数据支持,其主要应用场景如下:

  • 加速对象存储分析
    实现数据长期存储的成本优化,通过对象存储承载数据,解决本地存储成本较高、可扩展性差问题,通过GaeaFS缓存加速使用对象存储平替本地存储。
  • 混合云网关
    存储和计算分离的混合云架构,由于数据离计算节点较远,需要通过网络从存储节点反复拉取数据,导致性能问题。GaeaFS可以实现数据本地化,利用本地计算集群闲置资源存储缓存数据,解决性能和成本问题。
  • 数据湖构建
    开放的数据湖,需要对接各种计算引擎,且会面临计算资源与存储资源扩容速度不匹配、存储系统需对接多数据源的问题,可借助GaeaFS支持多数据源、多计算引擎能力,实现计算存储分离,保证计算业务访问性能。
  • Hive、Spark离线数仓
    KS3-HDFS服务原生支持文件、目录语义和操作,支持目录原子性、毫秒级rename操作,适用于开源Hive、Spark离线数仓。在ETL场景下相较于KS3标准存储类型Bucket,KS3-HDFS服务具有更大的性能优势。
  • HBase存储与计算分离
    KS3-HDFS服务原生支持文件、目录语义和操作,可用于替代HDFS用做HBase存储与计算分离方案。利用KS3-HDFS将HBase数据存储到KS3,以此摆脱对HDFS本地盘的依赖,降低存储成本。

功能说明

功能 描述
HDFS语义
  • 上传文件(create)
  • 创建目录(mkdirs)
  • 获取文件(open)
  • 获取文件元数据信息(getFileStatus)
  • 重命名文件/目录(rename)
  • 删除文件/删除多个文件/目录(delete)
  • 列出文件(listStaus)
  • 获取访问协议(getScheme)
  • 获取访问链接(getUri )
服务访问 1. KS3控制台支持挂载、卸载操作。缓存数据将会被加载到挂载的KS3目录下
2. 访问路径
  • HDFS访问路径:bucket.cn-beijing.ks3-dls.ksyuncs.com/path
  • KS3访问路径:bucket.ks3-cn-beijing.ksyuncs.com/path
访问控制 支持通过用户策略(UserPolicy)、 空间策略(BucketPolicy) 、 访问控制策略(ACL)进行相应权限的配置
支持计算引擎 presto、trino、flink、spark、hadoop
文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈