全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

自定义数据集

最近更新时间:2025-12-02 17:17:38

星流自定义数据集服务基于高性能Lance架构,提供了强大的多种模态数据统一托管、可视化、多维度数据筛选和数据切片等功能,帮助您降低高质量数据获取、存储和处理成本。目前自定义数据集服务免费公测中。

进入自定义数据集

  1. 登录金山云星流平台控制台

  2. 在顶部左上角根据实际情况选择地域。

  3. 左侧导航栏选择公共资产管理>数据集,进入自定义数据集列表页。

创建自定义数据集

在自定义数据集页,点击新建,将存储在对象存储(KS3)、文件系统(KPFS)中的数据上传至自定义数据集服务中,对数据进行可视化探查、统计分析、数据切片。新建自定义数据集参数说明如下:

参数

说明

数据集名称

  • 填写自定义数据集的名称。 必填

  • 支持字母、数字、中划线、下划线_、中划线-、小数点,需要以字母开头及64位字符以内。

数据类型

支持的数据类型包括:结构化数据、文本、图片、视频。必填

读取格式

读取相应格式的数据。必填

  • 结构化数据:将读取数据来源中以 json、jsonl 为后缀的文件或以 csv、tsv 为后缀的文件

  • 文本:将读取数据来源中以 txt、md、log、xml、html、cfg 为后缀的文件

  • 图片:将读取数据来源中以 png、jpg、jpeg 为后缀的文件

  • 将读取数据来源中以 mp4、mkv、webm 为后缀的文件

数据集描述

  • 填写对自定义数据集的适当描述。 选填

  • 支持200位内字符。

数据来源

支持从对象存储KS3、文件系统KPFS中读取数据并创建数据集。必填

AK/SK

存储资源的访问密钥,需确保输入的AK/SK拥有对应文件系统的读写权限。必填

获取方式参见:获取AK/SK

可见范围

设置数据集的可见范围。必填。

  • 私有:仅主账号及创建人本人可看到并操作数据集。

  • 公开:主账号下所有子账号均可以查看、编辑、使用此数据集,数据集公开后,将不可以再转为私有。

目前仅支持导入、导出容量型KPFSKS3中的数据。

查看数据集详情

在自定义数据集列表页,点击数据集名称,进入概览页,可查看数据集详情。关键说明如下:

  • 统计信息中,可查看数据集内样本数量、切片数据量、数据集大小。

  • 操作记录中,将记录数据集的变更操作,可查看操作说明,并支持一键重新执行失败操作。

数据探索

进入自定义数据集详情页后,点击顶部栏探索,切换至数据探索页,可对数据集进行多维度筛选。关键说明如下:

  • 支持通过文件格式、样本名称筛选数据;对于文本、结构化数据集,可通过文本筛选内容,筛选关系可选择等于/不等于为空/不为空包含/不包含。

  • 支持将符合条件的数据保存为切片。

  • 支持在数据集内按比例进行随机取样并保存为切片。

数据切片

进入自定义数据集详情页后,点击顶部栏切片,切换切片列表页。关键说明如下:

  • 切片,即指从一个大型数据集中,根据一个或多个维度(或属性)的特定条件,筛选出的一个数据子集,将庞大的数据范围缩小到一个更具体、更聚焦的视图,以便进行针对性的分析、测试或管理。

  • 创建切片操作参见数据探索部分。

  • 删除切片将不会跟随删除数据集中数据项。

  • 点击列表右侧导出按钮,可将切片导出至KS3、KPFS。

  • 点击切片名称,可查看切片详情。

管理自定义数据集

支持对自定义数据集进行新增数据、导出数据、公开、删除操作。

对于视频类数据集,导出导出的容量型KPFS实例需为同一个。

新增数据

支持对数据集新增数据,新增数据的格式需与当前数据集的格式相同。

  1. 进入自定义数据集列表页,在目标数据集右侧操作项中选择新增数据,显示新增数据弹窗。

  2. 添加新增数据的KS3或KPFS路径即可完成新增。

导出数据

支持数据集的导出能力,可导出至容量型KPFS、KS3,用于后续的模型训练等环节。目前支持如下两种方式导出数据。

  • 自定义数据集列表页,在目标数据集右侧操作项中选择导出数据

  • 切片列表页,在目标切片右侧操作项中选择导出

公开

支持将私有数据集公开,公开后,主账号下所有子账号均可以查看、编辑、使用此数据集,将不可以再转为私有。

  1. 进入自定义数据集列表页,在目标数据集右侧操作项中选择更多 > 公开。

删除

支持删除自定义数据集,该操作将不会删除您在新建数据集时选择的数据来源中的数据。

  1. 进入自定义数据集列表页,在目标数据集右侧操作项中选择更多 > 删除。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈