最近更新时间:2026-05-08 15:33:06
星流自定义数据集服务基于高性能Lance架构,提供了强大的多种模态数据统一托管、可视化、多维度数据筛选和数据切片等功能,帮助您降低高质量数据获取、存储和处理成本。目前自定义数据集服务免费公测中。
登录星流平台,在顶部导航栏选择训推与仿真 > 公共资产管理 > 数据集,进入数据集列表页。
选择自定义数据集页签,并在顶部左上角根据实际情况选择地域。
首次使用自定义数据集服务,需配置默认存储路径。根据页面提示,点击配置默认存储路径,在弹出的提示窗口中,选择相应的KS3路径,点击确定即可。
返回自定义数据集列表页面,点击 +新建。
在新建数据集页面,根据下表配置各项参数,点击确定,即可将存储在对象存储KS3、文件系统KPFS中的数据上传至自定义数据集服务中。
参数 | 是否必须 | 说明 |
|---|---|---|
数据集名称 | 是 | 填写自定义数据集的名称。 支持字母、数字、下划线( |
数据类型 | 是 | 选择支持的数据类型。必填。 支持以下类型:结构化数据、文本、图片、视频。 |
读取格式 | 是 | 选择读取相应格式的数据。
|
数据集描述 | 否 | 填写对自定义数据集的适当描述。支持200位内字符。 |
数据来源 | 是 | 支持选择从对象存储 KS3 或文件系统 KPFS 中读取数据并创建数据集。
|
可见范围 | 是 | 设置数据集的可见范围。
注意:数据集公开后,将不可以再转为私有。 |
登录星流平台,在顶部导航栏选择训推与仿真 > 公共资产管理 > 数据集,进入数据集列表页。
选择推理数据集页签,点击+新建。
在新建数据集页面,根据下表配置各项参数,点击确定。
参数 | 是否必须 | 说明 |
|---|---|---|
数据集名称 | 是 | 填写自定义数据集的名称。 支持字母、数字、下划线( |
数据类型 | 是 | 选择支持的数据类型。必填。 支持以下类型:结构化数据、文本、图片、视频。 |
读取格式 | 是 | 选择读取相应格式的数据。
|
数据集描述 | 否 | 填写对自定义数据集的适当描述。支持200位内字符。 |
数据来源 | 是 | 支持选择从批量推理结果、对象存储 KS3 或文件系统 KPFS 中读取数据并创建数据集。
|
可见范围 | 是 | 设置数据集的可见范围。
注意:数据集公开后,将不可以再转为私有。 |
在自定义数据集列表页,点击目标数据集的 数据集名称/ID,进入概览页。
在概览页中,您可以查看数据集详情,关键信息如下:
基本信息:可查看数据集的名称、ID、创建时间、数据类型等基本情况。
统计信息:可查看数据集内样本数量、切片数据量、数据集大小。
操作记录:将记录数据集的变更操作,可查看操作说明,并支持一键重新执行失败操作。
进入自定义数据集详情页后,选择探索页签,切换至数据探索页。
在数据探索页,您可以对数据集进行多维度筛选。关键功能如下:
支持通过文件格式、样本名称筛选数据。
对于文本、结构化数据集,可通过文本内容筛选,筛选关系可选择等于/不等于、为空/不为空、包含/不包含。
支持将符合条件的数据保存为切片。
支持在数据集内按比例进行随机取样并保存为切片。
进入自定义数据集详情页后,选择切片页签,切换至切片列表页。
在切片列表页,您可以管理切片。关键说明如下:
切片定义:指从一个大型数据集中,根据一个或多个维度(或属性)的特定条件,筛选出的一个数据子集,将庞大的数据范围缩小到一个更具体、更聚焦的视图,以便进行针对性的分析、测试或管理。
创建切片:操作参见"数据探索"部分。
删除切片:删除切片将不会删除数据集中对应的数据项。
导出切片:点击目标切片右侧的 导出 按钮,可将切片导出至 KS3 或 KPFS。
查看切片详情:点击切片名称,可查看切片详情。
支持对自定义和推理数据集进行新增数据、导出数据、公开、删除操作。
对于视频类数据集,导出导出的容量型KPFS实例需为同一个。
进入自定义数据集列表页,在目标数据集右侧操作项中选择 新增数据,显示新增数据弹窗。
在弹窗中添加新增数据的 KS3 或 KPFS 路径即可完成新增。
新增数据的格式需与当前数据集的格式相同。
支持将数据集或切片导出至容量型 KPFS 或 KS3,用于后续的模型训练等环节。目前支持如下两种方式:
方式一:在自定义数据集列表页,在目标数据集右侧操作项中选择 导出数据。
方式二:在切片列表页,在目标切片右侧操作项中选择 导出。
进入自定义数据集列表页,在目标数据集右侧操作项中选择 更多 > 公开。
确认后,该私有数据集将变为公开。
公开后,主账号下所有子账号均可以查看、编辑、使用此数据集,且数据集将不可以再转为私有。
进入自定义数据集列表页,在目标数据集右侧操作项中选择 更多 > 删除。
确认后,将删除该自定义数据集。
删除自定义数据集的操作,将不会删除您在新建数据集时选择的数据来源中的原始数据。
纯净模式
