最近更新时间:2025-12-02 17:17:38
星流自定义数据集服务基于高性能Lance架构,提供了强大的多种模态数据统一托管、可视化、多维度数据筛选和数据切片等功能,帮助您降低高质量数据获取、存储和处理成本。目前自定义数据集服务免费公测中。
登录金山云星流平台控制台。
在顶部左上角根据实际情况选择地域。
左侧导航栏选择公共资产管理>数据集,进入自定义数据集列表页。
在自定义数据集页,点击新建,将存储在对象存储(KS3)、文件系统(KPFS)中的数据上传至自定义数据集服务中,对数据进行可视化探查、统计分析、数据切片。新建自定义数据集参数说明如下:
参数 | 说明 |
|---|---|
数据集名称 |
|
数据类型 | 支持的数据类型包括:结构化数据、文本、图片、视频。必填。 |
读取格式 | 读取相应格式的数据。必填。
|
数据集描述 |
|
数据来源 | 支持从对象存储KS3、文件系统KPFS中读取数据并创建数据集。必填。 |
AK/SK | 存储资源的访问密钥,需确保输入的AK/SK拥有对应文件系统的读写权限。必填。 获取方式参见:获取AK/SK 。 |
可见范围 | 设置数据集的可见范围。必填。
|
目前仅支持导入、导出容量型KPFS和KS3中的数据。
在自定义数据集列表页,点击数据集名称,进入概览页,可查看数据集详情。关键说明如下:
统计信息中,可查看数据集内样本数量、切片数据量、数据集大小。
操作记录中,将记录数据集的变更操作,可查看操作说明,并支持一键重新执行失败操作。
进入自定义数据集详情页后,点击顶部栏探索,切换至数据探索页,可对数据集进行多维度筛选。关键说明如下:
支持通过文件格式、样本名称筛选数据;对于文本、结构化数据集,可通过文本筛选内容,筛选关系可选择等于/不等于、为空/不为空、包含/不包含。
支持将符合条件的数据保存为切片。
支持在数据集内按比例进行随机取样并保存为切片。
进入自定义数据集详情页后,点击顶部栏切片,切换切片列表页。关键说明如下:
切片,即指从一个大型数据集中,根据一个或多个维度(或属性)的特定条件,筛选出的一个数据子集,将庞大的数据范围缩小到一个更具体、更聚焦的视图,以便进行针对性的分析、测试或管理。
创建切片操作参见数据探索部分。
删除切片将不会跟随删除数据集中数据项。
点击列表右侧导出按钮,可将切片导出至KS3、KPFS。
点击切片名称,可查看切片详情。
支持对自定义数据集进行新增数据、导出数据、公开、删除操作。
对于视频类数据集,导出导出的容量型KPFS实例需为同一个。
支持对数据集新增数据,新增数据的格式需与当前数据集的格式相同。
进入自定义数据集列表页,在目标数据集右侧操作项中选择新增数据,显示新增数据弹窗。
添加新增数据的KS3或KPFS路径即可完成新增。
支持数据集的导出能力,可导出至容量型KPFS、KS3,用于后续的模型训练等环节。目前支持如下两种方式导出数据。
在自定义数据集列表页,在目标数据集右侧操作项中选择导出数据。
在切片列表页,在目标切片右侧操作项中选择导出。
支持将私有数据集公开,公开后,主账号下所有子账号均可以查看、编辑、使用此数据集,将不可以再转为私有。
进入自定义数据集列表页,在目标数据集右侧操作项中选择更多 > 公开。
支持删除自定义数据集,该操作将不会删除您在新建数据集时选择的数据来源中的数据。
进入自定义数据集列表页,在目标数据集右侧操作项中选择更多 > 删除。
纯净模式
