全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

创建和管理数据集

最近更新时间:2026-05-08 15:33:06

星流自定义数据集服务基于高性能Lance架构,提供了强大的多种模态数据统一托管、可视化、多维度数据筛选和数据切片等功能,帮助您降低高质量数据获取、存储和处理成本。目前自定义数据集服务免费公测中。

前提条件

已提前创建容量型对象存储KS3实例KPFS实例

创建自定义数据集

  1. 登录星流平台,在顶部导航栏选择训推与仿真 > 公共资产管理 > 数据集,进入数据集列表页。

  2. 选择自定义数据集页签,并在顶部左上角根据实际情况选择地域。

  3. 首次使用自定义数据集服务,需配置默认存储路径。根据页面提示,点击配置默认存储路径,在弹出的提示窗口中,选择相应的KS3路径,点击确定即可。

  4. 返回自定义数据集列表页面,点击 +新建

  5. 新建数据集页面,根据下表配置各项参数,点击确定,即可将存储在对象存储KS3、文件系统KPFS中的数据上传至自定义数据集服务中。

    参数

    是否必须

    说明

    数据集名称

    填写自定义数据集的名称。 支持字母、数字、下划线(_)、中划线(-)、小数点(.),需要以字母开头,长度在64位字符以内。

    数据类型

    选择支持的数据类型。必填。 支持以下类型:结构化数据、文本、图片、视频。

    读取格式

    选择读取相应格式的数据。

    • 结构化数据:将读取数据来源中以 .json.jsonl.csv.tsv 为后缀的文件。

    • 文本:将读取数据来源中以 .txt.md.log.xml.html.cfg 为后缀的文件。

    • 图片:将读取数据来源中以 .png.jpg.jpeg 为后缀的文件。

    • 视频:将读取数据来源中以 .mp4.mkv.webm 为后缀的文件。

    数据集描述

    填写对自定义数据集的适当描述。支持200位内字符。

    数据来源

    支持选择从对象存储 KS3文件系统 KPFS 中读取数据并创建数据集。

    • 若选择KS3,则只需根据提示选择相应的KS3路径即可。

    • 若选择KPFS,则需配置以下参数:

      • 选择文件系统:选择已上传了数据集的文件系统。

      • 填写系统路径:数据集所存在的系统路径。

      • AK/SK:填写存储资源的访问密钥,需确保输入的 AK/SK 拥有对应文件系统的读写权限。获取方式参见:获取 AK/SK

    可见范围

    设置数据集的可见范围。

    • 私有:仅主账号及创建人本人可看到并操作数据集。

    • 公开:主账号下所有子账号均可以查看、编辑、使用此数据集。

    注意:数据集公开后,将不可以再转为私有。

创建推理数据集

  1. 登录星流平台,在顶部导航栏选择训推与仿真 > 公共资产管理 > 数据集,进入数据集列表页。

  2. 选择推理数据集页签,点击+新建

  3. 在新建数据集页面,根据下表配置各项参数,点击确定。

    参数

    是否必须

    说明

    数据集名称

    填写自定义数据集的名称。 支持字母、数字、下划线(_)、中划线(-)、小数点(.),需要以字母开头,长度在64位字符以内。

    数据类型

    选择支持的数据类型。必填。 支持以下类型:结构化数据、文本、图片、视频。

    读取格式

    选择读取相应格式的数据。

    • 结构化数据:将读取数据来源中以 .json.jsonl.csv.tsv 为后缀的文件。

    • 文本:将读取数据来源中以 .txt.md.log.xml.html.cfg 为后缀的文件。

    • 图片:将读取数据来源中以 .png.jpg.jpeg 为后缀的文件。

    • 视频:将读取数据来源中以 .mp4.mkv.webm 为后缀的文件。

    数据集描述

    填写对自定义数据集的适当描述。支持200位内字符。

    数据来源

    支持选择从批量推理结果对象存储 KS3文件系统 KPFS 中读取数据并创建数据集。

    • 若选择批量推理结果,则需根据提示选择相应推理任务。批量推理任务的创建和管理可参考API模型服务-批量推理相关内容。

    • 若选择KS3,则只需根据提示选择相应的KS3路径即可。

    • 若选择KPFS,则需配置以下参数:

      • 选择文件系统:选择已上传了数据集的文件系统。

      • 填写系统路径:数据集所存在的系统路径。

      • AK/SK:填写存储资源的访问密钥,需确保输入的 AK/SK 拥有对应文件系统的读写权限。获取方式参见:获取 AK/SK

    可见范围

    设置数据集的可见范围。

    • 私有:仅主账号及创建人本人可看到并操作数据集。

    • 公开:主账号下所有子账号均可以查看、编辑、使用此数据集。

    注意:数据集公开后,将不可以再转为私有。

查看数据集详情

  1. 在自定义数据集列表页,点击目标数据集的 数据集名称/ID,进入概览页。

  2. 在概览页中,您可以查看数据集详情,关键信息如下:

    • 基本信息:可查看数据集的名称、ID、创建时间、数据类型等基本情况。

    • 统计信息:可查看数据集内样本数量、切片数据量、数据集大小。

    • 操作记录:将记录数据集的变更操作,可查看操作说明,并支持一键重新执行失败操作。

数据探索

  1. 进入自定义数据集详情页后,选择探索页签,切换至数据探索页。

  2. 在数据探索页,您可以对数据集进行多维度筛选。关键功能如下:

    • 支持通过文件格式、样本名称筛选数据。

    • 对于文本、结构化数据集,可通过文本内容筛选,筛选关系可选择等于/不等于、为空/不为空、包含/不包含。

    • 支持将符合条件的数据保存为切片。

    • 支持在数据集内按比例进行随机取样并保存为切片。

数据切片

  1. 进入自定义数据集详情页后,选择切片页签,切换至切片列表页。

  2. 在切片列表页,您可以管理切片。关键说明如下:

    • 切片定义:指从一个大型数据集中,根据一个或多个维度(或属性)的特定条件,筛选出的一个数据子集,将庞大的数据范围缩小到一个更具体、更聚焦的视图,以便进行针对性的分析、测试或管理。

    • 创建切片:操作参见"数据探索"部分。

    • 删除切片:删除切片将不会删除数据集中对应的数据项。

    • 导出切片:点击目标切片右侧的 导出 按钮,可将切片导出至 KS3KPFS

    • 查看切片详情:点击切片名称,可查看切片详情。

管理数据集

支持对自定义和推理数据集进行新增数据、导出数据、公开、删除操作。

对于视频类数据集,导出导出的容量型KPFS实例需为同一个。

新增数据

  1. 进入自定义数据集列表页,在目标数据集右侧操作项中选择 新增数据,显示新增数据弹窗。

  2. 在弹窗中添加新增数据的 KS3 或 KPFS 路径即可完成新增。

    新增数据的格式需与当前数据集的格式相同。

导出数据

支持将数据集或切片导出至容量型 KPFS 或 KS3,用于后续的模型训练等环节。目前支持如下两种方式:

  • 方式一:在自定义数据集列表页,在目标数据集右侧操作项中选择 导出数据

  • 方式二:在切片列表页,在目标切片右侧操作项中选择 导出

公开数据集

  1. 进入自定义数据集列表页,在目标数据集右侧操作项中选择 更多 > 公开

  2. 确认后,该私有数据集将变为公开。

    公开后,主账号下所有子账号均可以查看、编辑、使用此数据集,且数据集将不可以再转为私有。

删除数据集

  1. 进入自定义数据集列表页,在目标数据集右侧操作项中选择 更多 > 删除

  2. 确认后,将删除该自定义数据集。

    删除自定义数据集的操作,将不会删除您在新建数据集时选择的数据来源中的原始数据。

文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈