Pipeline

最近更新时间:2020-04-16 17:40:37

在KPL运行算法等,有两种方式,第一种是通过构造Pipeline,第二种是使用JupyterLab。在这一小节介绍Pipeline的用法。Pipeline的优点是,对于成熟的业务场景,可以通过一次构造Pipeline,以此为模板,多次快速高效使用。

Pipeline中的连接

节点之间的连接,均为数据文件,数据文件主要为:数据集和模型文件。通过容器技术将连接确定的依赖解析为将数据集或模型挂载到目标路径。

Pipeline中的节点

节点包括几种类型的节点:数据集节点,模型节点,算法节点,处理器节点。

  1. 数据集节点:也就是用户上传的数据集,数据集均为通过kpl-dataset包序列化后的数据集(可类比于TensorFlow的TFRecords)
  2. 模型节点:用户上传的模型文件,可能为预训练模型或可直接用于生产的模型
  3. 算法节点:用于训练,测试,批量推理,提供API服务的算法节点
  4. 处理器节点:对数据进行加工处理的节点,如解析数据集中的XML文件

每个节点代表一次对输入数据文件的处理,然后输出相应的结果,传递给下一个节点再次进行加工处理。 算法节点支持自定义开发,具体方法参考算法开发小节。

金山云,开启您的云计算之旅

免费注册