全部文档
当前文档

暂无内容

如果没有找到您期望的内容,请尝试其他搜索词

文档中心

数据准备

最近更新时间:2022-07-21 07:11:43

入门指南

产品整体示意
承接数据连接,在数据准备中,用户导入数据源后通过在画布上拖拽节点和
image.png
名词解释
画布:节点、数据流所处的操作空间,用户可以通过连接在这个空间进行编辑操作。
连接:两个节点之间的线段,代表输入关系,连线左侧节点是右侧节点的输入。
节点:节点是用来标注数据的某一个处理过程 ,用户通过节点编排数据流实现数据处理。
视图:计算机数据库中的视图,是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。
发布:意味着将流程从开发模式提交到线上模式,对数据可以进行后续建模处理。

工作区
数据准备中工作区分为三段。左侧为数据连接,用户可以在此添加数据连接;右上为画布,用户可以通过连接和节点在这个空间进行编辑操作;右下为节点视图,点击具体的节点即可展示,用户可以在此进行节点内操作或通过视图查看数据。
image.png

  1. 画布操作
    从左侧拖入表生成输入节点
    image.png
    从节点新建节点
    image.png
    拖拽生成关联节点

image.png
拖拽建立连接
image.png
2. 视图
在数据准备中,一共提供了三种节点内视图,分别为字段视图、统计视图和数据视图。
image.png

字段视图仅展示字段,不展示数据。除输入、输出节点外,支持新增计算字段,支持右击字段唤起清洗:重命名、转换数据类型、值替换、数据筛选、复制字段与隐藏。
image.png
统计视图通过柱状图详细地展示了每个字段的统计信息:数值、行数与 占比。用户可以通过排序更直观地观察数据的形状。
image.png
在输入和输出节点,用户只能查看各个字段的统计信息
image.png
除输入和输出节点,用户可以新建计算字段,单击单个值进行值替换,在更多进行值筛选和值替换
image.png
数据视图以二维方式展示详细的数据信息。
image.png

输入

将原表或自定义SQL视图拖入画布。
image.png
抽取模式下,输出节点依赖于输入节点的抽取任务,请保证输出节点执行时,输入数据已抽取完成

在输入配置处,可以设置数据源的连接方式。包括抽取和直连。选择抽取后,点击抽取设置,允许设置抽取方式、抽取引擎、高级设置、添加定时任务。
在输入表处,显示数据源、数据库和表名。
在字段视图处,可以看到表的字段名称和注释。
在数据视图处,可以看到表的列和数据。
在统计视图处,可以看到每个字段的统计信息

数据处理节点

清洗
去掉数据表中不需要的列和行,并新增需要的列和行。
image.png
重命名:点击字段的下拉按钮,选择“重命名”,可以对字段进行重新命名。
转换数据类型:点击字段的下拉按钮,选择“转换数据类型”,可以将字段类型转换为整数、小数、字符串、日期、日期时间。
数据筛选:点击字段的下拉按钮,选择“数据筛选”,手动输入要添加的项,可以选择包含所选项以及排除所选项,点击“确定”后,满足条件的结果将会展示在数据视图中。
复制字段:点击字段的下拉按钮,选择“复制字段”,新复制的字段与数据将会展示在数据视图中。
隐藏:点击字段的下拉按钮,选择“隐藏”,字段与数据将不会显示在数据视图中。
关联
将两张表关联为一张宽表,并进行需要的数据处理,关联的数据在列上扩展。
image.png
建立两表间的关联关系有两种方式:
将要关联的表直接拖入已有的表中,选择关联的图标,建立两张表的关联关系。
点击已有的表,弹出“+”按钮,点击按钮,选择“关联”,将要关联的表拖入关联节点,建立两张表的关联关系。
建立关联关系后,选择两表要关联的字段,关联关系包括“等于”、“不等于”、“小于”、“小于等于”、“大于”、“大于等于”,可添加多个关联字段。
有数提供4种关联类型:内关联、左关联、右关联、外关联。
内关联:使用内关联时,生成的表将包含与两个表均匹配的值。
左关联:使用左关联时,生成的表将包含左侧表中的所有值以及右侧表中的对应匹配项。当左侧表中的值在右侧表中没有对应匹配项时,将在数据视图中看到null值。
右关联:使用右关联时,生成的表将包含右侧表中的所有值以及左侧表中的对应匹配项。当右侧表中的值在左侧表中没有对应匹配项时,将在数据视图中看到null值
外关联:使用完全外部关联时,生成的表将包含两个表中的所有值。当任一表中的值在另一个表中没有匹配项时,将在数据视图中看到null值。
两个关联的表中如果有相同的字段,将自动对字段进行重命名。 设置关联关系与关联类型之后,可以在右侧查看字段试图和数据视图。
聚合
根据选定的维度,在指定的度量上做数据汇总或平均。
image.png
分组:拖入字段,数据视图中将根据字段进行分组展示。
聚合:拖入字段,可以选择聚合方式。
拖入维度字段时,可供选择的聚合方式包括计数和去重计数。拖入度量字段时,可供选择的聚合方式包括求和、平均值、中位数、计数、去重计数、最小值、最大值、百分位。
用户也可以选择自定义聚合。
行转列
将表中具有相同值的多行数据转换成一个值的多列数据。
image.png
转置字段:拖入需要转置的字段。
聚合:拖入字段,可以选择聚合方式。

  • 拖入维度字段时,可供选择的聚合方式包括计数和去重计数。拖入度量字段时,可供选择的聚合方式包括求和、平均值、中位数、计数、去重计数、最小值、最大值、百分位。
  • 用户也可以选择自定义聚合。
    image.png
    合并
    将两张表合并为一张表,合并的数据在行上扩展。
    image.png
  • 建立两表间的合并关系有两种方式:将要合并的表直接拖入已有的表中,选择合并的图标,建立两张表的合并关系。
  • 点击已有的表,弹出“+”按钮,点击按钮,选择“合并”,将要合并的表拖入合并节点,建立两张表的合并关系。
  • 建立合并关系后,可以选择合并主表,主表的结构将作为合并的依据,与主表一致的字段将自动合并。
  • 字段视图中,展示主表的字段。同样点击字段的下拉按钮,可以对字段进行设置,包括:重命名、转换数据类型、数据筛选、复制字段、隐藏以及新建计算字段。
  • 数据视图中,可以展示两张表合并后的列和数据。主表中的字段和数据将全部展示,次表中相同的字段对应的数据将在行上进行扩展,不同的字段与数据不会展示。
    输出
    将已经处理好的数据执行落库操作,用户可以选择内部输出节点或外部输出节点至数据库。内部输出将数据抽取至內部数仓,外部输出将数据输出至外部数据库表。

image.png
在内部输出节点配置,可以设置输出表名和数据更新方式。
image.png
在外部输出节点配置,可以设置输出连接、数据库、输出表和数据更新方式。输出表和数据库字段必须完全匹配。目前支持Doris、GreenPlum、ClickHouse、mysql四种数据源输出,用户需要先行建立数据连接连接数据库。
image.png
- 数据更新:

  1. 全量覆盖:每次抽取,对数据库的全部数据进行抽取,并覆盖数据库已有的数据。
  2. 全量追加:每次抽取,对数据库的全部数据进行抽取,并追加在数据库中。
  3. 增量更新:每次抽取,根据增量字段判断数据库中的数据是否为新增数据,对数据库的新增数据进行抽取,并追加在数据库中。
  4. 增量滚动更新:每次抽取,根据日期及滚动周期将数据库中的新增以及部分历史数据抽取到数据库中,其中历史数据将会覆盖原数据。
  • 视图配置:在字段视图处,支持对字段添加注释。在数据视图处,可以查看输出表的列和数据。在统计视图,可以查看字段的统计信息,支持查看各个成员的行数与百分比。

  • 用户可以在项目中心的数据任务管理中进行输出管理,具体查看 数据任务管理
    发布
    发布
    用户在完成数据准备工作后,需要将流程进行发布,才能进入到执行计划的编辑、数据模型的新建。

用户也可以选择暂时不进行发布,对当前的流程进行保存。image.png
预览态
数据准备为用户提供了两种预览态,分别为开发模式、线上模式,用户可以在开发模式查看已保存的流程,再线上模式查看已发布的流程。

  • 开发模式支持编辑和发布功能。对流程的任意编辑都可以保存至开发模式,编辑中若存在节点异常,用户只能保存流程而不能进行发布。
    image.png
  • 线上模式呈现发布后的流程,支持新建数据模型功能。用户也可以在线上模式的输出节点中设置执行计划
    image.png
    执行计划
    完成流程编辑发布后,用户可以在线上模式的输出节点对执行计划进行配置,支持立即执行、编辑执行计划与查看执行记录。
    image.png
    在编辑执行计划中,可以添加定时任务,支持设置依赖执行、任务频率、任务日期、任务时间、开始日期和终止日期。
    image.png
文档导读
纯净模式常规模式

纯净模式

点击可全屏预览文档内容
文档反馈