最近更新时间:2022-07-21 07:11:43
产品整体示意
承接数据连接,在数据准备中,用户导入数据源后通过在画布上拖拽节点和
名词解释
画布:节点、数据流所处的操作空间,用户可以通过连接在这个空间进行编辑操作。
连接:两个节点之间的线段,代表输入关系,连线左侧节点是右侧节点的输入。
节点:节点是用来标注数据的某一个处理过程 ,用户通过节点编排数据流实现数据处理。
视图:计算机数据库中的视图,是一个虚拟表,其内容由查询定义。同真实的表一样,视图包含一系列带有名称的列和行数据。
发布:意味着将流程从开发模式提交到线上模式,对数据可以进行后续建模处理。
工作区
数据准备中工作区分为三段。左侧为数据连接,用户可以在此添加数据连接;右上为画布,用户可以通过连接和节点在这个空间进行编辑操作;右下为节点视图,点击具体的节点即可展示,用户可以在此进行节点内操作或通过视图查看数据。
拖拽建立连接
2. 视图
在数据准备中,一共提供了三种节点内视图,分别为字段视图、统计视图和数据视图。
字段视图仅展示字段,不展示数据。除输入、输出节点外,支持新增计算字段,支持右击字段唤起清洗:重命名、转换数据类型、值替换、数据筛选、复制字段与隐藏。
统计视图通过柱状图详细地展示了每个字段的统计信息:数值、行数与 占比。用户可以通过排序更直观地观察数据的形状。
在输入和输出节点,用户只能查看各个字段的统计信息
除输入和输出节点,用户可以新建计算字段,单击单个值进行值替换,在更多进行值筛选和值替换
数据视图以二维方式展示详细的数据信息。
将原表或自定义SQL视图拖入画布。
抽取模式下,输出节点依赖于输入节点的抽取任务,请保证输出节点执行时,输入数据已抽取完成
在输入配置处,可以设置数据源的连接方式。包括抽取和直连。选择抽取后,点击抽取设置,允许设置抽取方式、抽取引擎、高级设置、添加定时任务。
在输入表处,显示数据源、数据库和表名。
在字段视图处,可以看到表的字段名称和注释。
在数据视图处,可以看到表的列和数据。
在统计视图处,可以看到每个字段的统计信息
清洗
去掉数据表中不需要的列和行,并新增需要的列和行。
重命名:点击字段的下拉按钮,选择“重命名”,可以对字段进行重新命名。
转换数据类型:点击字段的下拉按钮,选择“转换数据类型”,可以将字段类型转换为整数、小数、字符串、日期、日期时间。
数据筛选:点击字段的下拉按钮,选择“数据筛选”,手动输入要添加的项,可以选择包含所选项以及排除所选项,点击“确定”后,满足条件的结果将会展示在数据视图中。
复制字段:点击字段的下拉按钮,选择“复制字段”,新复制的字段与数据将会展示在数据视图中。
隐藏:点击字段的下拉按钮,选择“隐藏”,字段与数据将不会显示在数据视图中。
关联
将两张表关联为一张宽表,并进行需要的数据处理,关联的数据在列上扩展。
建立两表间的关联关系有两种方式:
将要关联的表直接拖入已有的表中,选择关联的图标,建立两张表的关联关系。
点击已有的表,弹出“+”按钮,点击按钮,选择“关联”,将要关联的表拖入关联节点,建立两张表的关联关系。
建立关联关系后,选择两表要关联的字段,关联关系包括“等于”、“不等于”、“小于”、“小于等于”、“大于”、“大于等于”,可添加多个关联字段。
有数提供4种关联类型:内关联、左关联、右关联、外关联。
内关联:使用内关联时,生成的表将包含与两个表均匹配的值。
左关联:使用左关联时,生成的表将包含左侧表中的所有值以及右侧表中的对应匹配项。当左侧表中的值在右侧表中没有对应匹配项时,将在数据视图中看到null值。
右关联:使用右关联时,生成的表将包含右侧表中的所有值以及左侧表中的对应匹配项。当右侧表中的值在左侧表中没有对应匹配项时,将在数据视图中看到null值
外关联:使用完全外部关联时,生成的表将包含两个表中的所有值。当任一表中的值在另一个表中没有匹配项时,将在数据视图中看到null值。
两个关联的表中如果有相同的字段,将自动对字段进行重命名。 设置关联关系与关联类型之后,可以在右侧查看字段试图和数据视图。
聚合
根据选定的维度,在指定的度量上做数据汇总或平均。
分组:拖入字段,数据视图中将根据字段进行分组展示。
聚合:拖入字段,可以选择聚合方式。
拖入维度字段时,可供选择的聚合方式包括计数和去重计数。拖入度量字段时,可供选择的聚合方式包括求和、平均值、中位数、计数、去重计数、最小值、最大值、百分位。
用户也可以选择自定义聚合。
行转列
将表中具有相同值的多行数据转换成一个值的多列数据。
转置字段:拖入需要转置的字段。
聚合:拖入字段,可以选择聚合方式。
在内部输出节点配置,可以设置输出表名和数据更新方式。
在外部输出节点配置,可以设置输出连接、数据库、输出表和数据更新方式。输出表和数据库字段必须完全匹配。目前支持Doris、GreenPlum、ClickHouse、mysql四种数据源输出,用户需要先行建立数据连接连接数据库。
- 数据更新:
视图配置:在字段视图处,支持对字段添加注释。在数据视图处,可以查看输出表的列和数据。在统计视图,可以查看字段的统计信息,支持查看各个成员的行数与百分比。
用户可以在项目中心的数据任务管理中进行输出管理,具体查看 数据任务管理
发布
发布
用户在完成数据准备工作后,需要将流程进行发布,才能进入到执行计划的编辑、数据模型的新建。
用户也可以选择暂时不进行发布,对当前的流程进行保存。
预览态
数据准备为用户提供了两种预览态,分别为开发模式、线上模式,用户可以在开发模式查看已保存的流程,再线上模式查看已发布的流程。
纯净模式