可视化建模算子介绍

最近更新时间:2021-04-09 18:17:56

查看PDF

以信贷审批项目为说明案例,在左侧算子区中分为数据 IO、预处理、机器学习模型、样本数据、特征工程和模评估等 6 种算子类型。同时支持收藏常用算子和测试算子。所有算子均具有右击和双击操作。

  1. 数据 IO: 包含JDBC数据读取、样本数据读取、Web Output、Web Intput、数据读取5个算子,可连接数据集管理和数据源管理模块,支持用户对数据进行输入和输出。其中右击每个算子均支持重命名、删除、复制、运行算子操作,同时支持查看日志和支持小数据量运行操作。

    image20201023184344736.png

  2. 数据预处理:在一个完整的机器学习项目中,得到的数据会存在有缺失值、重复值等,在使用之前需要进行数据预处理。 数据预处理算子包括数据拆分、数据采样、数据分箱3类。其中右击每个算子均支持重命名、删除、复制、运行算子操作,同时支持查看日志和支持小数据量运行操作,其中小数据量运行具体分为全部运行、运行到此和运行此算子操作。算子输入和输出数据格式均为 DataFrame。

    以按比例采样算子为例,页面支持设置节点参数操作,支持用户输入数据集采样比例。

    image20201023185215841.png

  3. 特征工程: 特征工程是利用数据所在领域的相关知识来构建特征,使得机器学习算法发挥其最佳的过程。特征工程算子包括归一化、特征平滑、特征转换、特征重要性、特征选择5类。其中右击每个算子均支持重命名、删除、复制、运行算子操作,同时支持查看日志和支持小数据量运行操作。

    以主成分分析算子为例,页面支持设置节点参数操作,支持用户输入选择需要降纬的特征列、填写需要降的纬度值和添加附加的数据列。

    image20201026175351261.png

  4. 机器学习:支持各场景的通用机器学习算子,其中包含回归算法、多分类算法、二分类算法、聚类算法4类,其中右击每个算子均支持重命名、删除、复制、运行算子操作,同时支持查看日志和支持小数据量运行操作。

    image20201026175514018.png

  5. 模型评估:模型评估是模型开发过程的不可或缺的一部分。它有助于发现表达数据的最佳模型和所选模型将来工作的性能如何。根据各机器学习算子的分类内置不同的模型评估算子,包含聚类模型评估、分类模型评估、多分类模型评估、回归模型评估、模型预测5种。双击算子支持查看运行后的模型指标。

    image20201026180040846.png

    其中分类模型评估指标,聚类模型评估指标、回归模型评估指标中均表征模型的表现详情,具体为ROC曲线、Precision/Recall图、K-S曲线、Lift曲线。

    image20201026175730844.png

  6. 模型管理:包含模型注册和模型选择两种算子。

文档内容是否对您有帮助?

根本没帮助
文档较差
文档一般
文档不错
文档很好

在文档使用中是否遇到以下问题

内容不全,不深入
内容更新不及时
描述不清晰,比较混乱
系统或功能太复杂,缺乏足够的引导
内容冗长

更多建议

0/200

评价建议不能为空

提交成功!

非常感谢您的反馈,我们会继续努力做到更好!

问题反馈