美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

【数据挖掘算法分享】机器学习平台——回归算法之决策树回归

2022-08-11 18:06:06
决策树回归算法是通过构建决策树来进行回归预测,在创建回归树时,使用最小剩余方差来决定回归树的最优化分,该划分准则是期望划分之后的子树误差方差最小。创建模型树,每个叶子节点都是一个机器学习模型,如线性回归模型。

算法说明
决策树算法是一种流行的机器学习算法,可用于分类和回归任务。决策树算法由于以下几点使其得到广泛应用:
1)易于解释;
2)可以处理名词型属性;
3)可以扩展到多分类问题;
4)不需要对特征进行缩放处理(归一化等);
5)可以对有相关关系的特征进行处理。
决策树算法的核心是树的分裂(又称分裂属性或样本划分),所谓分裂属性就是在某个节点处按照某一属性的不同划分构造不同的分支,其目标是让各个分裂子集尽可能地“纯”。所谓尽可能“纯”,对回归而言,指的是结点中样本的平方误差达到最小。
决策树的生成就是递归地构建二叉树的过程。对于回归问题,用平方误差最小化准则,进行特征选择,生成二叉回归树。
假设X与Y分别为 输入和输出变量,给定训练数据集。
机器学习平台-决策树回归
决策树回归的过程如下:
一个回归树对应着输入空间(即特征空间)的一个划分以及在划分的单元上的输出值。假设已将输入空间划分为M个单元R_1,R_2,⋯,R_M,并且在每个单元R_m上有一个固定的输出值c_m,于是回归树模型可以表示为:
机器学习平台-决策树回归
当输入空间的划分确定时,可以用平方误差来表示回归树对于训练数据的预测误差,用平方误差最小的准则求解每个单元上的最优输出值。
问题是怎样对输入空间进行划分。这里采用启发式的方法,选择第j个变量x^((j))和它取的值s,作为切分变量和切分点,并定义两个区域:
机器学习平台-决策树回归
然后寻找最优切分变量j和最优切分点s。具体地,求解:
机器学习平台-决策树回归
对固定输入变量j可以找到最优的切分点s.
其中,c_1和c_2的估计为:
机器学习平台-决策树回归
遍历所有输入变量,找到最优的切分变量j,构成一个对(j,s)。依此将输入空间划分为两个区域。接着,对每个区域重复上述划分过程,直到满足停止条件为止(结点内样本的平方误差小于给定阈值)。

数据格式
必须设置类属性(输出),且类属性(输出)必须是连续型(数值);
非类属性(输入)可以是连续型(数值)也可以是离散型(名词);

参数说明

TempoAI机器学习平台
参数 类型 描述
信息度量方式 下拉框 选择信息度量方法,文本型,取值范围:“variance”,默认值为“variance”
最大深度 文本框 树的最大深度,整型,取值范围:[1,∞),默认值为5
最大份数 文本框 数值型属性分割份数设置,整型,取值范围:[2,∞),默认值为32
是否显示变量重要性 复选框 用户选择是否分析每个变量对于回归结果的影响程度,如果选择是,则在洞察中显示参与建模的每个变量对于模型的贡献程度情况

演示实例
在TempoAI机器学习平台中构建如下流程:
 TempoA机器学习平台
【文件输入】节点配置如下:
TempoA机器学习平台
 
【设置角色】节点配置如下:
 TempoA机器学习平台
【决策树回归】节点配置如下:
 TempoA机器学习平台
流程运行结果如下:
 TempoA机器学习平台
 TempoA机器学习平台


服务热线
400-608-2558
咨询热线
029-88696198
美林数据
微信扫描二维码,立即在线咨询