美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

【数据挖掘算法分享】机器学习平台——回归模型评估

2022-12-12 16:35:00
回归模型评估是机器学习平台中用来评价一个回归任务中的模型表现。比较一种回归一组参数、不同参数组合或者多种回归算法之间的分析性能,检验回归模型的准确性和可靠性。
主要包含以下几种指标:
假设y_i是第i个样本的真实值,机器学习平台为对第i个样本的预测值,其中i=1,2,…,n,n为样本个数。

1、整体量化指标

其中n为样本数,p为回归方程自变量个数,AIC(赤信息量)和BIC(贝叶斯信息量)作为回归模型的选择标准,两个值越小代表模型越好。
R方描述了由自变量的线性函数值所能反应的y的总变化量的比例,R方越大自变量与因变量的线性关系越显著,模型越好

其中
SSR=SST-SSE
自变量个数的增加将影响到因变量中被回归方程所解释的变异比例,即会影响判定系数R方的大小,当增加变量时,会使残差平方和减少,从而使R方变大,也就是说,如果模型中增加一个自变量,即使这个自变量在统计上并不显著,R方也会变大,因此为避免增加自变量而高估R方,因此提出调整R方,记为〖Ra〗^2
D-W检验又称杜宾瓦特森检验,D-W检验用于检验随机误差项具有一阶自回归形式的序列相关问题,也即残差的自相关检验,D-W取值一般在0-4之间:
D-W值接近于0表示残差存在正相关;
D-W值接近于4表示残差存在负相关;
D-W值近似于2 表示残差不存在相关性,此时回归模型较好。
2、误差指标:
误差序列为
误差方差
均方误差
均方根误差
平均绝对误差
最大绝对误差
最小绝对误差
平均相对误差
最大相对误差
最小相对误差=
其中回归主要参考的误差为均方误差,平均绝对误差其值越小代表模型越好。
4、方差分析指标
因变量的Y的观测值之所以有差异,是由以下面两个原因引起的:一是通过函数,当取不同的值引起Y值的变化;二是由其他未加考虑的因素以及随机因素所产生的影响。下面将的总变化量分解成上述两部分,通过比较这两部分的相对大小,分析的函数所能反应总变化量的程度,以考察Y与的之间的关系是否显著。
,则的变化量可以用所谓的总离差平方和(Total Sum of Squares)度量,即用

残差平方和或称为误差平方和(Error Sum of Squares)

回归平方和(Regression Sum of Squares)

其中SST= SSE + SSR
F检验是用于回归系数的显著性检验。

其中MSR=SSR/(p-1),MSE=SSE/(n-p)分别称为均方回归和均方残差,p-1称为SSR的自由度,它等于回归模型中自变量的个数;n-p称为SSE的自由度,它等于样本容量n与回归模型中未知参数p之差;进一步成,(p-1)+(n-p)=n-1为SST的自由度,可以证明当H_0为真的,有
F~F(p-1,n-p)
其中F(p-1,n-p)表示自由度为p-1和n-p的F分布,由样本所求得的统计量F的观测值为F_0,假设检验的p值为

F值越大说明自变量的线性函数值所解释y的变化量越多,因变量与自变量关系越显著。
4、图形指标:
残差图是指以残差为纵坐标,以任何其他有关量的值为横坐标的散点图。通过考察各类残差图可以对误差项分布的正态性,等方差性及回归关系等假设做出会直观检验。以样本为横坐标,残差为纵坐标,如果残差随着时间呈规律性变化,则残差存在正相关或者负相关。当描绘的点围绕残差等于0的直线上下随机散布,说明回归直线对原观测值拟合情况良好。否则回归直线对原观测值拟合不理想。
QQ图是残差正态性检验,若QQ图上的点近似地在一条直线上,可以认为样本数据来自正态总体,QQ图的点如果不在一条直线上,则误差的分布与正态分布有较大的偏离,回归模型效果较差。


服务热线
400-608-2558
咨询热线
029-88696198
美林数据
微信扫描二维码,立即在线咨询