美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

【数据挖掘算法分享】机器学习平台—数据处理算法讲解之因子分析

2022-09-28 16:51:04
因子分析是机器学习平台中一种非常有用的多变量分析技术,通常用来研究没有因变量和自变量之分的一组变量之间的关系。该节点可以对输入的多元数据分析,判断这些相互依赖的变量是否指示了潜在的结构,可以对多变量实现消减,用新的、更小的由原始变量组合而成的新变量进一步分析。
►算法思想
主要包括主成分估计法、最大似然估计法和回归估计法,具体如下:
1、主成分估计法
使用主成分法对参数进行估计,具体步骤如下:
(1)数据准备:
机器学习平台
(2) 计算X的样本协方差矩阵:
机器学习平台
(3)计算样本协方差矩阵S的特征根:
机器学习平台
和特征向量:
机器学习平台
(4)使用S的特征根和特征向量近似模型的方差,即:
机器学习平台
(5)计算特殊因子方差Ψ:
机器学习平台
即:机器学习
其中,因子个数的设置可依据特征根取值是否大于1或是直接指定因子数个数。
2、最大似然估计法:
最大似然估计假设数据服从多元正态分布,且相互之间独立,其中多元正态分布的均值为μ,方差为机器学习,符号含义同上。
则利用多元正态分布的联合分布,可得到如下的似然概率:
机器学习
最大化该似然函数,使用迭代优化算法对各参数进行求解。
3、回归方法
采用该方法可以用来估计因子矩阵f,主要思想是在使用以上方法获取模型参数后,使用回归算法获取因子矩阵f。具体如下:
由算法模型可得近似残差为:
机器学习
最小化上述目标函数,即可得到公共因子,如配合主成分法和最小二乘法,可得公共因子为:
机器学习
也可采用迭代优化算法对上述目标函数进行求解,得到因子矩阵。
►数据格式

  • 数值型字段;
►参数说明
机器学习平台-因子分析
参数 类型 描述
选择变量 列表框 用户指定多元的数据列,作为因子分析的原始对象。需要至少指定1列以上的属性列
提取方法 下拉框 提供MINRES、最大似然估计、主成分等因子提取方法
因子数 文本框 用户直接指定提取的因子的个数。默认为1。选中因子数后,不能再同时选中“特征值大于1”
特征值大于1 文本框 用户选择特征值大于1的方式确定因子个数。选中“特征值大于1”后,不能再同时选中“因子数”。
►结果说明
机器学习平台
属性列“FactorAnalysis_Vector”为结过因子分析变换后的列;
 
►机器学习平台演示实例
利用Tempo机器学习平台构建如下流程:
机器学习-因子分析

【文件输入】节点配置如下:
机器学习-因子分析

【因子分析】节点配置如下:
机器学习-因子分析
流程运行结果如下:
机器学习-因子分析


服务热线
400-608-2558
咨询热线
029-88696198
美林数据
微信扫描二维码,立即在线咨询