美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

数据标准化算法介绍—数据建模工具

2022-08-31 17:22:21
数据标准化是将操作字段按照给定的方法完成由原始数据到新数据的映射,以此消除多字段组合分析情况下存在的数量级和量纲的不同造成的不利影响,算法支持最大最小归一化、最大值归一化及Z标准化等方法。

算法思想
数据标准化是数据建模中数据预处理步骤,在某些比较和评价的指标处理中经常会用到去除数据单位限制,将其转化为无量纲的纯数值,便于不同单位或量级指标能够比较和加权,算法支持最大最小归一化、最大值归一化及Z标准化等方法。
具体介绍如下
1、最大最小归一化。
    最大最小归一化是将数据转化到给定的[Min,Max]范围之内。公式如下
数据建模工具
    其中数据建模工具为x特征的最小值,数据建模工具为x特征的最大值。
2、最大归一化。
    最大归一化是将数据转化到[-1,1]范围之间。公式如下
数据建模工具
    其中数据建模工具为x特征的绝对值的最大值。
3、z标准化。
    z标准化也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1.
数据建模工具
    其中Mean(x)为x特征的均值,Std(x)为x特征的标准差。
数据格式
数值型字段;

参数说明

数据建模工具-数据标准化
参数 类型 描述
选择变量 列表框 需要做数据标准化的属性/字段/列的集合。这里选择的属性/字段/列的数据类型必须为数值型
标准化方式_最大最小归一化 下拉框 原数据与原最小值的差除以原最大值与原最小值的差,得到商后乘以指定最大值与指定最小值的差,乘积后再加上指定最小值。得到标准化后的新数据。通过这种方法,默认将原数据的范围变换到0和1之间;若用户输入指定的最小值和最大值,则将原数据的范围变换到指定mix和指定max之间
标准化方式_最大值归一化 下拉框 每个数值除以数值绝对值的最大值
标准化方式_Z标准化 下拉框 目的是将数据转化为服从接近正态分布的数据,其均值为0,方差为1。计算公式为数值减去均值后除以标准差

结果说明
数据建模工具-数据标准化
对指定的属性进行标准化处理。

Tempo数据建模工具演示实例:
利用数据建模工具构建如下流程:
数据建模工具-数据标准化
【文件输入】节点配置如下:
 数据建模工具
【数据标准化】节点配置如下:
 数据建模工具
流程运行结果如下:
 
数据建模工具


服务热线
400-608-2558
咨询热线
029-88696198
美林数据
微信扫描二维码,立即在线咨询