大量的数据中隐藏着商业价值,各行各业都在做大数据挖掘分析,寻找数据价值,但是却很少有人关注数据质量的问题,数据挖掘分析质量高不高,直接影响数据挖掘分析成果的价值,保证数据质量才是数据挖掘分析的关键。

 

数据质量体现为数据的正确性、准确性、不矛盾性、一致性、完整性和集成性这六大方面。数据质量在数据挖掘分析的各个环节都应用加以控制和保证,从数据采集、数据处理、数据挖掘分析到最后数据挖掘分析成果展现及应用,其中数据处理环节是提升数据质量的重要环节。《哈佛商业评论》近期的一项研究表明,人们将80%的时间用于数据清理和组织,而数据挖掘分析时间仅占20%。有了Tempo大数据分析平台,数据预处理将变得简单高效!下面我们来看看其中一些重要的功能。

 

 

Tempo大数据分析平台支持多种数据预处理方法,包括对行、列、表的30余种数据预处理节点,实现数据清理,集成,变换,归约等数据预处理,为挖掘分析做好准备。其中行处理包括:数据过滤、排序、随机抽样、数据平衡等;列处理包括:重命名、属性过滤、属性生成、随机数生成、缺失值处理、字符型/数值型/日期型属性变换、设置角色等;表处理包括:数据连接、数据追加、数据拆分、数据分解、分类汇总、表转置等;高级处理包括:数据平滑、主成分分析、因子分析、孤立点分析、RFM、季节解构、异常值检测、奇异值分解、分箱、局部多项式回归等。

 

以某企业的全国销售订单分析为例,在构建挖掘分析模型前需要进行数据预处理。

 

第一步,数据连接

 

将销售订单数据表与客户信息数据表做数据表连接,连接方式为内连接,如下图所示,将两表以城市、顾客姓名及订单号相同为连接条件,组合成包含销售订单信息及客户信息的数据宽表。

 

 

Tempo大数据分析平台-数据连接

 

 

 

第二步,数据过滤

 

通过数据过滤节点,将宽表数据中符合分析条件的数据筛选出来,如下图所示,筛选出销售额大于50万的客户。

 

 

Tempo大数据分析平台-数据过滤

 

 

 

第三步,属性生成

 

通过属性生成节点,构造新的属性。如下图所示,构建新的属性产品评价单价和净利润。

 

 

Tempo大数据分析平台-属性生成

 

 

 

第四步,缺失值处理

 

将所有字段进行缺失值处理,支持对不同的字段类型采用不同的缺失值处理方式,如下图所示,如数值型字段支持用平均值、最大值、最小值、中位数、众数或自定义等方式进行缺失值的处理,字符型和日期型数据支持最多次数项、最少次数项或自定义方式进行缺失值处理。

 

 

 

Tempo大数据分析平台-缺失值处理

 

 

 

第五步,异常值检测

 

异常值检测利用原始数据的分布的特征情况,对存在异常和噪声的数据进行检测和识别。如下图所示,可基于四分位距进行异常值检测也可根据业务情况自定义异常值条件来检测异常值,支持直接删除异常值、用均值替换异常值、仅输出异常值及标记异常值并输出整表等操作。这里我们自定义折扣点大于1或销售额小于0或者订单数量基于四分位距的异常值点,不作为分析数据,将异常值直接删除,从而进行下一步分析。(我们也可以将异常值数据输出单独分析,也许能发现一些业务问题)

 

 

 

Tempo大数据分析平台-异常检测

 

 

 

第六步,数值型属性变换

 

根据客户的销售额情况,请客户分为小客户、大客户、重要客户三个等级。如下图所示,数值型属性变换_区间转字符,我们定义销售额在50-100万的客户为小客户,100-500万的为大客户,500万以上的为重要客户。

 

Tempo大数据分析平台-数值型属性变换

 

 

 

第七步,主成分分析

 

为了减少变量数目并避免多重共线性,用主成分分析方法,在保留原有数据90%的信息的基础上提取主成分,然后再用主成分参与构建模型。

 

 

 

 

Tempo大数据分析平台-主成分分析

 

第八步,设置角色

 

将主成分分析的计算结果作为自变量,构建KMeans聚类模型,进行模型评估,将模型结果输出到指定的关系库中,如下图所示。

 

 

 

 

 

Tempo大数据分析平台-设置角色

 

运用Tempo大数据分析平台通过使用灵活多样的数据预处理手段,大大提升了数据质量,为后续构建挖掘模型提供了更精准的数据,同时使构建的数据挖掘模型更贴合业务实际,为后续业务应用打下了坚实的基础!