在数据驱动决策,数字化转型的今天,越来越多的企业设立首席数据执行官以及数据分析科学家的角色,带领一个团队去完成数据的收集、存储、传输以及分析任务,设计组织、协调、流程、技术实现及生产部署,其除了需要了解业务,定义分析方案,自动执行或优化流程外,更重要的在于其需要通过协同团队来发掘创新及洞察,优化他们所创造的价值,这就需要在一个集成、协同的环境中去实现数据挖掘分析。

Tempo大数据分析平台是一款专注大数据挖掘与可视化分析的业务增值工具,其采用数据流拖拽式的操作流程,结合CRISP-DM工业标准,以高性能计算技术、领先的数据挖掘算法、高维可视化分析技术、独创DVL数据可视化语言技术为基础,帮助用户解决数据价值发掘和利用的问题,其强大的自学习功能更是为建模分析及优化模型提供了一种有效便捷的途径。

Tempo数据挖掘-CRISP-DM数据挖掘流程

1 CRISP-DM数据挖掘流程

 

在完成建模数据准备之后,需要依据数据建立模型时,通常会面临算法选择的问题,即选择何种算法可能会取得较好的结果,一般的做法是依据经验和算法特点来确定。而在选定算法后,面临的第二个问题是如何设定算法的参数,通常默认的算法参数针对的一般的数据集,如公开的数据挖掘算法测试数据集,在针对具体的业务建模时,就需要多次实验来确定一组相对较好的算法参数,整个过程耗时耗力。

Tempo数据挖掘-选择模型或算法时的困扰

2 选择模型或算法时的困扰

Tempo数据挖掘的智能学习模块为您提供一站式的解决方案,主要包括自动分类、自动择参、交叉验证和循环行四大部分。自动分类部分可实现分类模型的自动选择,自动择参可实现对算法最优参数的自动选择,交叉验证可实现对训练模型泛华性能的评估,循环行可实现按特定字符字段分类处理或建模功能。

Tempo数据挖掘智能学习模块

3 Tempo智能学习模块

      其中自动分类能实现一个数据集的多种分类算法的一次性建模,并且内嵌自动择参和交叉验证等功能,确保在多种模型中选择和推荐出最佳的模型,以实现模型的自动化和智能化学习。

Tempo数据挖掘-自动分类流程示例

4 自动分类流程示例

Tempo数据挖掘-自动分类参数配置

5 自动分类参数配置

Tempo数据挖掘-自动分类洞察信息

6 自动分类洞察信息

其中,自动择参提供了一定范围下的批量建模,在实际建模中,针对每个算法提供对应的一批参数和这些参数的多个取值,算法对这些参数及其取值进行组合,并通过循环执行组合内的值,挑选出表现最佳的模型。平台中调参的方法包含gridlistgrid是仅支持数值型参数,并提供如线性尺度、对数尺度等变换方式,list除了支持数值型参数调参外,还支持对字符型参数。模型洞察信息中包含最终选择的算法最有参数及模型结构相关信息,便于后续模型调优及应用部署。

Tempo数据挖掘-自动择参流程示例

7 自动择参流程示例

Tempo数据挖掘-自动择参内部流程及参数配置

8 自动择参内部流程及参数配置

Tempo数据挖掘-自动择参结果洞察信息

9 自动择参结果洞察信息

交叉验证是一种用来验证模型性能的统计分析方法,基本思想是:将原始数据进行分组,一部分作为训练集,一部分作为验证集,首先用训练集对分类器进行训练,再利用验证集来测试训练得到的模型,以此作为评价模型的性能指标。过程中不仅考虑了训练误差,同时也考虑了泛化误差,有助于从某些候选模型中选择最适合某个学习问题的模型,使得模型在偏差和方差之间找到最佳的平衡点。平台中实现的方法为K折交叉验证法,假设指定验证次数为k,则意味着将原始样本分为k份,将每份子集数据分别做一次测试验证集,其余的k-1组子集数据作为训练集,这样会得到k个模型,将这K个模型的预测结果分别相加,作为此分类模型的汇总混淆矩阵,并由汇总混淆矩阵得出指定参数下该模型的正确率、召回率等性能指标。模型洞察信息中包含各模型的混淆矩阵及正确率信息和最终模型对于整体数据的正确率。

Tempo数据挖掘-交叉验证流程示例

10 交叉验证流程示例

Tempo数据挖掘-交叉验证内部流程及参数配置

11 交叉验证内部流程及参数配置

Tempo数据挖掘-交叉验证结果洞察信息

12 交叉验证结果洞察信息

另,Tempo数据挖掘平台提供了循环行功能,可实现根据指定的字符型属性的不同取值,将数据集分群,各分群数据集分别执行循环行中的任务(数据读取、数据处理、建模、评估等),如支持将全国销售数据分区域进行缺失值处理,华北/华南区域中某城市销售额存在空值的,则用华北/华南区域各城市销售额均值填充处理。将其结合平台的自学习功能可实现更为复杂场景的建模,为用户有效便捷地实现企业价值发掘提供更有力的支持。

Tempo数据挖掘-循环行流程示例

13 循环行流程示例

Tempo数据挖掘-循循环行内部流程及参数配置

14 循环行内部流程及参数配置

Tempo数据挖掘-循环行结果洞察信息

15 循环行结果洞察信息