Tempo大数据分析平台内嵌200余种数据挖掘分析方法,涉及数据处理、统计图表、回归、聚类、分类、关联规则、时间序列、综合评价、文本分析等九大类别。

基于大数据的分布式挖掘应用算法引擎,Tempo平台实现了100余种分布式方法,支持海量数据的快速处理分析。

Tempo大数据分析平台中涵盖视觉聚类、L1/2稀疏迭代、稀疏时间序列和信息抽取等10余种美林独创领先世界的数据挖掘算法。其中:

视觉聚类算法。基于人类视觉原理模拟数据逐级聚类分析,过程包含了数据的一系列分群,最终将视觉存活周期最大时的分群作为最佳聚类结果。视觉聚类算法的优点在于,它既不依赖任何初值,也不涉及整体优化问题,可克服传统算法对初值敏感、难以找到最优聚类,难以确定聚类个数等缺陷。

 

应用案例:数据时代,数据安全对于企业而言非常重要,一旦数据被外部人员窃取,后果将十分严重。传统小数据量的环境下,管理员依靠设置一些基础的安全策略,基本上能满足数据安全保护。在大数据环境下,面对海量实时数据流和多元化用例场景,有限数量的规则策略已经不能保证数据的绝对安全。将视觉聚类引入识别新的网络入侵,通过分析每个用户的特征信息和操作行为信息,如请求时间、IP地址、访问的时间周期、访问频率、是否为增加操作、是否删除操作、是否为查询操作、提交任务的资源需求、提交任务执行时长等,自动确定聚类个数(即用户数据访问行为分群),能够快速分析并发现正常访问、已有入侵行为和新入侵行为之间的特征差异,为实现用户访问行为监控、非法入侵和违法安全规则监控提供辅助决策支撑。

L1/2稀疏迭代算法L1/2稀疏迭代算法是基于极小化损失函数与关于解的1/2范数正则项的高效稀疏算法。L1/2稀疏性高,在求解回归问题和分类问题时,面对冗余、高维变量,在保留原始数据信息不损失情况下能更快速地找到关键影响因素,大大提升整个分析计算的效率和性能。

应用案例:某钢铁企业在硅钢生产线上,由于多种复杂因素的作用,成品表面有时会形成一种称为纵条纹的瓦楞状缺陷。纵条纹缺陷不仅影响产品的外观效果,而且对产品的物理性能有着直接的影响。纵条纹缺陷钢占生产量的30%左右,每年给企业带来巨大的经济损失。对硅钢纵条纹质量故障进行诊断,通过收集硅钢在锅炉冶炼、热轧粗轧、热轧精轧、酸洗、轧制、退火及涂层和剪切等过程的多个特征数据,如连铸中包温度、连铸拉速、各种元素的铸坯成分、粗轧出口温度、精轧出口温度、卷取温度等,利用L1/2算法寻找到铸坯硅成分、铸坯铝成分、粗轧出口温度、精轧出口温度等关键少数的几个影响因素,同时寻找到硅钢质量良好生产的控制策略,为硅钢纵条纹的故障检测和质量诊断提供辅助依据,直接为企业挽回每年近千万的经济损失。

稀疏时间序列。稀疏时间序列将L1/2正则化理论引入到AR时间序列中,建立了基于L1/2约束的稀疏时间序列模型,较之自回归移动平均模型(ARMA),该算法将定阶和求解过程统一,解决了传统时间序列算法定阶难问题,提高了定阶和预测速度。

应用案例:准确地预测出地区的月售电量,对于电力公司决策者合理地确定销售电量总定额、分解售电量销售指标、做好电力企业的经营有着重要实际意义。月度售电量受区域宏观经济、区域电力需求及各种不同类型用户的构成比例等多重因素影响,因而预测难度较大。在某电力公司售电量预测应用中,依据“让历史告诉未来”的思路,考虑历史售电量的发展特点和变化规律,包括周期性、趋势性、季节性、随机扰动性等,进行未来一段时间的售电量预测。利用稀疏时间序列的自动定阶和快速预测优势,使得月度售电量预测相对误差由原来的5%以上降低在1%以下,同时大大提高了预测效率,为电力公司开展电费管理、电价管理、电力需求侧管理等工作提供基础辅助支撑。

信息抽取。该算法通过设计特定的语法规范,构建规则模板引擎,提供给用户灵活的信息抽取接口。相比其他数据挖掘算法,用户在利用平台的信息抽取算法时,只需要按照语法规范编写规则,就可以完成指定信息的快速抽取与结构化内容的准确输出。

应用案例:某金融服务机构向客户发送的短信息是文本形式的(如逾期、房贷、申请等具体业务内容),需要从这些文本短信中分析出有价值的信息等,以有效支撑其客户关系维系和运营管理。对于历史短信量达到TB级,且每个月以2亿条的增加增速在增加,通过模糊查询搜索匹配相关关键字筛选出有价值的信息(如逾期相关信息),一是需要人工梳理大量的关键字以穷举所有可能的情况,耗费大量的时间和人力成本,且可扩展性差,二是匹配的内容精准度差,准确性难以保障。在金融信贷类短信分析中,利用信息抽取算法通过编写规则模板,可以从海量文本中抽取有价值信息,分析每个用户的借款机构、是否逾期、逾期时间、借款金额等信息的精准抽取,有效地发现短信客户的失信风险,有利于金融机构进行风险控制防范。

用户可以灵活地使用Tempo平台内嵌的独创数据挖掘算法,实现大数据高级分析,准确性和响应速度等性能明显优于同类经典算法,能更快速、更直观地洞悉数据特征,发现企业业务和流程中潜在、隐藏的规律和价值。