随着人工智能技术的逐步普及,越来越多的行业开始拥抱人工智能,用人工智能+”助力技术和产业的不断升级和变革,人工智能已经成为我们当前这个时代的标志。对于企业来说,如果想用人工智能来武装自己,就必须搞清楚人工智能技术的核心。

人工智能的概念始于1956年的达特茅斯会议,由于受到数据、计算力、智能算法等多方面因素的影响,人工智能技术和应用发展经历了多次高潮和低谷。2006年以来,以深度学习为代有的机器学习算法在机器视觉和语音识别等领域取得了极大的成功,识别准确性大幅提升,使人工智能再次受到学术界和产业界的广泛关注。数据、计算力和算法被认为是人工智能发展的三大核心要素,数据是基础,算法是核心,计算力是支撑。

因此,要衡量一个大数据分析平台的核心能力,最为关键的一定是其所具备的算法能力。Tempo大数据分析平台作为国能领先的大数据分析与应用平台,自主研发的强大算法引擎是它区别于其他市场同类型工具的重要标志。接下来,小编就为大家隆重介绍一下Tempo平台的核心算法体系。

1)      基于分布式架构的算法设计

平台所有算法均基于Spark分布式内存计算框架开发,并采用Scala语言进行算法实现,能够支持海量数据的高效挖掘分析。

2)      多样化、全面化的算法选择

平台内嵌130余种数据分析方法,涉及数据预处理、回归、聚类、分类、关联规则、时间序列、综合评价、文本分析、推荐、统计图表十大类别。

3)      智能化的自学习算法

平台内置自动择参、自动分类、自动回归、自动聚类、自动时间序列等多种自学习功能,帮助用户自动选择最优算法和参数,一方面降低了用户对算法和参数选择的经验成本,另一方面极大的节省用户的建模时间成本。

4)      更便捷的深度学习

平台一方面提供DNNRNNLSTM等深度学习算法节点,让用户可以和使用其他机器学习算法一样,快速构建深度学习模型,另一方面平台支持基于SparkOnTensorFlow的深度学习集群框架,方便用户自由编写深度学习代码逻辑,实现更灵活的自主深度建模分析。

5)      模型性能提升利器之集成学习

集成学习严格意义上来说,这不算是一种机器学习算法,而更像是一种优化手段或者策略,它通常是结合多个简单的弱机器学习算法,去做更可靠的决策。集成学习是一种能在各种的机器学习任务上提高准确率的强有力技术,集成算法往往是很多数据竞赛关键的一步,能够很好地提升算法的性能。平台提供BaggingVoting等集成学习框架节点,同时支持XgboostGBDTAdaboost等集成学习算法。

6)      精细化、结构化的文本分析

目前,市场上的文本工具主要是以文本整体分析应用为主来设计功能,未从技术角进行细致的功能划分,这样导致用户对于文本的分析过于主题化,用户在分析过程中无法过多的加入自己的构建思想,同时无法真正将文本挖掘技术与传统结构化数据挖掘技术融合在一起。

本平台中的文本挖掘算法模块以“拖拽式操作、精细化节点设计、结构化自由文本为目标”的设计理念为指导,将文本挖掘的各技术功能点进行粗细划分,使得节点的功能更集中更明确,一方面兼顾了NLP技术的独立性,另一方面通过结构化输出将各功能节点的输出统一成结构化数据表方便与平台已有的其他建模分析节点串联复用。

7)      可扩展式的设计

平台一方面内置PythonRScalaJAVA编程节点,方便用户实现个性化数据分析逻辑,另一方面通过提供自定义算法功能,用户可以将本企业所研究的成熟算法,通过该功能在平台上发布,形成固化的算法节点,供平台所有用户使用。

目前Tempo大数据分析平台中的算法不论从种类还是数量上已经遥遥领先于市场上的同类产品,其有效性、准确度可比肩国际一流工具,且支持大数据环境的分布式运算,能够保障海量数据挖掘的分析效率。

为了能够给用户提供更简单、可靠、全面、智能的分析服务,未来Tempo大数据分析平台将更多的在人工智能技术领域持续发力,提升平台的技术先进性,为用户带来更多更好的智能化分析体验。