IDC报告,当下数据以每年50%左右的速度快速增长,截至2020年全球数据规模将达44ZB,其中文本等非结构化数据占比高达75%-85%,因此对文本等非结构数据挖掘分析显得尤为迫切和重要。

全球非结构化数据量增长情况

1,全球非结构化数据量增长情况

文本挖掘(Text Mining)指从大量非结构化文本数据中抽取未知的、可理解的、最终可用的知识,并运用这些知识更好地组织信息,进而获取用户感兴趣或有用模式的过程。

 

文本挖掘流程大致可以描述为:基于网页、文档、字符等非结构化文本数据,利用自然语言处理技术实现非结构化文本数据结构化,再结合机器学习、统计分析、可视化分析等技术进行挖掘分析,进而实现搜索引擎、舆情分析、新闻分类、邮件过滤、智能问答、话题分析等业务场景应用。其中,平台文本挖掘模块即是实现自然语言处理常用功能模块,比如:分词、信息抽取、特征选择、主旨话题分析、关键词、命名实体识别、向量空间、情感分析、垃圾信息检测等功能。

Tempo数据挖掘-文本挖掘分析常规挖掘流程

2,文本挖掘分析常规挖掘流程

Tempo大数据分析平台文本挖掘模块前期建设理念是基于浅层语言分析实现非结构化文本数据结构化,进而结合平台机器学习、挖掘分析等技术实现文本分析挖掘。Tempo大数据分析平台文本挖掘模块功能模块架构如下图所示,功能架构分四个层次:数据层、基础层、分析层、应用层。数据层是平台输入的待处理文本数据,基础层为平台自然语言处理模块提供支撑,分析层主要完成非结构化文本的自然语言处理并基于结果进一步做机器学习、可视化分析、统计分析,应用层基于分析层的结果实现相关文本处理业务场景应用。

Tempo大数据分析平台文本挖掘模块功能架构

3Tempo大数据分析平台文本挖掘模块功能架构

Tempo大数据分析平台文本挖掘核心是基于自然语言处理实现非结构化文本的处理功能,平台自然语言处理模块的功能概要如下表:

1,自然语言处理模块的功能概要

模块

功能说明

分词

实现对中文文本进行词语切分和词性标注,将字符串转换为带标签的词序列

信息抽取

从规则化文本中抽取并结构化输出语义块信息

命名实体识别

从文本中抽取命名实体(如:时间、地点、人物、机构等)

特征选择

通过信息增益、文档频率等指标实现特征词条的抽取

向量空间

基于特征选择抽取的特征词条,结合征权重实现文本内容的向量化

关键词提取

基于TF-IDF权重方法实现文本关键信息抽取

主旨话题分析

结合主题分析模型实现批量文本的主旨析取、话题聚类

观点情感分析

自动识别文本中蕴含的情感色彩信息,给出情感倾向

垃圾违禁信息检测

自动判别文本内容的垃圾信息度,同时析取文本内容在的违禁信息

文本摘要

基于关键词、Text-Rank等方法自动实现文本的内容精简、概要

事件云

基于文本内容抽取其中蕴含的关系,结果可用于词云图展示

基于自然语言处理和机器学习做文本挖掘的处理流程:首先对文本数据进行分词处理,其次,基于分词数据进行特征词选择、向量空间实现文本向量化,至此即可打通和平台机器学习(分类算法、聚类算法)的接口,最后,基于机器学习模块实现文本分类、文本聚类等相关业务场景应用,比如,新闻分类、文档聚类、舆情分析等。

如图4,基于新闻咨询数据实现的新闻自动分类建模流程,左半部分是基于自然语言处理(分词、特征选择、向量空间模块)实现文本向量化,右半部分基于平台的逻辑回归分类算法构建新闻分类器,并对模型进行评估分析。

新闻分类挖掘流程

4,新闻分类挖掘流程

基于自然语言处理和可视化分析做文本数据挖掘的处理流程:首先对文本数据进行分词处理,其次,基于分词数据进行情感分析、信息抽取、信息检测、关键词抽取、主旨话题分析等文本分析,将以上分析结果由结构化输出节点进行结果重构输出,最后,可基于可视化分析技术实现文本分析。

如图5,基于电商平台手机评论数据实现手机产品市场分析流程:左半部分基于自然语言处理(分词、信息抽取、观点情感分析、关键词抽取、主旨话题分析)实现文本相关分析:

²  信息抽取实现从手机产品描述中抽取手机品牌和手机型号信息;

²  情感分析判别评论的情感倾向;

²  主旨话题分析评论文本的关注焦点;

右半部分将整合的数据输出到数据库,可进一步接入可视化分析平台实现手机产品市场分析场景:

²  不同品牌、型号的手机在市场上的受欢迎程度分析;

²  不同年龄段的顾客对手机的关注点分析;

²  产品在不同区域的市场占有情况分析;

手机评论分析数据挖掘流程 

5,手机评论分析数据挖掘流程

文本挖掘模块特点: 流程化设计理念,丰富的功能模块,基于分布式计算法框架开发,和平台节点进行有机集成:

Tempo平台文本挖掘模块特点

6,Tempo平台文本挖掘模块特点

²  流程化设计:平台文本挖掘采用流程挖掘模式,用户使用方便,业务流程易于理解;

²  功能丰富:平台实现了自然语言处理常用基本模块,能够灵活方便实现业务挖掘场景;

²  分布式计算:文本挖掘模块基于Spark集群框架实现,能够对大批量文本数据进行高效处理运算;

²  有机集成:文本挖掘模块可以和平台机器学习、统计分析、可视化分析等模块进行无缝对接;

 

关于Tempo大数据分析平台

Tempo大数据分析平台是一款集数据接入、数据处理、数据挖掘、数据可视化、数据应用于一体的软件产品。它秉持“智能、互动、增值”的设计理念,面向企业级用户提供自助式数据探索与分析能力,为企业提供从BIAI的一体化数据分析与应用解决方案。目前Tempo大数据分析平台已经广泛应用于电力、制造、金融等行业领域,为用户数据价值发现与应用提供强有力的支撑,帮助企业实现基于数据的运营监控、工艺优化、客户分析、精准营销等多种深入业务的智能数据应用,助力企业数字化运营。