400-608-2558
029-8766-9737
资讯
当前位置:首页 > 资讯 > 大数据分析与应用
Tempo大数据分析平台之文本分析
时间:2020-04-09 11:02:55 浏览:
据IDC报告,当下数据以每年50%左右的速度快速增长,截至2020年全球数据规模将达44ZB,其中文本等非结构化数据占比高达75%-85%,因此对文本等非结构数据的挖掘分析显得尤为迫切和重要。
文本挖掘分析常规挖掘流程
图1,全球非结构化数据量增长情况
文本分析(Text Mining)指从大量非结构化文本数据中抽取未知的、可理解的、最终可用的知识,并运用这些知识更好地组织信息,进而获取用户感兴趣或有用模式的过程。
文本分析流程大致可以描述为:基于网页、文档、字符等非结构化文本数据,利用自然语言处理技术实现非结构化文本数据结构化,再结合机器学习、统计分析、可视化分析等技术进行挖掘分析,进而实现搜索引擎、舆情分析、新闻分类、邮件过滤、智能问答、话题分析等业务场景应用。其中,平台文本分析模块即是实现自然语言处理常用功能模块,比如:分词、信息抽取、特征选择、主旨话题分析、关键词、命名实体识别、向量空间、情感分析、垃圾信息检测等功能。
文本挖掘分析常规挖掘流程
图2,文本挖掘分析常规挖掘流程
Tempo大数据分析平台文本分析模块前期建设理念是基于浅层语言分析实现非结构化文本数据结构化,进而结合平台机器学习、挖掘分析等技术实现文本分析挖掘。Tempo大数据分析平台文本挖掘模块功能模块架构如下图所示,功能架构分四个层次:数据层、基础层、分析层、应用层。数据层是平台输入的待处理文本数据,基础层为平台自然语言处理模块提供支撑,分析层主要完成非结构化文本的自然语言处理并基于结果进一步做机器学习、可视化分析、统计分析,应用层基于分析层的结果实现相关文本处理业务场景应用。
Tempo大数据分析平台文本挖掘模块功能架构
图3,Tempo大数据分析平台文本挖掘模块功能架构
Tempo大数据分析平台文本挖掘核心是基于自然语言处理实现非结构化文本的处理功能,平台自然语言处理模块的功能概要如下表:
表1,自然语言处理模块的功能概要
自然语言处理模块的功能概要
基于自然语言处理和机器学习做文本挖掘的处理流程:首先对文本数据进行分词处理,其次,基于分词数据进行特征词选择、向量空间实现文本向量化,至此即可打通和平台机器学习(分类算法、聚类算法)的接口,最后,基于机器学习模块实现文本分类、文本聚类等相关业务场景应用,比如,新闻分类、文档聚类、舆情分析等。
如图4,基于新闻咨询数据实现的新闻自动分类建模流程,左半部分是基于自然语言处理(分词、特征选择、向量空间模块)实现文本向量化,右半部分基于平台的逻辑回归分类算法构建新闻分类器,并对模型进行评估分析。
新闻分类挖掘流程
图4,新闻分类挖掘流程
基于自然语言处理和可视化分析做文本挖掘的处理流程:首先对文本数据进行分词处理,其次,基于分词数据进行情感分析、信息抽取、信息检测、关键词抽取、主旨话题分析等文本分析,将以上分析结果由结构化输出节点进行结果重构输出,最后,可基于可视化分析技术实现文本分析。
如图5,基于电商平台手机评论数据实现手机产品市场分析流程:左半部分基于自然语言处理(分词、信息抽取、观点情感分析、关键词抽取、主旨话题分析)实现文本相关分析:

  • 信息抽取实现从手机产品描述中抽取手机品牌和手机型号信息;
  • 情感分析判别评论的情感倾向;
  • 主旨话题分析评论文本的关注焦点;
右半部分将整合的数据输出到数据库,可进一步接入可视化分析平台实现手机产品市场分析场景:
  • 不同品牌、型号的手机在市场上的受欢迎程度分析;
  • 不同年龄段的顾客对手机的关注点分析;
  • 产品在不同区域的市场占有情况分析;
手机评论分析数据挖掘流程

图5,手机评论分析数据挖掘流程
文本挖掘模块特点: 流程化设计理念,丰富的功能模块,基于分布式计算法框架开发,和平台节点进行有机集成:
平台文本挖掘模块特点
图6,平台文本挖掘模块特点
  • 流程化设计:平台文本挖掘采用流程挖掘模式,用户使用方便,业务流程易于理解;
  • 功能丰富:平台实现了自然语言处理常用基本模块,能够灵活方便实现业务挖掘场景;
  • 分布式计算:文本挖掘模块基于Spark集群框架实现,能够对大批量文本数据进行高效处理运算;
  • 有机集成:文本挖掘模块可以和平台机器学习、统计分析、可视化分析等模块进行无缝对接;
立即试用
立即试用
全国服务电话
400-608-2558
029-8766-9737
企业邮箱
tempo@meritdata.com.cn
中国西安 ▪ 雁塔区西三环天谷八路软件新城国家电子商务示范基地六层
扫码关注我们

知乎
Copyright © 2018 MeritData.All Rights Reserved陕ICP备05005361号-1.    陕公网安备 61019002000171号