美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

美林新闻/NEWS

首页 美林数据 行业资讯

常见的数据分析问题归类

2023-12-07 18:03:00
数据分析项目分析方案设计的关键前提是明确业务问题,经过业务需求的了解和数据探索的环节,我们对于业务知识和数据已经建立了较为清晰的认知,分析方案设计需要在业务和数据认知基础上结合以往的案例分析经验,仔细分析项目的业务问题类型,确定解决问题的框架。如果问题归纳出现偏差,将会导致后续的建设方案走向误区,从而导致模型效果不理想,达不到业务要求。我们也在此罗列了目前常见的基本业务问题类型,包括关键因子、分类问题、回归问题、聚类问题、关联规则问题、时间序列问题、综合评价问题、信号分析问题 最优化问题,将结合具体情景对各个问题类型进行说明。

1、回归问题

回归就是学习、利用历史数据,预测出我们关注的指标未来的一个取值。
以工业蒸汽量预测项目为例。火力发电的基本原理是:燃料在燃烧时加热水生成蒸汽,蒸汽压力推动汽轮机旋转,然后汽轮机带动发电机旋转,产生电能。在这一系列的能量转化中,影响发电效率的核心是锅炉的燃烧效率,即燃料燃烧加热水产生高温高压蒸汽。锅炉的燃烧效率的影响因素很多,包括锅炉的可调参数,如燃烧给量,一二次风,引风,返料风,给水水量;以及锅炉的工况,比如锅炉床温、床压,炉膛温度、压力,过热器的温度等。客户的目标是可以精准地预测工业蒸汽量。
常见的数据分析问题归类
回归预测问题的方案设计框架通常需要引入机器学习回归算法,基于历史数据的学习,最终选择最优的回归模型,从而实现客户目标。

2、分类问题

分类预测是分类问题是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。
以设备运行状态的配变重过载分析项目为例。随着生产、生活用电负荷在不断攀升,使得供电企业原有的配变设备所承受的负荷日趋严重,各地市供电设备量巨大,开展所有设备巡检,需要4个检修人员半年的工作量;而且故障频发,人工检修易造成“检修不及时”和“检修过剩”,平均检修治理成功率仅仅20%左右,客户的目标是对配变设备进行重过载预测,为检修人员提供检修名单。

数据分析问题归类
以公募基金的精准营销分析项目为例。券商发行公募基金产品,传统的营销方式为外呼人员电话营销。这种电话营销方式的存在主要问题有两点:1)工作量巨大,因为是用全量客户名单来打电话营销:开展10万人次外呼营销任务,需要4个外呼人员1年的工作量;2)意向成功率过低,平均接通率54%,意向成功率18.09%左右。客户的目的是预测高概率购买用户,为销售人员提供潜客名单,从而降低工作量,增加意向成功率。
数据分析问题归类
分类预测问题的方案设计框架通常需要引入机器学习分类算法,基于历史数据的学习,最终选择分类精度较好的分类算法区构建模型,从而达到客户目标。

3、聚类分析

聚类分析是根据已知样本特征, 根据相似性将对象的集合分成多个类的过程, 像用户画像,探索对象影响因素类的研究都可以纳入聚类问题框架, 聚类问题也可以作为分类问题框架中的一部分, 作为分类之前的探索性步骤。
以公募基金的精准营销分析项目为例。券商发行的公募基金产品,传统的营销方式为外呼人员电话营销。造成工作量巨大,而且为外呼人员提供的是全量用户,导致的客户意向成功率比较低,造成不必要的成本浪费。客户的目标是针对不同的客户推荐不同的基金产品,提高意向成功用户数,从而达到精准营销的目的。
以超市客群细分分析项目为例。目前我国的零售业已经向外资全面开放,零售业的全面开放意味着外商可以通过多种经营方式从事商品流通。同时,也意味着中国将进一步融入经济全球化的潮流。超市是零售企业一种常见的经营方式,它与传统的百货零售企业相比较具有许多优势,这几年在许多大中小型城市发展非常迅速。但作为一般的商家要经营超市,也需要注意一些问题,保证超市在当前激烈的商业竞争中生存和发展。不同超市企业之间的竞争常常体现为对客户资源的争夺。谁能够对客户有更深刻的了解谁就是最后的胜者。因此,分析超市客户群体特征是超市经营企业面临的话题。客户的目标是对超市客户的相关数据进行聚类分析,划分不同客户类型,针对不同的客群特征,提供个性化的产品推荐,从而增加超市收入。
聚类分析问题的方案设计框架需要引入机器学习中的聚类算法,寻找数据之间的共性特征。

4、关联分析

关联分析是从大量看似无关的数据中寻找隐含的规律、关系。
以蔬菜价格之间的关联分析项目为例,蔬菜价格是居民消费价格指数的重要组成部分,蔬菜的价格会受季节、天气等多方面因素的影响,但许多会出现同涨或者同跌等现象,到底哪些蔬菜之间存在这种关系?客户的目标是对不同蔬菜价格波动的关联性进行分析,则有助于为防范蔬菜价格的同期剧烈波动提供新思路。
关联分析问题的方案设计框架通常需要引入机器学习的关联规则算法,通过大量的历史数据,寻找数据之间的隐含的规律或某种关系。

5、时间序列

时间序列是通过与当前预测时间点相近的历史时刻的数据来预测当时时刻的值。
以应用系统负载分析与磁盘容量预测分析项目为例。某大型企业为了信息化发展的需要,建设了办公自动化系统、人力资源管理系统、财务系统,企业信息门户系统等几个大企业级应用系统。因应用系统在日常运行时,会对底层软、硬件造成负荷,显著影响应用系统性能,影响应用系统性能的因素包括:服务器、数据库、中间件和存储设备。任何一种资源负载过大,都可能会引起应用系统性能下降甚至瘫痪。因此需要关注服务器、数据库、中间件和存储设备的运行状态,及时了解当前应用系统的负载情况,以便提前预防,确保系统安全稳定运行。客户的目标是预测应用系统服务器磁盘已使用空间大小,根据用户需求设置不同的预警等级,将预测值与容量值进行比较,对其结果进行预警判断,为系统管理员提供定制化的预警提示。
时间序列问题的方案设计框架通常需要引入机器学习的时间序列算法。

6、综合评价

综合评价是针对多个评价维度,实现对个体的综合评价。
以机组运行状态评价模型分析项目为例,状态检修(基于机组状态预知大修)可显著提高机组使用率,节省检修维护成本,是主泵组大修模式未来发展的方向。目前客户已经积累了丰富的检修数据、故障数据、运行数据,客户的目标是想要研究建设机组状态检修模型的可行性,以便为状态检修的实现打下基础。
综合评价问题的方案设计框架通常需要引入机器学习的综合评价算法,根据不同的评价维度,对目标个人/群体进行综合打分。

7、信号分析

信号是工业领域中多种时变要素的表示方式,它的数据类型单一,次序和间隔包含时间信息,数字信号处理技术是工业数据分析的核心构成要素。
以回转设备监测分析项目为例。回转设备主要用于材料成型,是一种煅烧、焙烧或干燥粒状及粉状物料的热工设备,这些设备造价高昂,更换困难,损失代价巨大。传统的测量采用定时人工巡检的方式,每天在一定的时间段内,在较远的距离条件下,使用手持式红外温度仪对抽取若干个点进行温度测量,数据来源较为粗放,且有一定的盲目性。客户的目标是对这类设备的健康状态进行监测,以保障设备总体运行状态可控。
信号分析问题的方案设计框架需要引入平台中的信号分析模块的节点。

8、最优化

以某污水厂爆气预测分析项目为例,曝气是污水处理工艺中的关键环节,传统的方法采用过渡曝气的方式,增加了能耗成本,同时,现有曝气模型未考虑出水水质指标。客户的目标是构建基于两级多目标优化(出水水质、DO含量)的精准曝气模型,从而为保证出水水质的情况下,降低企业能耗成本,为智能化污水厂赋能。
最优化分析问题的方案设计框架需要引入扩展编程节点,可以将优化算法通过扩展编程的方式进行编写,从而实现模型的寻优,最终找到最优结果。


服务热线
400-608-2558
咨询热线
029-88696198
美林数据
微信扫描二维码,立即在线咨询