1、归纳问题类型
项目分析方案设计的关键前提是明确业务问题,经过业务需求的了解和数据探索的环节,我们对于业务知识和数据已经建立了较为清晰的认知,分析方案设计需要在业务和数据认知基础上结合以往的案例分析经验,仔细分析项目的业务问题类型,确定解决问题的框架。如果问题归纳出现偏差,将会导致后续的建设方案走向误区,从而导致模型效果不理想,达不到业务要求。对于缺少项目经验的数据分析师,可以参考《数据分析类项目交付方法论》和《数据分析类项目最佳实践》中的经典案例进行学习(本阶段参考:《数据分析类项目交付方法论》;《数据分析类项目最佳实践》,我们也在此罗列了目前常见的基本业务问题类型,包括关键因子、分类问题、回归问题、聚类问题、关联规则问题、时间序列问题、综合评价问题、信号分析问题 最优化问题,将结合具体情景对各个问题类型进行说明。
2、初步解决思路
明确问题类型后,即可根据不同的问题初步设计解决思路,确定大致的解决问题框架,公司参与了很多项目,积累了大量的业务知识和业务成果,我们面对的项目有很大可能存在可供参考的先例,借鉴历史相似案例的模型设计思路可以提升项目交付效率,本文总结了几个经典具体问题的解决思路。
3、完整方案设计
在明确问题类型,有了初步的解决思路之后,接下来正式进入项目方案设计的环节,文章先总结了在完整方案设计过程中包含的每个阶段,可以参考《数据挖掘项目成功的黄金准则》和《数据挖掘方法论介绍》中了解具体的步骤内容和注意事项(本阶段参考:《数据挖掘项目成功的黄金准则》;《数据挖掘方法论介绍》)。
数据分析项目设计时需要遵循一定的标准流程,这样不仅可以保证数据挖掘每一个阶段的工作内容有章可循,而且还可以保证最终的挖掘成果更加准确,更加有说服力。一般情况下,数据挖掘分析分为以下几个步骤:
业务理解,确定业务目标和数据挖掘目标、明确分析需求;
数据理解,收集原始数据、描述数据、探索数据、检验数据质量;
数据准备,选择数据、清洗数据、构造数据、整合数据、格式化数据;
建立模型,选择建模技术、参数调优、生成测试计划、构建模型;
评估模型,对模型进行较为全面的评价,评价结果、重审过程;
结果部署,分析结果落地形式。
整个数据分析项目都要围绕这几个步骤来实施。有时两个步骤可以同时交替进行,例如,业务理解和数据理解有时可以同时进行;有时几个步骤需要迭代进行,例如,数据准备、建立模型和评估模型这三个步骤经常需要循环迭代多次,才能得到理想的模型。但是需要强调的是:六个步骤缺一不可!