【数据建模工具】数据处理算法分享之孤立点分析大数据行业资讯-美林数据

产品简介

美林新闻/NEWS

首页美林数据行业资讯

【数据建模工具】数据处理算法分享之孤立点分析

2022-10-09 17:56:33 次

孤立点是指数据集中的那些小模式数据，其可能是度量或执行错误所导致的，或固有数据中的特异样本点。是基于聚类的、分析多维数据集的孤立点检测方法。先是将数据集中的所有样本按照某种聚类算法做初步聚类，然后根据聚类信息(包括类内距、类间距、类中心等)，计算每一样本点属于孤立点的程度，最终根据所属程度的排序确定指定数量的孤立点。
一、算法思想
孤立点分析，又称离群点检测，多维空间中基于聚类的离群点诊断方法从综合分析的角度，通过聚类和计算样本点与数据组群之间的距离，以及距离远近的判断，实现里全店的诊断以及离群点成因的分析。
离群点分析包括三个阶段：第一阶段是聚类，即根据“亲疏程度”将样本聚成若干类；第二阶段是计算离群度，即在第一阶段聚类结果的基础上，依据距离度量(这里是对数似然距离)，计算所有样本点的异常性测度指标值(这里是离群度)；第三阶段是诊断，即在第二阶段异常性度量值的基础上，确定最终的离群点，并分析导致这些样本点异常的原因，也就是分析离群点主要在哪些变量方向上呈现异常。以下就这三个阶段分别讨论。
►第一阶段
计算距离阈值与样本聚类，主要如下：
首先是计算距离阈值，其值在CF树生长的过程中会被用到。距离阈值的计算公式为：
数据建模工具

其中，

为每个数值型列的取值范围(即max-min )；数据建模工具

为各名词列属性的取值个数。
然后将所有输入变量视为聚类变量，进行CF树聚类，生成一棵完整的聚类树，其每个叶子结点表示一个聚类。这里的CF树是个二叉树，其每个结点存储了所含样本的统计信息，具体包括：结点内所有样本点的数值属性向量和V，所有样本点的数值属性向量平方和SV，所含样本点数及各样本ID，以及所含样本点名词列的各取值个数统计。
►第二阶段
第二阶段的任务是在第一阶段聚类结果及其统计信息的基础上，计算各样本点的离群测度指标值，包括组差异指标GDI、变量差异指标VDI、异常指标值AI及变量贡献指标VCM。
►第三阶段
第二阶段计算得到了所有样本点的GDI、VDI、AI和VCM，本阶段将依据这些指标的排序结果，确定离群点并分析离群点异常的原因。
① 将AI按照降序排序，排在前m位的样本点可能是离群点。同时，m位置的AI值就是离群点的判断标准。大于该值的为离群点，小于为非离群点。
② 对于离群点，将VDI按照降序排序，排在前L位的变量是导致该点可能异常的主要原因。
二、数据格式

数值型和字符型字段；

三、参数说明

参数	类型	描述
选择变量	列表框	用户指定需要进行孤立点分析的属性列，属性列的数据类型为数值型
选择方法	下拉框	提供按照数量和按照比例等方式进行孤立点样本个数筛选。当按比例指定孤立点个数时，需设置比例大小数值。当按数量指定孤立点个数时，需设置数量的具体数值，默认选择按照数量
数量	文本框	设置按照数量方式进行孤立点样本筛选的个数，正整数，默认值为5
比例大小	文本框	设置按照比例方式进行孤立点样本筛选的比例，正数，取值范围：(0,1]，默认值为0.01
导致孤立点异常的最主要列个数	文本框	对于多维数据集，算法除了识别出孤立点外，还能够分析每个孤立点异常的列原因。该参数用于指定要分析前多少个导致孤立点异常的主要因素列，正整型，默认值为1。

四、结果说明

属性列“isExceptional”表明样本是否为异常孤立点样本；
属性列“exceptionCol_1”表明导致异常孤立点的第1个主要因素列；
属性列“exceptionCol1_degree”表明导致异常孤立点的第1个主要因素列的度；
五、演示实例
通过Tempo机器学习平台构建如下流程：

【文件输入】节点配置如下：

【孤立点分析】节点配置如下：

流程运行结果如下：

Tempo大数据分析平台

Tempo商业智能平台

Tempo人工智能平台

Tempo数据工厂平台

Tempo数据治理平台

Tempo主数据管理平台

Tempo指标平台

自助式可视化分析

算法模型管理

指标管理解决方案

数字指挥中心

湖仓一体解决方案

智能场景应用构建

主数据应用监管

数据中台

数据资产入表

发电

电网

制造

油气

煤炭

高校

政企

金融

科研院所

大数据分析师

DAMA认证

美林数据

合作生态

内容中心

帮助中心

美林新闻

行业资讯

产品简介

Tempo商业智能平台

Tempo人工智能平台

Tempo数据工厂平台

Tempo指标平台

Tempo数据治理平台

Tempo主数据管理平台

相关推荐

美林新闻/NEWS

【数据建模工具】数据处理算法分享之孤立点分析

联系我们

400-608-2558 029-8669-8003

扫码关注我们

扫码立即咨询