美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

大话数据挖掘之数据挖掘简介

2020-12-21 17:46:13
人物介绍
许教授:国内数据挖掘专家、某985高校智能信息处理学术带头人
万总:某超市集团营销副总
李部长:某钢铁集团生产部部长
 
某985高校管理学院第五届EMBA班的《数据挖掘及其应用》课程上。
国内数据挖掘专家、智能信息处理学术带头人徐教授站在讲台上打开PPT说:“同学们,大家好!将由我向大家介绍数据挖掘及其应用。这门课我们将通过典型的应用实例深入浅出地介绍数据挖掘的概念、功能、流程和算法。”
“随着计算机技术、数据库技术、传感器技术和自动化技术的飞速发展,人们获取数据、存储数据变得越来越容易。这些数据不是人为产生的,是对我们所研究对象隐含的一定的规律的反映。数据挖掘的目的就是要从所获取的数据中发现这种规律性的知识,从而帮助企业在他们的数据仓库中找到最重要的信息,预测未来趋势和行为,使得商务和生产活动具有前瞻性,并作出具有知识驱动的决策。那么到底什么是数据挖掘呢?同学们可以说一下自己的认识。”
学员们你一言,我一语,争先恐后。
“数据挖掘就是从数据中发现有价值的信息的技术。”
“数据挖掘是对数据建立模型,通过算法求解而发现隐藏在数据中的知识的一种手段。”
“……”
徐教授总结道:“大家对数据挖掘的认识都值得表扬,不过各人表述的都不够全面。”说着,徐教授敲了一下键盘,说:“请看大屏幕,这才是最权威的数据挖掘的定义。”
数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。
大家认真地看着屏幕的内容。
片刻之后,有学员问道:“数据量小是不是就不能进行数据挖掘了?”
徐教授答道:“实际上数据挖掘的算法大都是建立在统计学大数定律基础上的。数据量太小,常常无法反映出真实世界中的普遍特性,这样挖掘算法得出的结论自然不可靠。但并非小数据量就不可以进行挖掘,近年来研究者也提出了一些对小样本进行挖掘的方法,如支撑向量机方法就是基于小样本学习理论的非常实用的方法。数据量虽小,但数据总是事物特性一定程度的反映,只要建立的模型和算法得当,当然也可以从这些数据中获取一定的知识。”
“那么是不是数据量越大越好?”有学员问。
“从理论上说,应该是这样。但随着数据量的增大,算法执行效率会越来越低,甚至无法计算。”徐教授回答说。
刚才提问的学员点了点头,接着问:“徐老师,数据挖掘的定义中,数据前面还有那么多的修饰,您还是给我们解释解释吧。”
“大家淡定点,‘不完全的、有噪声的、模糊的、随机的’确实有点绕口,现实中经常会碰到这种数据。例如,问卷调查时发现不少人不填婚姻状况和年龄,这些不完全的或缺失的数据会给数据挖掘带来一定的难度,我们要么干脆删除这些样本或记录,要么选择使用一定的方法将这些缺失数据补上,或者选择使用可以自动处理缺失数据的算法。”说道这儿,徐教授端起了茶杯,说自己也要补充一下水分了。
“那噪声是什么意思?”一学员问。
徐教授合上茶杯盖子,一边狠狠地用杯子连续敲击着桌子,一边说:“对于我讲课的声音来说,敲桌子的声音就是噪音,我们的录音机录到的是我的讲话声和敲桌子声混杂在一起的混合声波数据。”
“我明白了,由于异常情况的干扰,使我们获得的数据偏离了真实值,这样的数据就是噪音数据。”刚才提问的学员说。
“不光是外界的干扰,测量仪器的故障、人工输入或抄写时的失误等都可能形成噪音数据,可见实际问题中噪音数据往往难以避免的。”徐教授进一步解释说。
“徐老师,什么是模糊的、随机的数据?”又有一学员问。
“在数据挖掘过程中,我们不可避免地要涉及事物的不确定性。不确定性包括模糊性和随机性。模糊性则指事物本身从属概念的不确定性,随机性是指事件发生与否的不确定性。”
“太抽象了,徐老师,您给我们举个例子吧!”李部长建议说。
“好吧。其实模糊的数据大家平时都经常见到,比如说张三个子很高,李四个子较矮,个子的高矮就是典型的模糊性概念,到底多高才算高,李部长1米80,对一般人来说算高个子,但跟姚明比,就太矮了。随机数据也极为多见,比如说华润万家啤酒每天的销量显然是不确定的,大部分人买啤酒是在超市转悠时临时决定的。”徐教授回答道。
李部长扶了扶眼镜,支支吾吾地说:“我似乎明白了……”
万总快人快语:“徐老师,数据挖掘的目的是从数据中发现新的信息和知识,那挖掘出来的知识是什么?”
徐教授回答道:“挖掘出来的知识就是‘散落的珍珠’,亦或是‘发光的金子’,它对人们的实际决策价值非凡。知识是通过对数据进行深入地归纳、分析而获得的,是对所研究对象更深层次的认识。知识是隐藏在数据中的关于所研究对象的规律性,比如说可以用来预测的数学模型、‘如果…那么…’这样的规则、描述事物的类别、有价值的模式、所研究对象的结构、研究对象与对象之间的关系等等。”

关于数据挖掘介绍的内容就介绍到这里。

服务热线
400-608-2558
咨询热线
029-88696198
美林数据
微信扫描二维码,立即在线咨询