美林数据
ABOUT US
美林数据技术股份有限公司(简称:美林数据,NEEQ:831546)是国内知名的数据治理和数据分析服务提供商。

机器学习算法之有监督学习和无监督学习的区别

2020-05-26 14:01:11

如今机器学习和人工智能是大家耳熟能详的两个词汇,在我们日常生活中也是被高频的提到。其实机器学习只是人工智能的一部分,是人工智能的一个子集,它往往是通过示例和经验模型让计算机去执行一些操作任务,研究人员和开发人员比较比较热衷于它。在生活中,我们应用的很多东西其实都使用的是机器学习算法,例如我们使用的好多APP,包括AI助手、web搜索、手机翻译等,现在你手机社交媒体新闻的推荐由机器学习算法提供支持,你在视屏网站上推荐的视频、影视剧也是机器学习模型的结果,你现在听歌软件的每日歌曲推荐也是利用机器学习算法的强大功能来创建推荐你喜欢的歌曲列表等等,但是机器学习有许​​多不同的风格的应用。在这篇文章中,我们将探讨有监督和无监督学习,这是机器学习算法的两个主要类别。

机器学习

一、监督学习

如果你有关注有关于人工智能的新闻,你可能已经听说过AI算法需要很多人工标记的示例。这些故事指的是监督学习,这是机器学习算法中比较流行的类别。

监督式机器学习适用于你知道输入数据结果的情况。假设你要创建一个图像分类机器学习算法,该算法可以检测猫,狗和马的图像。

要训练AI模型,你必须收集猫,狗和马照片的大型数据集。但是在将它们输入机器学习算法之前,你必须使用它们各自类的名称对其进行注释。注释可能包括使用文件命名约定将每个类的图像放在单独的文件夹中,或将元数据附加到图像文件中,这是一项费力的手动任务。

标记数据后,机器学习算法(例如卷积神经网络或支持向量机)将处理示例,并开发可将每个图像映射到其正确类别的数学模型。如果对AI模型进行足够的带有标签的示例训练,它将能够准确地检测出包含猫,狗,马的新图像类别。
 

 

监督机器学习解决了两种类型的问题:分类和回归。上面说明的示例是一个分类问题,其中机器学习模型必须将输入放入特定的存储桶或类别中。分类问题的另一个示例是语音识别。

回归机器学习模型不限于特定类别。它们可以具有连续的,无限的价值,例如客户将为产品支付多少费用或明天下雨的可能性。

一些常见的监督学习算法包括:

  • 线性和逻辑回归
  • 朴素贝叶斯
  • 支持向量机
  • 决策树和随机森林
  • 人工神经网络

二、无监督学习

假设你是一个电子商务零售企业主,拥有数千个客户销售记录。你想找出哪些客户有共同的购买习惯,以便可以使用该信息向他们提出相关建议并改善你的追加销售政策。问题在于你没有预定义的类别将客户划分为多个类别。因此,你不能训练监督式机器学习模型来对客户进行分类。

这是一个集群问题,是无监督机器学习的主要用途。与监督学习不同,无监督机器学习不需要标记数据。它仔细研究了训练示例,并根据它们的共同特征将它们分为几类。

 

 

训练有素的无监督机器学习算法会将你的客户划分为相关的集群。这将帮助你根据客户与集群中其他人的共同偏好来预测客户将购买的产品。

K-means是众所周知的无监督聚类机器学习算法。使用k均值的挑战之一是知道将数据划分为多少个群集。太少的包会打包不太相似的数据,而太多的簇只会使你的模型复杂且不准确。

除了聚类之外,无监督学习还可以执行降维。当数据集具有太多特征时,可以使用降维。假设你有一个有关客户的信息表,该表有100列。拥有有关你的客户的大量数据可能听起来很有趣。但实际上并非如此。

随着数据中功能数量的增加,你还需要更大的样本集来训练准确的机器学习模型。你可能没有足够的样本来训练100列模型。太多的功能也增加了过度拟合的机会,这实际上意味着你的AI模型在训练数据上表现良好,而在其他数据上表现不佳。

无监督的机器学习算法可以分析数据并找到不相关的特征,可以将其删除以简化模型而不会失去宝贵的见解。例如,对于我们的客户表,通过降维算法运行它后,我们可能发现与客户的年龄和家庭住址相关的功能几乎没有关联,因此我们可以将其删除。

主成分分析(PCA)是一种流行的降维机器学习算法。

一些安全分析师还使用无监督的机器学习进行异常检测,以识别组织网络中的恶意活动。

无监督学习的好处之一是,它不需要监督学习必须经历的费力的数据标记过程。但是,要权衡的是,评估其性能的有效性也非常困难。相比之下,通过将监督学习算法的输出与测试数据的实际标签进行比较,可以很容易地衡量监督学习算法的准确性。

现在你了解有监督和无监督的区别了吗?

服务热线
400-608-2558
咨询热线
029-88696198
美林数据
微信扫描二维码,立即在线咨询