入圈人工智能你需要了解无监督机器学习的真正能力

2017年12月07日由 yining 发表 782875 0

“嘿,Siri。中国的首都是什么?”我们都知道接下来会发生什么——Siri提供了答案。Siri是如何知道正确答案的，这并不是一个谜，但更有趣的是，Siri能够完全理解这个问题。

Siri可以理解和回应人类的语音，这也是Facebook在你输入名字之前就知道在照片上添加标签的原因。这种“理解”是一种被称为机器学习的技术。

受过训练的机器学习
机器学习有两种类型:受过训练的和未经训练的。我们中的大多数人在日常生活中都经历过训练的或监督机器学习，从天气预报和运动结果预测到Siri和Facebook。这些示例被认为是受过训练的机器学习，因为它们需要输入和输出数据。

受过训练的机器学习形式是一种分类或回归。分类是指机器预测离散的响应，例如电子邮件是垃圾邮件还是合法邮件。经过足够多的手工区分，机器开始学习。它使用随时间收集的信息(输入数据)来确定结果，而结果就交给了输出数据。

回归是指机器预测持续的响应。我们通过股市预测看到这种训练机器学习的形式。想象一下，你被要求在这个序列中确定问号代表的数字:“3-9，4-16，5-25，8-?”你会怎样回答?你的答案可能是64，如果是的话，你是正确的。可以肯定的是，你可以通过研究这个序列来得出结论，并认识到每个数字后面都带有一个完美的平方。你通过研究一个序列，并且确定一个模式来得出结果。

在分类和回归的情况下，机器使用输入数据来确定输出，而输出必须在所提供的输出数据中。

还有一个更可靠的例子，让我们看看Facebook建议用户在照片中添加标签的方式。Facebook不知道你和你的朋友长什么样子;它只是从之前标记的照片中收集数据，通过重复“学习”如何识别每个人。一个人的照片越多，Facebook就越有可能做出准确的建议。这就是为什么机器输入的数据越多，输出的结果就越准确。

未经训练的机器学习
未经训练或无监督的机器学习与受过训练的机器学习不同，因为它只需要输入数据。大多数未经训练的机器学习是一种集群分析的形式，其中一组数据以一种方式分组，以便每个组(或集群)中的项目比其他集群中的项目更相似。

未经训练的机器学习，就没有必然的结果。机器允许我们将数据输入机器学习算法，以确定特定数据集的“正常”值。我们不告诉机器什么是正常的;相反，它能够通过数据来确定什么是正常的，并根据行为创建组。这个系统没有发现任何不好的东西。从其他集合中，它决定了什么是有趣的或者是不同的。

组织可以利用未经训练的机器学习来防止潜在的威胁。它通过检查用户的行为(例如登录时间)来确定是否有异常的活动。通过跟踪每个用户在什么设备上登录到系统中，该机器可以开始创建集群。随着时间的推移，这台机器将能够预测特定用户的登录行为，因此，如果在模型之外有足够多的东西，它将被标记为奇怪的行为。

例如，假设一个员工主要从工作网络和家庭网络中登录公司系统，但是现在正在从一个新的位置登录。虽然这个人以前从未在新的场所登录过，但他们组中的其他用户登录过。因此，对于特定的人来说，这是不正常的，但是因为对于他们组中的其他用户来说，这是正常的，所以可能这种不正常的结果会引起关注。

在未经训练的机器学习中，组(输出)不是手动选择的。系统通过行为创建集群，然后使用这些信息进行比较。

人为因素
随着技术日益成熟，机器学习越来越融入我们的日常生活，许多人担心机器会取代人类。但现实是，在大多数应用程序中，没有添加人为因素的机器是无法实现的。无论受过训练还是未经训练，机器学习永远不会完全消除人类参与的需要。

请记住，机器只学习它所提供的数据。当使用机器学习技术时，重要的是要理解哪些数据点是有意义的。确定登录行为的风险或确认Facebook照片的身份是通过人工验证完成的。

因此，与其害怕机器学习，我们应该学习如何利用这项技术来获得最佳的优势，同时也要了解它的局限性。了解输入数据并对其产生的输出数据有清晰的理解是非常重要的。毕竟，为了让机器拥有真正的“知识”，它需要你的智慧。

标签：

语音识别机器学习深度学习智能设备人工智能未来

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇人工智能时代怎样用语音来提升用户体验？

下一篇音乐小白也能乐曲创作微软Azure机器学习工作平台教你玩音乐

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术