什么是机器学习?

丹尼尔Faggella
头像

丹尼尔是Emerj的研究主管。在联合国、世界银行(World Bank)、国际刑警组织(INTERPOL)和许多全球企业的呼吁下,丹尼尔成为了一名颇受欢迎的专家,研究人工智能对企业和政府领导人的竞争战略影响。

什么是机器学习_ 950×540

键入“什么是机器学习?”进入谷歌搜索开辟了论坛,学术研究和虚假信息的潘多拉的盒子 - 和这篇文章的目的是为了简化定义和机器学习的理解得益于我们的机器学习研究的面板直接帮助。

在人工智能研究与咨询公司Emerj,我们的许多企业客户觉得,他们似乎应该投资于机器学习项目,但他们对机器学习是什么没有很强的把握。我们经常引导他们使用这些资源,让他们开始学习商业中机器学习的基础知识。

除了机器学习(ML)的一个有见地的、有效的定义外,我们还详细介绍了让机器“思考”的挑战和局限性,以及目前在深度学习(机器学习的前沿)中解决的一些问题,以及为业务用例开发机器学习应用程序的关键要点。

本文将分为以下几个部分:

  • 什么是机器学习?
  • 我们如何到达我们的定义(IE:专家学者的观点)
  • 机器学习基本概念
  • ML模型的可视化表示
  • 我们如何让机器学习
  • 毫升的挑战和局限的概述
  • 简介深层学习
  • 参考文献
  • 在Emerj相关ML访谈

我们一起把这个资源与无论你的机器学习的好奇心面积的帮助 - 因此滚动沿您感兴趣的部分,或随时按顺序阅读文章,从我们下面的机器学习的定义:

什么是机器学习?

*“机器学习是获得计算机学和行为像人类一样,并提高他们对自主时尚时间学习科学,通过观察和真实世界互动的形式喂养他们的数据和信息。”

上述定义封装机器学习的理想目标或终极目标,为在该领域的许多研究人员表示。这篇文章的目的是提供机器学习的是如何定义的专家角度来看,商业头脑的读者,以及它是如何工作。机器学习和人工智能然而,在分享许多人心中的定义相同,也有一些明显的不同读者应该承认为好。参考文献和相关研究人员的访谈都包含在本文的进一步挖掘结束。

*我们如何在我们的定义到达:

(我们的聚合机器学习定义可以在本文的开头部分找到)

正如任何概念,学习机可能有一个稍微不同的定义,这取决于你问谁。我们梳理了网上找信誉良好的来源的五个实用的定义:

  1. “机器学习在其最基本的是用算法来分析数据,从中学习,然后做一个关于世界一些确定或预测的做法。”-Nvidia公司
  2. “机器学习是让计算机的行为没有被明确地编程的科学。”-斯坦福大学
  3. “机器学习是基于可以从数据学习而不依赖于规则为基础的编程算法。” -麦肯锡咨询公司
  4. “机器学习算法可以计算出如何通过实例来推广的重要任务。”-华盛顿大学
  5. “机器学习领域寻求回答这个问题:‘我们如何建立计算机系统,随着经验的自动改善,什么是管理所有的学习过程的基本规律是什么?’-卡内基·梅隆大学

我们发送这些定义对他们,我们采访了和/或包含在我们过去的研究共识的一个专家,并要求他们与自己喜爱的定义作出反应或提供自己的。我们介绍的定义是为了反映不同的反应。下面是一些他们的反应:

约书亚·本焦博士,蒙特利尔大学:

ML不应由底片(从而排除2和3)来定义。这里是我的定义:

机器学习研究是研究的一部分人工智能,寻求通过数据观察到的知识提供给计算机,并与世界的互动。那学到的知识使计算机能够正确地推广到新的设置。

丹科·尼科利奇博士,CSC和马克斯 - 普朗克研究所:

(2号以上的编辑):“机器学习是让电脑而没有明确地编程行事,而是让他们学会对自己的一些小技巧的科学。”

罗马Yampolskiy博士路易斯维尔大学:

机器学习是获得作为人做或更好的计算机学习以及的科学。

艾米丽狐博士华盛顿大学:

我最喜欢的定义是#5。

机器学习基本概念

有许多不同类型的机器学习算法,与数百每一天公布,他们通常通过两种分组学习方式(即监督学习,非监督学习,半监督学习)或通过相似性在形式或功能(即分类,回归,决策树,聚类,深度学习等)。无论学习风格或功能的所有组合机器学习算法包括以下几点:

  • 表示(一组分类器或一台计算机理解语言)
  • 评估(又名目标/计分函数)
  • 优化(搜索方法;常得分最高的分类器,例如,有使用都关闭的,现成的和定制的优化方法)

图片来源:华盛顿大学佩德罗·多明戈博士

图片来源:华盛顿大学佩德罗·多明戈博士

机器学习算法的基本目标是概括例如,在训练样本之外,成功地解释它以前从未“见过”的数据。

机器学习模型的可视化表示

概念和要点在理解上只能到此为止。当人们问“什么是机器学习?”,他们经常想要看到它是什么和它做什么。下面是机器学习模型的一些可视化表示,伴随进一步的信息的链接。更的资源可以在本文的底部。
3049155 -海报- p - 1 -机-学习- - - -大-游戏-——plinko

决策树模型

gmmGrowDemo01

高斯混合模型

dropnet降神经网络

合并色度和亮度使用卷积神经网络

我们如何让机器学习

的re are different approaches to getting machines to learn, from using basic decision trees to clustering to layers of artificial neural networks (the latter of which has given way to deep learning), depending on what task you’re trying to accomplish and the type and amount of data that you have available. This dynamic sees itself played out in applications as varying as medical diagnostics or self-driving汽车.

虽然重点往往放在选择最佳的学习算法,研究人员发现,一些最有趣的问题出现没有可用的机器学习执行标准杆算法出来。这其中大部分的时间与训练数据的问题,但是这也发生在在新的领域的机器学习工作.

在实际应用中往往在硬盘领域的进步工作时研究完成的,原因有二:1,趋势发现的现有方法2.边界和限制的研究人员和开发人员与领域专家合作,并借助时间和专业知识,以提高系统性能。

有时,这也发生“意外”。我们可能会考虑模式集合,或许多学习算法的组合,以提高精确度,是一个例子。队为2009年Netflix的价格竞争中,他们结合他们与其他球队的学习者学习的时候,从而得到改善的推荐算法,得到了他们最好的结果(读Netflix的博客要了解为何他们最终没有使用这个乐团)。

其中重要的一点(基于现场访谈,专家),在以下方面应用商业和其他地方,是机器学习不仅仅是,甚至约,自动化,一个经常被误解的概念。如果你这样想,你一定错过了宝贵的见解,机器可以提供所得的机会(重新考虑整个商业模式,例如,由于一直在像制造业和农业等行业)。

学习的机器对人类很有用,因为有了它们所有的处理能力,它们能够更快速地突出或发现大数据(或其他)中的模式,否则人类就会错过这些模式。机器学习是一种工具,可以用来提高人类解决问题的能力,并对广泛的问题做出明智的推断,从帮助诊断疾病到提出全球气候变化的解决方案。

挑战和局限

“机器学习不能得到无中生有......它的作用是从少得到更多。”- 佩德罗·多明戈博士,华盛顿大学

最大的两个,历史(和正在进行的)机器学习问题都涉及过度拟合(模型展品偏向的训练数据,不推广新数据,和/或方差即学习训练的新数据时随机的东西)和维度(算法和更多的功能在更高的工作/多个维度,使理解数据更加困难)。在某些情况下,访问足够大的数据集也是一个主要问题。

一个机器学习的初学者成功测试训练数据,并具有成功的幻觉中最常见的错误;多明戈(及其他)强调保持一些数据的测试模型时,只有使用该保留的数据来测试选择的模型,然后通过学习对整个数据集单独设置的重要性。

When a learning algorithm (i.e. learner) is not working, often the quicker path to success is to feed the machine more data, the availability of which is by now well-known as a primary driver of progress in machine and deep learning algorithms in recent years; however, this can lead to issues with scalability, in which we have more data but time to learn that data remains an issue.

在目的而言,机器学习是不是目的或在其本身的溶液中。此外,在尝试使用它作为覆盖解决方案,即“BLANK”是不是一个有用的运动;相反,来到表有问题或目标往往是一个更具体的问题,最好的驱动 - “空白”。

深度学习和现代发展的神经网络

深度学习涉及到机器算法的研究和设计学习数据的良好表现在多个抽象层次(安排计算机系统的方式)。通过深入学习宣传近期DeepMind,Facebook的和其他机构强调它是机器学习的“下一个前沿”。

国际会议上机器学习(ICML)被广泛认为是世界上最重要的项目之一。今年发生在6月在纽约市,并汇集了研究人员来自全国各地的谁是在处理工作世界在深学习当前面临的挑战:

  1. 小数据集中的无监督学习
  2. 基于仿真的学习和转让的真实世界

深学习系统已经在像bject检测和识别领域取得在过去十年巨大收益,文本到语音,信息检索等。现在研究的重点是开发数据高效的机器学习例如,在个性化医疗、机器人强化学习、情绪分析等前沿领域,深度学习系统可以更有效地学习,在更少的时间和更少的数据下获得相同的性能。

在应用要点总结机器学习

下面是最佳做法,将机器学习,我们已经从我们的访谈整理好了播客系列的概念的选择,并从选择来源引用这篇文章的结尾。我们希望其中的一些原则将阐明ML如何使用,以及如何避免一些常见的陷阱体现了企业和研究人员可能容易受到上ML-相关的项目出发。

  • 可以说,在成功的机器学习项目中最重要的因素是特征用于描述数据(特定于域的数据),并在第一时间拥有足够的数据来训练您的模型
  • 很多时候算法表现不好的时候,这是由于一个与训练数据(即不足量/偏斜数据的问题;噪声数据;或者不足的特征描述为决策数据
  • “简单并不意味着准确”——根据多明戈的说法,模型参数的数量和过度拟合的趋势之间没有特定的联系
  • 如果可能的话,应该尽可能获取实验数据(而不是我们无法控制的观察数据)(例如,从向随机观众抽样发送不同变体的电子邮件中收集的数据)
  • 无论我们的标签数据的因果或相关,更重要的一点是预测的影响我们的行动
  • 务必留出交叉验证训练数据集的一部分;您希望您选择的分类或学习算法对新数据表现良好

企业领袖的荣誉

Emerj帮助商家开始使用人工智能和机器学习。使用我们的AI景观机会,客户可以在他们公司发现了自动化和人工智能最大的机遇和挑最高的投资回报率第一的AI项目。相反,对那些注定要失败的试验项目上浪费钱财,Emerj帮助客户做生意AI厂商为他们和提高他们的AI项目成功率的权利。

参考文献

1 -http://homes.cs.washington.edu/~pedrod/papers/cacm12.pd

2 -http://videolectures.net/deeplearning2016_precup_machine_learning/

3 -http://www.aaai.org/ojs/index.php/aimagazine/article/view/2367/2272

4 -https://research.facebook.com/blog/facebook-researchers-focus-on-the-most-challenging-machine-learning-questions-at-icml-2016/

5 -https://sites.google.com/site/dataefficientml/

6 -http://www.cl.uni-heidelberg.de/courses/ws14/deepl/BengioETAL12.pdf

在Emerj相关机器学习面试

一个了解人工智能的概念,最好的方法是从研究领域最聪明的头脑的应用学习。下面是我们的一些机器学习研究人员,其中许多可能是谁想要进一步探讨这些话题感兴趣的读者采访的简短列表:

艾曲线保持领先

发现关键的AI趋势和应用,在企业的未来和输家独立的赢家。

订阅“AI优势”简报:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - Check your email and open our welcome email to confirm your email address with Emerj">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
订阅图像
机器学习曲线保持领先

在Emerj,我们有AI-集中的商业读者最多的观众在线 - 加入其他行业领导者和接收我们的最新人工智能研究,趋势分析,并将其发送到您的收件箱周刊的采访。

感谢您订阅的Emerj“AI优势”的通讯,检查你的电子邮件收件箱进行确认。