众包机器视觉训练 - 用例和解释

迪伦Azulay
头像

迪伦在Emerj金融服务的高级分析师,跨银行,保险和财富管理AI使用情况进行研究。

众包机器视觉训练-用例和解释

数据是至关重要的,当涉及到建筑机器学习模型对业务应用。强大的AI策略的前提是特定于业务问题公司正在设法解决数据,在我们最近的一篇文章概述:商业中人工智能活动的数据收集和增强策略。当涉及到执行上的策略,往往第一件事就是公司需要做的是收集一些或所有它需要建立它的使用情况下,正确的机器学习模型中的数据。

众包可能会帮助那些希望建立自己的机器学习模型的企业收集并标记他们打算用来训练这些模型的数据。机器视觉系统尤其依赖于大量的数据。不像训练一个自然语言处理模型中,众包程序是用于通过其他方式收集的贴标机器视觉数据更容易。这就是说,有针对众包数据采集可能是可行的机器视觉的使用情况。

我们采访了马克Brayan,澳鹏,一个公司,提供众包的训练数据,机器学习应用的CEO。在我们的采访,Brayan讨论当一个公司可能采取的人群的优势,获得它需要训练机器学习模型的数据。听我们下面马克Brayan访谈全文:

Brayan涵盖了两个公司可能考虑与数据收集供应商合作来为机器视觉系统收集和标记数据的用例:自动驾驶汽车和无收银台购物。

用例:自动驾驶汽车

Brayan给出了一个自主车的例子。想要训练汽车背后的机器学习模型的自动驾驶汽车公司需要大规模收集各种数据。Brayan指出:

你只需要走出去,站在街上,突然之间,你感觉所有的事情,你必须知道,在你过马路之前,更不用说在街上开车。你必须能够看到人们移动和他们在哪里,他们是否要过马路,看一个人的另一面停放的车辆,他们可能是,他们可能会去的地方,动物是要做什么。所有这些都需要大量的数据,这样才能涵盖每个用例。

为了训练机器视觉系统用于自动驾驶汽车的车队,该公司首先需要身份地理位置到它打算出售。如果公司打算在美国的汽车销售给买方的主要城市,它需要训练的机器视觉系统能够识别所有的驾驶人在本市,而人可能遇到的障碍,最基础的,其中包括停止迹象,产量标志,道路标志工作,残疾人专用停车区,车道标志,和其他汽车。障碍更具体的城市可能包括人们过马路的婴儿车,狗,骑自行车的人,应急车辆使用和不使用他们的灯,施工封锁和交通警察。

这些不同大小、不同照明和运动状态的障碍物都是可视数据。首先必须收集这些数据。要做到这一点,该公司需要收集数十万张(如果不是数百万张的话)显示这些障碍在不同州的图像或视频。以自动驾驶汽车为例,考虑到自动驾驶汽车的训练机器视觉系统的优先级,可能会购买这些图像或视频的数据库。

另一种收集数据的方式是与众包公司或类似的数据收集供应商合作。这些供应商可以访问位于不同位置的人员网络,这些人员可以放在数据收集项目中。从理论上讲,一家公司可以向一家众包公司支付费用,让数百人居住在该公司计划销售其汽车的城市。这些汽车将在汽车周围安装摄像头,收集汽车在城市中行驶时可能遇到的各种障碍的录像。如果规模足够大,该公司就可以在相对较短的时间内收集所需数据,培训其机器学习模型。

培训不同位置的机器视觉系统

自动驾驶汽车的机器视觉系统理想情况下可以在许多不同的地点工作,但这种广泛的能力需要特定的培训。例如,一辆自动驾驶汽车在纽约可能发现的物体和人群密度上进行训练,可能很难在加拿大北部的土路上行驶。这有几个原因。

一家自动驾驶汽车公司可能没有理由训练它的机器视觉系统来识别那些在波士顿、纽约或旧金山等城市销售的鹿和驼鹿。如果他们打算把货物卖到佛蒙特州、缅因州或魁北克省的农村地区,那么驼鹿和鹿的过境就会突然成为更常见的障碍。如果机器视觉系统没有接受过处理这些障碍的训练,那么当驼鹿穿过马路时,它可能会遇到停车困难。在这种情况下,如果该公司打算在这些地区销售产品,那么从驼鹿越境更频繁的地区收集数据是明智的。

同样,在西雅图街道上训练的机器视觉系统在阿富汗也会遇到识别障碍的困难。因此,需要在沙漠地形中工作的自动军用车辆应该根据从该地形收集的数据进行训练。

标签数据的机器视觉系统 - 驾驶素材

一旦数据被收集,在输入到机器学习算法之前,它必须首先被标记。机器不会知道,几秒钟显示一个女人过马路的画面,实际上是一个女人过马路的画面。机器实际上并不像人类那样看东西;他们“看到”的只有1和0。当给机器学习算法输入一幅图像或一帧连续镜头时,它将图像解释为像素,而不是人类可能解释的内容。为了让机器确定一个图像或框架显示了一个内容块在另一个之上(例如,一个女人,而不是一个停止标志),这个图像或框架需要被标记为该内容块。这里的人们也可以帮忙。

数据收集供应商还可以提供数据标注服务。这些厂商开发,人们手工标注图像和素材来描述他们的内容节目。在这个例子中,自驾车公司已经收集了数十万dashcam镜头秒。然后,它可以支付一个众包公司找人标签,该标签的画面。

例如,一家数据收集公司可以找到一些人坐在电脑前,将许多显示一只黑狗在光天化日之下穿过街道的画面标记为“马路上的动物”。然后,他们可以把同样的标签贴在显示一条黑狗夜间过马路的画面上。机器是不会知道的大纲黑色的狗,两个明亮的眼睛某处降低框架,和红色像素带更低的地方其实是一个黑色的狗有一个红色领过马路晚上。

本机只“看到”的像素,没有任何背景。需要人工标注的视觉数据显示在不同的照明为相同的内容相同的内容,如果一台机器是知道采取同样的行动,无论照明情况在现实世界的设定:在这种情况下,把车停下来。

使用案例:结帐少购物

Brayan简要介绍签退少购物形式的机器视觉另一种使用情况:

商店……想要有摄像头……让人们走进商店,从货架上取下产品,然后走出去。他们想要在后台完成交易,识别出那个人是谁,识别出他们刚买的什么产品,然后在那个人离开(商店)时检查产品的价格,并向他们收费。人类可以很容易做到这一点,但制造人工智能来做到这一点是非常复杂的。

尽管如此,Brayan说,他的公司是“做了很多工作,与真正的大数据集,并以多种方式标记和标签数据。”他的结账少购物的例子是一个是截至目前为止,出可行性的条款。尽管结账少购物应用,如亚马逊围棋在牵引方面都极为新生,我们可以推断出他们的机器视觉系统如何被训练成的数据采集供应商如澳鹏会如何发挥作用的一个代表性的例子。

相对于自驾车的应用程序时训练了结账少购物应用机器视觉系统可能需要更大的各种数据。首先,零售公司需要对他们的货架上的物品的标称数据的基线量登录到数据库中,包括产品的名称,价格和位置给定的货架上。

亚马逊目前围棋需要客户下载一个应用程序,并输入他们的信用卡信息到它。然后,客户扫描在手机上的应用程序的设备上,因为他们走进了商店之一。

设置在货架上相机将记录客户从他们拉的项目。相机背后的机器学习模型将同时检测到客户已被拉离货架和项目他们把一个项目。那么该项目将被添加到客户的应用车。当顾客离开商店,应用程序将法案的信用卡有存档。

为了使这成为可能,机器视觉系统需要的时间和存储中的每个项目的素材小时进行训练以各种方式从架子被拉扯,以不同的角度,并在每家商店的照明在该公司有意部署系统。幸运的是,一家零售公司可能会出售相同的项目,并在其所有门店的安装相同的灯具。从理论上讲,使用内置的单店机器视觉系统可能会在所有部署它的商店。

标签数据的机器视觉系统 - 架摄像机镜头

虽然可以,但数据收集供应商不太可能找到人进入商店,并在货架上的摄像机运行时从货架上取下各种商品。也就是说,众包可以在数据标签方面发挥作用。

众包公司可以让人们坐在一台电脑,并审查通过棚摄像头收集到的所有镜头。然后,他们可以标签,该标签每个镜头框架上,商店出售的项目的名称。这得到在商店销售多个品牌的同一产品,它有可能将变得更复杂。人们可能需要标注顾客从货架无论是作为可口可乐或百事可乐拉2升汽水瓶的框架,例如。这使得系统很难形成规模,因为每一个公司增加了新的产品,以它的库存时间,就需要确保训练的机器视觉系统能够识别这些产品。

此外,人们必须将素材标记为客户从货架上取走或放回货架的实例。如果没有这个步骤,机器视觉系统可能会将决定不购买的商品保存在客户的数字购物车中。因此,当他们离开商店时,即使他们没有带着该商品离开,也要为该商品付费。

只有当标记可以将它送入视觉系统背后的机器学习算法的数据。这在理论上是这样结帐少购物系统可以工作。

机器视觉系统的标记数据。面部识别

Brayan提出一个更复杂的例子,但是。他建议,其中一人可以走在进出该商店的购买从商店的物品没有他们的电话上扫描应用的场景。这不仅需要更多的数据标注,但附加的机器视觉应用:面部识别

在这个例子中,从理论上讲,一个人可以从不同的角度和不同的灯光将他们的许多面部图像上传到一个零售公司的网站上。在那里,他们还可以输入自己的信用卡信息。

然后,顾客可以进入商店,看着与眼睛同高的摄像头,摄像头会扫描他们的面部,并在电脑屏幕上显示他们的个人资料。然后,客户将确认系统调出了正确的配置文件,然后他们将进入商店。

相机系统将跟随他们通过商店,因为他们拉到从货架上不同的项目。放在整个货架上的摄像机将再次确定客户拉到的项目。整个商店跟随他们的相机系统,将检测当顾客离开,然后向客户收取的卡,他们从商店的货架上拉的项目。

为了训练遵循从当他们进入商店时,他们留给客户的机器视觉系统,该系统背后的算法将首先需要已经在一般意义上的人脸训练。该数据在理论上可以从供应商处购买的,在不同的角度和不同的照明人脸图像数据库,但如果公司拟以该算法从地上爬起来训练,他们可能会再次转向数据采集厂商提供众包服务。

人们可以手动标记整个面部的部分在不同角度的人脸图像中,并在不同的照明,使机器视觉系统来检测,其中一个人的眼睛,耳朵,嘴巴和鼻子的位置。

一旦基础铺设,算法需要对每个客户的面进行训练,他们的脸上公司的网站上传图片。当客户上传他们的脸图像的网站,他们实际上是饲养标记数据的机器学习的视觉系统背后算法;他们的脸被标记为他们的名字和信用卡信息。这在理论上允许机器视觉系统当一个特定的人进入和离开公司的店检测,然后相应地充电。

Brayan指出,这样的应用可以变得更加复杂:“两个人走在少一人往外走。如何发生的?”他问。一个答案?“这是一个母亲和一个孩子,她走在孩子旁边,她携带孩子了。”机器将无法检测到的差异,但人很容易就会。由数据采集供应商聚集的人有可能帮助训练模型,这种常见的情况,等等。

机器视觉的未来

机器视觉系统需要深度学习,学习机的复杂的扩展,我们在我们的最受欢迎的文章之一讨论,什么是机器学习?虽然观光或计算代理它,是机器一个比较困难的任务,Brayan表达了对技术的可能性兴奋。他说,“关于图像数据的令人兴奋的事情是一样的数据可用于一遍又一遍,因为数据可以被不同标记。所以,我觉得有一个真正的无尽的一套基于视觉的AI的可能性。”

这意味着,随着企业和研究人员继续收集图像和视频数据的训练机器学习模型,数据可以使用其他公司和研究人员希望火车机器学习模型来做更复杂的甚至完全不同的视觉任务比那些使用数据。这为创新创造了空间,从而推动更多的商业价值金融,卫生保健重工业。众包是为各种用例标记这些数据的一种方法。

这篇文章是由澳鹏赞助,写,编辑,并出版对准我们的透明Emerj赞助内容的指导方针。了解更多关于实现我们的AI-专注于执行我们的观众Emerj广告页面

标题图片来源:朝向数据科学

艾曲线保持领先

发现关键的AI趋势和应用,在企业的未来和输家独立的赢家。

订阅“AI优势”简报:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - Check your email and open our welcome email to confirm your email address with Emerj">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
订阅图像
保持在机器学习曲线的前面

在Emerj,我们有AI-集中的商业读者最多的观众在线 - 加入其他行业领导者和接收我们的最新人工智能研究,趋势分析,并将其发送到您的收件箱周刊的采访。

感谢您订阅的Emerj“AI优势”的通讯,检查你的电子邮件收件箱进行确认。