当我们在谷歌或亚马逊的搜索,我们想起了人工智能在过去的五年里改进的能力。
我们往往不知道的是,人类有作用的标记,并通过数据的近乎无限的里姆斯手动努力开发真正相关的搜索。
当然,数据科学家和ML专家必须构建一个搜索系统——但就目前而言,我们在社交媒体、搜索引擎和商业世界中获得的“类人”结果大多来自于——嗯,人类。
本周AI的行业,我们采访ClickWorker的维托Vishnepolsky。Clickworker是一个庞大而评级良好的微任务市场。Clickworker云技术平台,迎合数据管理和网络研究服务以及AI算法训练。该公司声称拥有超过一万名工人在其全球平台,截至9月2017。
维多的观点很有价值,因为他对众包需求的脉搏了如指掌,为各种各样的人工智能支持服务(包括科技巨头和初创公司)提供业务开发。
订阅我们人工智能产业播客用你喜欢的播客服务:
下面,我们将打破人工智能技术,充分利用众包的劳动,以改善搜索,而且我们还探索什么维托认为是在线搜索的未来发展方向。
改进搜索背后的众包技术
搜索的改进不是一个单一的战略进行,并有一些用来不断确保搜索应用策略提供“人样”的结果。下面我们将探讨这些算法技术4个,他们可能会在怎样一个业务用例适用。
排名的关系
确定相关的关键词是搜索应用的重要任务,但它并不总是一件容易的事。在与15个字的句子,其中3个或4个字最有可能指的是全(15字)查询?
Humans don’t always type fully structured sentences into search applications, and when a short query is entered, a machine still needs as much context as possible around that event to determine what to serve to the user – and Vito tells us that this is a challenge suited to crowdsourcing.
搜索查询的一个例子可能是:
“四月的长颈鹿终于生下的动物冒险乐园健康男性的小腿”
然后,我们需要根据相关阅读句子,选择不同组的关键字。这样,我们正在做,以帮助ML算法来帮助找到这个词的一些逆向工程。众包工作者可能需要的关键字集群,和排名全部将它们放在一个1-4的规模,他们是搜索查询的相关性如何。
建议的条款可能包括:
“动物冒险公园长颈鹿诞生”
“四月长颈鹿宝宝”
“在动物园的长颈鹿”
“出生婴儿长颈鹿”
这样的排列拿出屏幕上的原词之下,众包工人将识别这些通过单独得分他们最相关的原句。
如果没有这个加人解释分层,搜索引擎可能没有意识到眼前,他们的新闻事件“四月的长颈鹿终于生下的动物冒险乐园健康男性的小腿”被更密切相关的“动物冒险公园长颈鹿出生”比“Baby giraffe at the zoo” (which doesn’t mention April – the mother – or Animal Adventure Park – the location).
在Vito的话:
通过这种方式,我们正在做的搜索引擎系统的一些逆向工程。我们正在训练系统知道大多是密切相关的关键字,以这种特殊的询价。
手动更新搜索引擎与人类感知这一附加的输入有助于确保事件或实体可以很快找到,采取了一些围绕相关术语最紧密地结合到特定的所需项目的猜测。
Vito告诉我们,决定短语和相关术语是由客户公司的数据科学家决定的,而不是由Clickworker自己决定的。数据科学团队确定他们自己独特的需求并组织任务,而Clickworker通过分发工作并将结果数据交付给客户来接管这些工作。
搜索精度
查询精度是基于他们跨越了一套独特的预先确定的标准的相关性,涉及到打分的搜索结果的任务。
通过用户输入的搜索查询的一个例子可能是:
“芝加哥夏季摇滚音乐会”
该查询可能具有以下属性的参数:
属性1:位置,值:芝加哥,伊利诺伊
属性2:音乐,值:摇滚
属性3:时间范围,价值:2018年5月10日至2018年9月15日
为了通过众包来完成任务的精确性和相关任务的“分配”,这些初始结构必须由数据科学家事先想好并确定。众包的员工将简单地选择工作,根据这些定义的标准范围(1-4分)对搜索结果进行评分。
在Clickworker的例子中,它只是将任务分配给正确的工作人员—客户公司必须自己完成数据科学和参数确定的工作。客户端与API集成,或者为任务提供电子表格输入,然后Clickworker的工作人员通过相同的电子表格交付输出。
另一个用户输入的搜索查询的例子可能是:
“如何使用台锯”
该查询可能具有以下属性的参数:
属性1:业余爱好/主题,值:复古
属性2:内容类型,值:指令
有了足够的人工评分,可以训练算法来优化不同术语或属性的正确“权重”,以一致地显示满足搜索者意图的结果。结合来自真实用户的数据(即来自搜索列表的点击数据,以及所选搜索结果页面上的页面时间),这种人工管理级别有助于保持算法的精确性。
维托提到这个众包训练技术可以在稀疏数据,如情况下特别重要的是:
- 新术语(在科学或技术,例如)。没有先例的新术语可能不会被机器立即理解,并可能受益于人类的澄清。
- 与时事相关的问题。我们上面使用的关于谷歌手机新版本的例子就是这样一个例子,我们可以想象在工业、政治和其他领域还有很多这样的例子。区分许多类似的新闻事件可能涉及到搜索词和语言上的细微差别,这些细微差别不是机器凭直觉就能识别的,但对人来说是很自然的。
- 外语。泰国一家搜索引擎的工作将需要在泰语培训和短语。用少得多的搜索量和历史训练数据英语或普通话,搜索引擎可能会受益于更多的人力培训。
上市精密
虽然CareerBuilder.com可能响应查询就业或申请,并EventBrite.com可能响应查询事件或音乐会,电子商务商店必须回复查询的产品,而这个任务有点类似于它怎么会在其他搜索应用程序。
用户输入的电子商务查询的一个例子可能是:
“绿色塑料衣架式”
该查询可能具有以下属性的参数:
属性1:材料,值:塑料
属性2:颜色,值:绿色
属性3:家庭用品,价值:衣架
与前面的例子中,所需的参数和所需要的众包的任务将需要由人类数据科学家发送沿进行微责成项目之前定义。
同样的想法或多或少也适用于任何电子商务产品。通过用户输入的搜索查询的一个例子可能是:
“古典马术鞋”
该查询可能具有以下属性的参数:
属性1:样式A,值:老式
属性2:样式B,值:马术
属性3服装项目,价值:鞋
此外,“列表”可以应用于除在线产品之外的各种搜索结果。同样的人类评分和训练可能用于:
- 房屋或出租物业列表(或像AirBnb.com这样的网站)
- 服务提供商的公司简介列表(例如,在Thumbtack.com或Houzz.com这样的平台上)
- 就业(Monster.com,等等)人数
- 在博客或社交网站(如的tumblr或Facebook)的个人档案
- 等等……
对于那些依靠自己来满足搜索者的意图能力的企业,这些上市类型可能需要强大的人的努力来改进搜索结果是尽可能直观。
语音搜索和机器视觉的未来
虽然Clickworker今天需要处理的微任务处理客户端的请求,该公司显然需要对所在的行业正走向的脉搏手指(使他们能够在未来的需求和机会,抓落实,因为他们发展)。
这是我想请教一下近期的未来所在行业的高管的原因之一 - 因为它的洞察力,他们生活和死亡的,他们往往能带来洞察到表外的分析师可能永远不会在网上找到。
维托标识的语音和图像识别为自公司开发的搜索应用程序感兴趣的重要新兴领域。
至于语音,不同语言的培训系统似乎是一项非常适合众包的任务。维托解释说:
我们正在训练的机器识别人不同的口音说。Clickworker有140个不同国家的人群 - 就在亚洲的33%,北美33%,而在欧洲的33%。所以我们经常记录的数据集OT不同语言的列车语音搜索。有了英语,我们可以训练一个英国口音或澳大利亚口音的系统 - 视[客户]地区。
如果像亚马逊的Alexa的设备要开始在芬兰,蒙古销售,这将是不现实的亚马逊聘请数十名本土芬兰或蒙古扬声器。相反,像亚马逊公司可能具有最常用的短语和任务的Alexa感好,并要求这些流行词语的各种排列(通过众包的工人)来记录和机器学习系统处理,以得到它开始。
维托说Clickworker已经看到了需求的增加显著机器视觉训练:
我认为,机器视觉是在2018年最流行的领域获得蒸汽我们有很多企业需要对标记图像和识别,并在应用分类......我们认为这一趋势在电子商务企业认识到产品的图像,或担保公司谁是标志着从无人驾驶飞机或无人机的图像。
事实证明,机器视觉与搜索优化有很强的交集,Vito相信,随着搜索应用程序变得更加复杂和直观,这两者之间的联系只会更加紧密。
For example, when an eCommerce company has photos tagged by crowdsourced workers, people searching for a certain keyword might be able to see images related to that keyword more quickly (i.e. A user searching for “red rain boots” might find more images and products that match that description thanks to searchable images).
在未来,它可能是用户将能够在手机上拍摄图像,并有AI系统在网上找到那些相同的产品(这种存在的应用,但尚未普遍),或者用户可能会发现现有的在线图像,并将它们加载到机器视觉系统来查找产品(从服装到高科技产品等等),他们可能会喜欢买。
订阅我们人工智能产业播客用你喜欢的播客服务:
这篇文章写在Clickworker合作伙伴关系。有关内容,并与Emerj促销合作的更多信息,请访问Emerj合作伙伴页面。
上面的查询示例是出于说明性目的,并不是直接从Clickworker的客户端或机密性目的的案例研究中获得的。
标题图片来源:内部HR