众包搜索相关的电子商务和网上零售

丹尼尔Faggella
化身

丹尼尔是Emerj的研究主管。在联合国、世界银行、国际刑警组织和许多全球企业的号召下,丹尼尔是一位备受追捧的专家,研究人工智能对企业和政府领导人的竞争战略影响。

众包搜索相关的电子商务和网上零售

使用Amazon.com使它看起来像电子商务搜索公正“的作品。”键入一本书(“麦田里的守望者”),服装的一般描述(“红色雨鞋的孩子”)或电子(“绿色的Playstation 3控制器”)的标题,你会得到你正在寻找.

这不像看上去那么容易。事实上,电子商务和在线零售搜索通常需要大量手动标记的数据。

要理解一串单词,搜索系统必须推断出哪些术语与之相关,哪些术语与在线商店中的哪些库存项目相关。对于拥有数以万计(或者以亚马逊为例,数以百万计)产品的在线商店来说,没有一个预先设定的系列规则可以容纳所有新的客户搜索,或者每天都有大量新的和独特的产品被添加进来。

我采访了根戈·艾,以了解更多有关如何众包的劳动来提高电子商务搜索结果 - 与众包可能被使用时的一些具体举例。

为什么电子商务搜索中使用众包

如果我们检查一个电子商务文本字符串,比如“儿童红色雨靴”,我们会直观地理解它。“红色”是一个描述符,一种颜色。“雨靴”是我们要找的东西。“适合儿童”是一个额外的描述性术语,指明了该产品的用途,表明我们正在寻找适合儿童脚的较小尺寸。

关于文本字符串“孩子们的红色雨靴”的上下文洞察力都没有出现在实际的文本字符串中。相反,人工智能系统必须经过训练,才能确定“红雨”不是我们要找的对象,也不是“给孩子的”

虽然这种实体的提取和术语、形容词等的确定可以通过“开箱即用”的自然语言处理解决方案来完成,但围绕某一领域或语言的上下文通常必须由人类添加。

这是众包的用武之地。如果条件都需要在特定的域或上下文中理解,并有一定的语言中,另外人的判断往往需要使数据足够丰富的训练有效,具体的算法。

沃尔特强调,事实上,语境和语言往往是客户与Gengo合作的关键原因。

“扩展到10个不同国家的公司要么在这些国家找到10个不同的公司来处理数据标签问题,要么与Gengo合作处理所有10个国家的问题。”

人在回路AI的Gengo图
人在回路AI的Gengo图。来源:Gengo.ai

在下面有代表性的例子中,我们将详细介绍一些用于众包数据标记以改进电子商务搜索的假设用例,并进一步探讨该过程是如何工作的,以及何时可能相关。

例1:电子商务语言挑战

公司:网上家具零售商

目标:将服务和服务扩展到欧洲

一家总部位于英国的公司要进入德国电子商务市场,首先需要对现有网站功能进行重大更新,然后才能创建该网站的德语版本。

在翻译完网站的内容和产品列表(这项任务本身可能需要众包劳动力)之后,公司将不得不更新他们的搜索算法将德语单词和字符串绑定到产品的一致搜索结果中。

这不仅仅是简单地将“红色铝椅”的搜索替换为德语翻译“roter Aluminiumstuhl”。必须考虑到独特的短语、术语和语法规则,这项强有力的任务通常最好由母语流利、对主题有一定理解和背景(在本例中为“家具”)的人来完成。

产品的翻译必须首先进行,然后根据不同的搜索结果与实际的德语众包工作人员的相关性进行评分。这可能需要提示为特定搜索词的一组可能的搜索结果打分,为各种搜索词(例如:“草坪家具组”、“橡木餐桌”等)的相关性提供人性化的解释。

这种众包数据工作将涉及大量的前期工作,建设一个大型语料库人标记数据来训练它然后可以在网站上使用的搜索算法。

在大多数情况下,但是,需要进行培训正在进行。沃尔瑟姆描述了如何它通常工作:

“数据的最大金额收集前期得到算法离开地面。在此之后,大多数客户将保留众包的标签数据的持续流 - 以较低音量 - 保持算法相关的新产品,以及处理边缘案件“。

查尔斯·马丁博士是位于硅谷的机器学习咨询公司Calculation Consulting的创始人。马丁曾在Demand Media和eBay从事搜索相关性人工智能项目。在搜索相关性方面,马丁强调了隐性反馈的必要性:

“搜索相关性是什么人点击,它是关于隐式反馈。该方法搜索算法的工作 - 他们已经发展了相当长的时间周期。这是与广告相同的 - 你向人们展示了很多东西,他们点击。你这样做随着时间的推移,并从点击反馈算法获悉。

在这种情况下,我们并不是要求人们做一个5星级的评级,我们只是看到他们点击了什么,他们在页面上停留了多长时间,这就是我们解决问题的方法。”

马丁提到,虽然训练搜索算法是必要的,但重要的是设计实验的方式,以收集正确的数据-这类数据将导致更好的搜索结果。他指出,商业人士通常会对他们认为会影响搜索模型的内容提出想法,但从不由开发算法的人来运行这些想法。

“那些设计不同类型数据集的mba学生,他们把这些数据交给了算法专家,他说这些数据没有任何用处。”

Martin指出,人们在决定要训练一个模型时,会有很多不连贯的地方,但这并不是基于训练一个算法来交付业务所需的结果的真正效果。

实施例2:电子商务上下文挑战

公司:女性在线珠宝店

目标:提供更好的搜索结果和产品推荐,更高的车价值和价值,每一位访客

虽然语言是使用众包劳动的重要原因,但这并不是唯一的原因。上下文是关键。

一个自然语言处理应用程序被训练来帮助律师总结法律文件,不太可能是总结足球比赛或传记事件的最佳解决方案。

类似地,一般的搜索应用程序(或与服装相关的搜索应用程序)不太可能完美地应用于一组特定于珠宝的库存。

在这种情况下,在线珠宝店可能会依赖于像ElasticSearch这样的开箱即用的工具,他们可能会利用众包帮助来训练自己的搜索算法。因为这一假设性的业务主要面向女性,他们可能会寻求在客户年龄范围内众包女性,特别是对珠宝感兴趣或有品味的女性。

这是上下文来在没有语言规则指出,对于“拉刀”的搜索应该以任何方式与“毛脚” - 但它可能是这两个搜索相关的情况下,感兴趣的一个女人往往热衷于其他。没有语言规则指出,用户在搜索“双色玻璃”几乎总是热衷于项链和耳环没有,但它可以通过众包输入被发现,项链确实是什么这种搜索的意图。

这些都是假设性的细微差别,但它们代表了一种深刻的语境意义,即偏好、品味和相关性,而这往往是特定电子商务利基所固有的。这些细微差别通常意味着,定制的搜索算法(不是现成的搜索产品)通常是满足用户需求和最大化业务转换率的最佳方法。

如何众包过程的工作原理

客户拿出了什么,或者规则如何,对标签的东西,是什么/如何组织的事情,然后将这些方向给众包的制度,以提供那种真实需要的数据和标签。

在与马丁来说,他提到,有些客户对他们的自然语言相关的项目,包括相当长的和详细的指导方针:

  • 其数据将被标记(即品牌名称,人名等)
  • 什么是“实体”,什么不是
  • 如何对数据进行分类和排序

玄五的工作是流线型他们的流程和执行,以给客户,他们需要培养他们的算法,解决他们独特的挑战中的数据。

关于Gengo.ai

根戈·艾为培训机器学习模型提供高质量、多语种、众包的数据服务。该公司在全球拥有数万名众包员工,为Expedia、Facebook、亚马逊等科技巨头提供服务。

这篇文章是由Gengo.ai赞助,写,编辑出版对准我们的透明Emerj赞助内容指南.了解更多关于实现我们的AI-专注于执行我们的观众Emerj广告页.

标题图像信用:Mashable

艾曲线保持领先

发现关键的AI趋势和应用,在企业的未来和输家独立的赢家。

注册“人工智能优势”通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - Check your email and open our welcome email to confirm your email address with Emerj">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
订阅图像
机器学习曲线保持领先

在Emerj,我们拥有最大的在线人工智能商业读者群——加入其他行业领袖,每周收到我们最新的人工智能研究、趋势分析和发送到您收件箱的采访。

感谢您订阅的Emerj“AI优势”的通讯,检查你的电子邮件收件箱进行确认。