众包自然语言或演讲训练-用例和解释

迪伦Azulay
化身

迪伦在Emerj金融服务的高级分析师,跨银行,保险和财富管理AI使用情况进行研究。

众包自然语言或言语训练 - 用例和解释

在规划人工智能计划时,企业需要确定获取满足其目标所需数据的方法。数据对于人工智能的成功至关重要。有效的人工智能策略是建立在特定于公司试图解决的业务问题的数据之上的。

正如我们在最近的文章中讨论的那样创建数据策略,企业可能需要收集全新的数据来培训机器学习模拟或增强它已经做同样的数据。

一个企业可以收集和多种方式,其中一种是众包增强其数据。我们采访了马克·布莱恩Appen是一家为机器学习应用程序提供众包培训数据的公司。在我们的采访中,Brayan讨论了公司什么时候可以利用大众来获取它需要的数据来训练一个机器学习模型。

Brayan的想法是如何做到的自然语言处理模型可能经常需要从各种不同的情况下,背景的人力投入是成功的在执行他们的意图。

众包公司可以让企业接触到这些人。在本文中,我们深入研究了自然语言处理模型的几个用例,在这些用例中,群体可能会证明对收集和增强训练这些模型所需的数据是有用的,并且我们是通过群体如何训练这些模型来实现的。人群可以在以下方面训练有效的NLP模型:

  • 口音和方言
  • 的情况和环境
  • 域语言
  • 情绪

众包还可以帮助企业寻求建立自己的AI模型上标明他们打算训练这些模型中的数据。听我们下面马克Brayan访谈全文:

培训口音和方言的NLP模型

希望销售到不同地区和国家的公司可能会考虑建立自己的NLP模型,以了解居住在其中的人的口音、方言和成语。根据说话人所在地区或国家的不同,英语有多种口语表达方式,有时还取决于说话人的文化。

例如,一个接受过英式英语培训的NLP模型可能无法理解美国南部的人所说的英语。换句话说,美国南部的客户可能会发现,他们与之互动的语音识别系统并不能识别他们的声音,因为语音识别系统只被训练成理解英格兰人所说的英语。这可能会给那些想把产品卖给美国南部人的公司带来麻烦。

Brayan在讨论汽车公司如何使用NLP构建汽车内建语音识别系统时进一步描述了这种两难境地,这个用例启发了以下例子:

如果一家汽车公司打算出售其车辆在波士顿,他们可能需要收集语音数据的方式波士顿谈论相关概念车辆和驾驶。例如,一个来自波士顿的司机可能会很自然地说:“滨水停车场”,并打算让车开出一条通往城市滨水地区最近(或许也是最便宜)的停车场的路线。

驱动程序可能有一个厚厚的口音,说的一句话“停车”不发音的“R”。如果语音识别系统的标准英语的训练,也不会注册驾驶员的意图;汽车的导航系统将不是一个路线上拉至一个停车场。

此外,语音识别系统将无法理解“海滨停车”是指“一个停车场在城市的滨水区”,而无需首先培训了什么和在哪里海滨是。

这个问题就变得时,它的理解的NLP模式如何试图“理解”讲话更加细致入微。事实上,汽车公司可能已经训练了汽车的语音识别系统,以了解在波士顿口音单词‘停车场’仍然意味着停放汽车。但是,如果只有一个人训练的是模型,以了解在重音单词“停车”,语音识别系统可能只有当那个人说,它了解它。

这是一个发生在其中的人群可以证明公司有用训练语音系统。一家汽车公司可能需要来自新英格兰的一千人推动公司的汽车,并记录各种各样的语音命令。然后,这些人可以指示语音识别系统,它在汽车的导航系统,事实上不能拉至一个停车场的路线误解。

最终,语音识别系统将了解到波士顿口音的“海滨停车场”意味着“在城市的海滨地区找到通往最近停车场的路线,这里的关键是,当人们用波士顿口音的各种不同的声调说话时,它将学会理解这个短语。

这可能会导致与从他们购买的那一刻,这当然将是客观的,对城市汽车公司销售的理解一个波士顿的讲话的语音识别系统的汽车。

如果汽车公司希望销售到市场的波士顿郊外,他们可能需要重复这个过程中,他们打算出售的每个区域这-all为语音识别系统只了解一个与驾驶相关的概念。Brayan建议,希望在国际上扩张的企业“必须将这些数据不仅从一种语言本地化到另一种语言,还要确保其符合文化等等。”

在口音和方言上训练NLP模型的细微差别扩展到其他用例。Brayan举了一个汽车保险公司的例子,该公司可能会在智能手机应用程序上提供聊天机器人来处理日常的客户请求。一个美国司机可能会在聊天界面上输入“我撞坏了我的车”,一个接受过美国语言培训的聊天机器人可能会明白,客户希望得到一个保险公司的保险金额估计。

同样的聊天机器人可能无法理解一位澳大利亚客户输入“我碰了碰我的马达”的意图。这家汽车保险公司可能会受益于与一家数据收集供应商合作,创建一个可能涉及收集澳大利亚人的项目,以培训其聊天机器人学习澳大利亚英语。Brayan指出,“聊天机器人的成功归结于回答问题的能力。越自然、越有能力,最终用户就越能从渠道中获得价值。”

有关情况和环境训练的NLP模型

口音和方言不谈,世界经历不同的路况由于天气和施工频率不同的区域。上述汽车公司理论上可以训练它的语音识别系统,以了解各种口音和方言,因为他们在录音室正在发言。

事实上,语音识别系统可能能够听懂各种口音和方言中的短语,但可能只有在录音棚中才能做到这一点。录音棚的声学特性与汽车内部截然不同,汽车内部使用的是语音识别系统。

人群可以再次证明有价值的解决这个问题。众包公司可以收集人类在特定区域,带动周边区域是在各种不同品牌和型号的车,说短语列表到由汽车公司提供的语音识别系统。

最重要的是,汽车公司可能希望这些众包驱动程序在不同的路况驾驶:小雨,雷暴,暴风雪,高流量,低流量,光滑路面,砂石路面。它可能会要求司机讲到语音识别系统,当他们高音广播或同时它的安静。

然后,该公司将收集该地区的人们如何用自己的口音和方言说出各种短语的数据,以及在各种汽车中听到的声音和路况。这将提高精度与该语音识别系统了解他们与出售到该地区的汽车所需的目标,第一天的驱动程序。

对域名语言训练的NLP模型

NLP还有许多其他的使用案例,其中众包可能是公司可用的最佳选择之一。在客户服务更广泛地,呼叫中心可能会考虑使用基于自然语言处理,语音识别系统处理日常客户电话。系统会理解来电者的请求并通过电话解决。理论上讲,来电者可以用自然语言来解释他们的要求,而传统的电话录音软件可能要求来电者以问答的方式说出准确的单词或短语。

全国性或全球性业务可能需要培训其呼叫中心语音识别系统,以了解域语言和常见客户支持查询中的语言,以及区域口音和方言。它可能会花钱请一家众包公司找人打电话给公司的客户支持热线,并像客户一样与系统交谈。

例如,CRM业务可能会收到有关如何拉起一定的报告,在其接口调用频繁。来自世界各地的呼叫他们的系统,并询问如何拉起报告业务可能会要求众包的人。其结果是,该系统背后的NLP模型将被训练,以了解在各种口音和方言说了非常具体的客户查询。该业务甚至可能要求呼叫者可以在自己家的电话,在繁忙的办公场所,或者在汽车,以使系统在各种声学环境中听到来电者训练有素的后座。

一种时尚品牌可能需要培训其客户服务聊天机器人来了解特定领域的语言。该聊天机器人将需要接受培训,了解服装用品,服装品牌,颜色,大小,和配合的名称,以及围绕它的衣物可让系统根据他们的性别和年龄哪些客户上下文。众包的人可能能够消息聊天机器人和使用这种语言。然后,他们可以指示它是否满足自己的意图的聊天机器人。

例如,如果客户键入“我为儿子买的Levi's不适合他”,则基于NLP的聊天机器人将需要了解客户打算为男性穿着者接收不同尺寸的Levi's牛仔裤。然后,它可能会建议男士Levi's牛仔裤,其尺寸略大于或小于客户在其客户联系记录中描述的客户购买的牛仔裤。

根据客户的地理位置,他们使用的“李维斯”作为一个独立的为所有的牛仔裤,和训练有素的客户从地理位置的NLP模型可能能够确定是否是这种情况。然后,聊天机器人会理解,它应该显示的品牌是顾客购买的牛仔裤,即使该品牌是不是,事实上,李维斯。

如果客户解释自己的困境,以人的客户服务,代理人会很容易知道的告诉顾客,他们可以在一个尺寸较大或较小送出一对完全相同的牛仔裤。这是,然而,机器高度微妙的局面。The NLP model behind the chatbot would need to have seen thousands of labeled examples of how “Levi’s” is a brand (or a stand-in for all jeans), “son” indicates men’s sizes, “don’t fit” indicates not only the need for a differing size, but the intent to make an exchange, which may require a refund of the previous purchase if the jean sizes are differently priced.

与一系列从谁适合目标人群人类众包查询和可能的答案培训的聊天机器人是有可能确保聊天机器人能更有效地响应客户的要求,并随着时间的聊天机器人能够从客户互动学习的一种方式。

在情感的培养模式NLP

此外,电子商务业务可能要培训其谈话接口或客户服务聊天机器人,了解参与客户的电话或电子邮件票的情绪。该业务可能要升级,从愤怒的客户查询到客户服务经理,例如。仅在中性或内容语调和语言训练的基于语音的客户服务聊天机器人可能无法识别客户的查询,这可能会加剧消费者的无奈的严重性。

客户可能会打电话来,对他们的帐户收取的不明款项从他们忘记了他们签署了每年的订阅服务。客户可能愤怒地威胁要联系他们的银行,并收取回认购金;如果觉得自己的怒气还未得到解决,他们可能只是挂起来,并打电话他们的银行。

电子商务企业可能会通过让众包人员给语音聊天机器人打电话,假装沮丧,讨论理论上未知的费用,来防止这种情况发生。也就是说,来自世界各地的人们表达沮丧的方式各不相同。他们沮丧时可能会使用不同的词语或短语,或者带有讽刺的语气。向多个国家销售产品的电子商务公司可能需要让该国每个地区的人给他们的NLP聊天机器人打电话,并在聊天机器人准备在全球推出之前表达不满。

在这样一个训练有素的聊天机器人,理论上可以升级它接收到的任何呼叫在客户听起来很生气,这可以从扣款节省电子商务业务,因此与他们的商家帐户的麻烦。

众包数据标签

为了确定情绪,然而,NLP模型将需要这些沮丧的呼叫被标记为“沮丧”和“愤怒”。经过数以千计的电话,该NLP模型在理论上学习,以确定它接收任何新的呼叫挫折。标记的数据是必要的,一般机器学习模型;它是什么,他们都在训练。数据标签也可以众包。

例如,一个全球银行品牌可能会付钱给一家众包公司,让其滚动浏览提及该行的社交媒体帖子,并将这些帖子标记为一种情绪而非另一种情绪。这些贴有标签的帖子将被用来训练NLP模型,以确定其从未见过的帖子的情绪。从理论上讲,该银行将能够让其NLP软件定期在社交媒体上滚动,并确定不同人群对银行品牌的讨论方式。

该NLP模型可能会发现,客户住在洛杉矶有不太积极的东西,说银行比客户居住在波士顿,银行可能将资源分配给搞清楚为什么是这样的情况。

也许洛杉矶银行的人事经理有不足或不完整的标准与雇佣合适的出纳员,在这种情况下,银行可以纠正。该银行还可以使用另外一台机器学习软件,以滚动通过其客户的公共社交媒体帖子,并发现其洛杉矶的客户仅仅是更可能是他们不满的大公司比波士顿客户的声音,在这种情况下,可能无需采取任何行动。

上述服装品牌可以众包自己的数据标签建立自己的聊天机器人。众包的人可以标注“李维斯”作为一个牛仔品牌,连衣裙为“女装,”和短语“毛衣是发痒,”作为指示向顾客提供不同的材料制成的毛衣。该公司的汽车可能有众包人类标注短语“似乎快要上当受骗”与汽车的导航系统带来了避免公路路线的作用。

一旦基于NLP - 聊天机器人是在成千上万的这些标记术语和短语的训练有素,理论上可以解决通过聊天界面或浏览驱动程序客户查询到目的地,同时避免高速公路。

高品质的标签是机器学习模式有以下几个原因很重要。一家时装公司可能要建立一个推荐引擎,例如。这家公司首先需要确定它希望客户推荐产品的阶层。不缩小怎么有人会描述一个运动衫,例如,有一个标签,他们可以描述任何数量的单词的运动衫。

时装公司将需要传递给那些做标记与一定要看需求的运动衫被贴上某种风格。换句话说,公司需要提供实际的标签,人们标签上的机器学习模型将训练数据。在此过程中,公司可以确保他们的推荐引擎正在建议,增加顾客的终生价值,尤其是如果该公司选择的标签,是由商业智能和分析通报。

一些公司可能会要求给他们的数据贴标签的人具备某种领域专业知识,以便他们理解提供给他们的标签的上下文。一家公司想要训练NLP模型来搜索健康保险文档,可能需要雇佣那些知道如何在健康保险文档中以各种方式讨论医学术语的人。

描述相同的症状和情况可能有多种方法,但是公司可能只提供一个包含这些症状和情况的标签,这取决于如何讨论这些症状和情况。标记数据的人需要了解这些症状和条件的上下文,以便在以各种方式讨论它们时准确地标记它们。

如果一个公司没有规定人们应该如何标记他们的数据,也没有雇佣那些了解这些标记的人,那么可能会在一个不准确的NLP模型上浪费时间和资源。

众包以满足商业目标

众包可以允许来自不同的地方企业获得的人民大池,每个都有自己的说话和表达自己的情绪的方式。建筑机器学习模型时,这可能证明是有价值的。“人群中的优势,”根据Brayan,“是你的人,衍生的或人质量的数据。”

人类质量的数据——这些数据反映了人类生活的细微差别——可能会提高NLP模型的准确性,使它们能够贯彻它们的意图,并满足构建它们的公司的业务目标。并非每一个商业目标都需要人工智能,更不用说可能从众包模型培训和数据标记中获益的自然语言处理了。

企业领导者应首先确定他们是否能满足他们的业务目标,而不使用AI以及之前在建设自己的模式进行投资。如果一个企业确定其能够承受可能的数据科学和软件工程师的工作人员要求或者一个漫长的整合过程中,众包是它有一个选项,以火车模型,无论它打算建立以实现其目标。

这篇文章是由澳鹏赞助,写,编辑,并出版对准我们的透明Emerj赞助内容的指导方针。了解更多关于实现我们的AI-专注于执行我们的观众Emerj广告页面

标题图片信用:如

艾曲线保持领先

发现关键的AI趋势和应用,在企业的未来和输家独立的赢家。

注册“人工智能优势”通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - Check your email and open our welcome email to confirm your email address with Emerj">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
subscribe-image
机器学习曲线保持领先

在Emerj,我们拥有最大的在线人工智能商业读者群——加入其他行业领袖,每周收到我们最新的人工智能研究、趋势分析和发送到您收件箱的采访。

感谢您订阅的Emerj“AI优势”的通讯,检查你的电子邮件收件箱进行确认。