众包情绪分析——在社交媒体和客户服务中的应用

丹尼尔Faggella
《阿凡达》

丹尼尔是在Emerj研究部主管。联合国,世界银行,国际刑警组织和许多全球性企业呼吁,丹尼尔是一个抢手的对企业和政府领导人AI的竞争战略意义的专家。

众包情绪分析——在社交媒体和客户服务中的应用

在过去的3 - 4年,情感分析已经成为一个越来越普遍的名词 - 营销人员和商人都明白。这个想法很简单:一个人工智能系统,它可以检测特定文本文档的情感“色调”或情绪(只要一本书,或短的鸣叫)。

然而,许多业务人员不知道的是,没有一个单独的“情绪分析”程序可以在所有情况下或所有用例中工作。最初,情绪分析系统必须在术语、语言和使用环境方面进行培训——这是人类的工作。

我采访了Charly Walther,产品和增长的副总裁Gengo.ai总部位于东京的基于网络的人工翻译平台Gengo.com的人工智能培训部门。我问了一些具体的情况,在哪些情况下,众包的人类感知对于训练一个情感系统是必要的。

查理曾在优步工作,负责自动驾驶汽车。他致力于改进自动驾驶汽车的算法,然后短暂地在优步(Uber)的数据标签工作中工作——包括众包人工标注用于训练机器视觉系统的图像数据。

在下面的文章中,我们将探讨其中众包是培养一个情感分析系统的必要组成部分的情况下 - 而且我们也将研究来自不同行业和应用的一些代表性的众包情绪标签使用情况。

当众包是必要的情感分析

在某些领域,情绪分析的过程或多或少已经得到了解决。如果你想知道一条特定的Twitter消息(tweet)是愤怒的还是高兴的,可能有一个综合的解决方案来确定(只要这些tweet是英语的)。许多公司已经用英语培训了基本的社交媒体情绪检测系统。

因此众包必要时:

  • 一种语言正在被分析,这是以前从未大规模分析过的(例如,一家公司打算为希腊语或希伯来语创建一个社交媒体情绪分析解决方案)
  • 分析一个话题都是独特的(可能是公司要分析非常复杂和强大的文章和论文的情绪有关在中东政治)

在上面的例子中,需要对独特的术语、实体和单词进行标记和分析,以便让机器能够很好地理解它们。这通常需要以该语言为母语的人,而且还可能涉及有关该领域的某种程度的上下文知识(以中东政治为例)。

一些数据已经带有情绪指标。例如,Amazon评论附带文本,以及1到5星的评论。这些星星可以用来代表一般的情绪(好或坏),所以让人类从头开始打分可能没那么必要了。在查理的话说:

“一个模型需要准确标记的数据,以便很好地检测情绪。大多数公司不一定都有这样的数据。如果你是亚马逊的用户,你可以从你的文字评论中得到一些背景信息,因为你可以猜出,五星评级的文字可能是正面情绪,而一星评级的文字可能是负面情绪。

作为第一步,您需要在这里建立ground truth数据。你需要众包的原因是,一旦你需要特定的环境或语言,就很难找到合适的人来给数据贴上标签。”

例如,Twitter的数据(tweets)并没有任何强有力的暗示或情绪指标。大多数客户服务电子邮件或呼叫中心记录也没有。这些数据必须由人工智能系统进行评分,或者由人工理解上下文和语言的人进行理解。

在需要的时候众包情绪数据

Gengo训练数据
来源:Gengo.ai

查理解释了各种各样的众包情感分析服务需求的好:

  • 首先,是谁需要,以培养初始算法来掌握某个域打造的大型标注语料库的数据人工智能公司。例如,公司努力成为财务报表和公共财务记录的主导情绪分析供应商可能需要有成千上万这样的文件被人类手动评分的和标记 - 允许公司培训这些例子他们的算法。
  • 其次,有些公司只是为了自己的商业目的,想要了解市场情绪,而不是把这些经验教训重新包装成某种产品。例如,一个专业体育团队的营销主管可能想要对他或她的团队在社交媒体上的情绪有持续的洞察力,并将这些数据与商品销售进行交叉引用。

在第一种情况下(AI供应商),最初的卷带安全标签的数据时需要将相当巨大,但一旦人工智能系统训练和表现良好,公司需要一个小得多的正在进行的数据流以不断更新系统并保持最新的新条款,趋势,或边界情况。

在第二组数据中,标签需求可能会保持更稳定,因为目前还没有开发出自动化情绪分析过程的系统。

下面,我们将研究一些可能需要众包来获得情绪分析并运行的用例:

旅游和酒店行业的情绪分析

一家在东南亚经营度假酒店和酒店预订的公司可能想要了解其客户请求的情绪——包括从销售咨询到客户服务请求的一切。该公司可能不仅要分析电子邮件信息,还要分析短信、社交媒体帖子和呼叫中心的抄录。

开发景气分析的专业系统可能会要求:

  • 东南亚语言,如缅甸(缅甸),印尼语,高棉(柬埔寨)马来西亚和泰国语母语
  • 这些人需要用各种各样的情绪给各种各样的客户交流贴上标签,同时考虑到该语言的地区术语和习语

这类系统的业务价值可能是:

  • 为了更好地了解客户和网站用户是如何接受各种销售或客户服务请求的
  • 确定不同国家和地区的客户感知和客户服务水平的差异
  • 为了发现情感趋势,了解哪些服务或问题在客户感知方面似乎变得更好或更差
  • 为了帮助执行团队更好地优先更新网站或员工培训活动,重点是这些倡议最有可能产生积极的影响最终用户

查尔斯·马丁博士曾为多家全球银行开发机器学习应用程序,并在Active Equities Group和Black Rock工作多年。他讲了一个关于培训数据相关性重要性的趣闻——任何构建情感分析系统的商业领袖都应该牢记这一点:

“在金融市场上,人们可能会被要求给数据贴上标签。但如果你问:“交易者会怎么想?”,那是另一个问题了。

我们在一家大型投资管理公司工作,他们想了解美国证券交易委员会(SEC)文件的情绪或意义。该公司希望未经训练的土耳其人阅读和解释这些文件。问题是这些人不理解美国证券交易委员会的文件,不理解其中的细微差别和背景。

当一个人看到了公司被起诉,他们往往假设公司做错了什么,这是一个消极的。当交易者认为公司被起诉,他们可能会认为这是一件好事,因为该公司正在推动什么是可能的界限。”

Charles说,这里的重点是确保训练数据与系统使用时输入的数据类型相匹配。如果一个系统需要由专家使用来做出明智的决定,那么培训需要反映出某种类似于这种专业知识和背景的东西。用他的话说:

“有决定之间的巨大差异,如果有人喜欢电影,或者,如果某种食物味道也不错,与某种复杂的技术问题。如果您的问题(即使它确定情绪)需要的领域知识,那么你不能指望普通人没有这种经验是训练系统的最佳方式“。

在客户服务情感分析

一个公司的目标是建立一个情感分析系统在南美的电信供应商。该公司可能需要培训他们最初的情感分析系统在特定电信相关的客户服务问题 - 和整个西班牙语,葡萄牙语和英语的多种方言。

如果将此任务应用于电信公司的电子邮件通信,则可能需要:

  • 母语为西班牙语、葡萄牙语和英语的人
  • 为了人们熟悉各种投诉和问题,以确定绑定到哪些特定客户服务的电子邮件哪些问题(退款请求,取消因一招,请求升级服务等)

沮丧、讽刺或愤怒的表达方式在秘鲁可能与在巴西里约热内卢不同,这些地区使用的术语和习语可能差别很大,需要当地人类的洞察力来找出这些独特的情况。

在情绪分析方面,一个有着这些更有力区别的系统——以及一个关注电信客户服务请求的系统——可能比一个针对西班牙语和葡萄牙语的一般情绪分析系统要准确得多。

这类系统的业务价值可能是:

  • 训练一套能正确评估几乎任何西班牙语或葡萄牙语电信客户服务请求的系统,并将该系统出售给其他电信供应商
  • 解决本地细微差别的挑战,提供比市场上其他解决方案更好的情绪反馈

媒体情绪分析

作为一家在线媒体公司,想要了解Twitter在中东政治问题上的情绪,他们需要分析信息,而不仅仅是简单地将现有数据集注入现有的情绪模型。这类项目需要:

  • 母语为各种中东语言(阿拉伯语、波斯语等)的人
  • 这些人需要熟悉政治问题,以便:
  • “标记”或识别与政治问题相关的tweet(这比简单地寻找涉及政治的阿拉伯关键词要微妙得多,它通常涉及对tweet的“理解”)
  • 识别并标记特定于此主题的“实体”(当前的政治领导人和候选人、具有政治意味的地点、重要的政治问题,等等)

查理说:

“我们做了很多基于Twitter的情绪分析……但我们通常会首先找到Twitter。”客户只是给我们一个主题——比如说阿拉伯政治——然后我们就会找到适合这个主题的推文,以及情绪分析。”

的确,需要人类的判断来决定(a)一条推文是否与阿拉伯政治问题有关,(b)哪些实体(人、地方或问题)正在被讨论,(c)哪些情绪(或情绪的组合)可能正在被表达。这些都不是显而易见的,也没有在Twitter上预先贴上标签,它必须由人们来分析——至少需要足够长的时间来训练一个专门的人工智能系统来完成这项工作。

获得这样的任务,掉在地上将没有分工处理劳动相当具有挑战性。一个特定国家内建立数据处理专家,这样的团队是不容易的任务,绝不是值得一个此类项目的努力。

这类系统的业务价值可能是:

  • 决定哪些媒体议题是最情绪化和最有趣的读者在实时
  • 确定哪些“实体”(政治人物、城市)是媒体公司读者最感兴趣的
  • 根据情绪趋势对选举结果或政治裁决做出更明智的预测

通过众包来解决语言问题

语言的问题尤其具有挑战性,对于必须在一个相对较短的时间内扩展到许多新的位置的公司 - 或公司独特的或特殊的地域市场经营。

在上面几乎所有的例子中,语言的挑战是训练情绪系统的最重要的原因之一,而不是使用一个通用的预先构建的系统。

Gengo拥有亚马逊和脸谱网在其客户,查理告诉我,这是因为,尽管这些科技巨头可能收集和标签数据——他们通常喜欢与全球公司合作像Gengo规模数据标签作为他们进入一个新的市场,新的语言。

快速进入市场是很重要的,就连科技巨头也会利用众包劳动力进入新市场。在全球范围内拥有承包商的众包公司允许训练算法特殊的地理、文化或语言特性。

关于Gengo.ai

Gengo.ai提供高品质,训练机器学习模型多种语言,众包数据服务。该公司吹嘘成千上万的世界各地的众包的工人,服务科技巨头如Expedia,脸谱,亚马逊和更多的喜欢。

这篇文章是由Gengo赞助的。并与我们的《透明》保持一致,进行了编写、编辑和出版Emerj赞助的内容指南。了解更多关于到达我们的ai集中执行观众的信息Emerj广告页面

标题图片来源:Salesforce

艾曲线保持领先

发现关键的人工智能趋势和应用程序,在未来的业务中区分赢家和输家。

报名参加“人工智能优势”通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - Check your email and open our welcome email to confirm your email address with Emerj">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
subscribe-image
保持在机器学习曲线的前面

在Emerj,我们拥有最大的关注人工智能的在线商务读者群体——加入其他行业领袖的行列,每周收到我们发送到您收件箱的最新人工智能研究、趋势分析和访谈。

感谢您订阅了Emerj“AI Advantage”时事通讯,请检查您的电子邮件收件箱以进行确认。