如何确定人工智能项目或计划的数据需求

艾茵·德·耶稣
《阿凡达》

艾因作为AI分析师Emerj - 覆盖各行业的人工智能使用情况和趋势。此前,她曾在埃森哲担任各种角色。

如何确定人工智能项目或计划的数据需求

集简介:我们从商业领袖那里收到了很多关于数据丰富领域的兴趣,并且我们已经为这些业务执行了一些活动。与此同时,我们的观众似乎对……特别感兴趣集合的数据为企业培训一种定制的机器学习算法,提出有关如何开始数据收集以及数据可能来自何处的问题。

本周人工智能在工业我们试图回答这些问题。我们加入了丹妮拉布拉加,CEO和DefinedCrowd的创始人,一个数据丰富和众包公司,谁与我们讨论了如何将企业可能决定什么样的数据,可能需要为它的AI行动。

我们希望从这次采访中获得的见解将帮助商业领袖更好地了解他们如何开始一个人工智能项目,并看到它从数据收集或增强到解决其业务问题。

订阅我们的人工智能产业播客你最喜欢的播客服务:

itunes-podcast
soundloud-podcast
google-podcast
stitcher-podcast

客人:丹妮拉布拉加,创始人兼首席执行官DefinedCrowd集团。

专业知识:语音识别、自然语言处理、机器学习、软件工程、程序管理、语言学

短暂的识别:Daniela Braga在语音技术方面有18年的工作经验,包括在学术界和工业界。在DefinedCrowd之前,她在微软工作,研究语音技术。在Voicebox,她创建了数据科学和众包团队。她也是科鲁纳大学的讲师和波尔图大学的研究员。她拥有科鲁纳大学的语音技术博士学位。

访谈要点

(04:05)行政人员如何掌握某个项目的数据需求?

丹妮拉布拉加:有两种类型的客户来找我们:一种是拥有大量数据却不知道如何处理的客户,另一种是没有任何数据却需要在系统中开始构建一些自动化或效率的客户,需要从头开始。我们从提供服务在人工智能生命周期的所有阶段数据收集,收集原始数据,模型从头开始或查看客户的大量原始数据和给予他们指导如何构建自己的数据应用程序中得到最好的结果。

我们在人工智能中移动。很多人说他们做人工智能,但实际上是在做基于规则的模型。对于人工智能,你需要机器学习驱动的模型和大量结构化数据。我们沿着认知服务的路线前进。我们为语音应用、文本和计算机视觉收集和构建高质量的培训数据。

我们的客户通常会遇到这样的情况,比如建立一个个人助理,说“我想去多语言或不同的市场,我需要2000人在该领域、银行业、德国或越南说不同的方言。”我如何得到这些数据?我有一个英语模特在工作,但不知道如何达到下一个阶段。“这是金融界经常发生的一个例子。

我们试图看到很多的模型,以及域通用工作:播放音乐,获得关于天气,或基本的搜索信息。但是,当你在一个金融或保险的客户,甚至药前获得,需要特定领域的数据。域名定制是所有关于域的具体数据。这也是我们在这里做。

其他客户带来的另一个问题是,“我的模型在识别实体方面工作得很好。例如,在文本中,我使用了StanfordNLP(自然语言处理)实体识别的模型,我们的一个客户有,但是他们不能很好地与我的金融实体合作。它们在日语中不太好用,因为斯坦福NLP不支持日语。我怎么得到它?”

你需要收集数据,你需要注释数据。实体标记涉及很多内容。特别是在某些领域,这是最困难的任务之一。有时需要领域专门人员来注释这些实体。有一个完整的方法来衡量人的质量,因为我们把人与机器结合起来,使我们的数据处理更有效和准确。

(08:15)说到在保险或银行等领域找到众包专家,这是怎么做到的呢?

DB:我们与大学有合作关系。正在学习某一学科领域的应届毕业生或大学生。有时我们也会把客户的内部人群和我们的混合在一起,这是非常有趣的。让机器变得更好的关键是带来内部和外部的专业知识。

我们刚刚与葡萄牙的一家大型医院集团合作,建立了ICD 10的预测模型。ICD 10是一种医学报告的标签,只有专业医师才会在需要报告的情况下使用。客户需要更多的自动化。所以它们进入了条件的目录。它的NLP活性,所以他们将临床报告的笔记染色,系统将推荐一个ICD代码。

这个ICD代码现在是自动化的,但是为了达到这个目的,我们有内部的医生和外部的医生来帮助训练这个模型来分类完全开放的文本笔记,这些笔记来自医生的缩写。

(12:10)当谈到帮助管理人员想通过他们的应用程序,你怎么帮助[人热衷于AI的AI的缘故]的哪些是需要得到从机器学习系统“X”的结果更好的感觉?

DB:人们认为他们有数据,可以利用这些数据做些事情,这很正常。事实上,这是一个简单的规则。不需要机器学习,他们失望了。很多时候,他们有很大的预算,却不知道该怎么处理。

在我们的领域,我们都是关于人机交互的这就是你处理多个变量的地方。我们其实是在用多个变量来模拟人类的大脑。不仅仅是两个或三个变量,我们把它们放在一起,几乎可以成为一个规则。我们通常有语境信息,他们把语言信息分成多个区域从声学的声音到创伤性侧面,以句法、语用、语义为主。

我们引导客户,让他们知道这是否是一个人工智能问题。

大多数情况下,当最好的客户解决了多语言或多市场的问题时,这对我们来说是一件大事,因为我们支持46种语言。另一件重要的事情是让人们与已经在学习的机器进行循环,并确保你在模型训练中没有错过假阳性和假阴性,这会使模型变得盲目和有偏见。正确分配数据是非常重要的。所有这一切都是我们的囊中之物。我们不收那种咨询费。我们经常这样做。

(15:47)有一件事是你希望管理人员知道的,这样如果他们考虑到数据收集的需要,他们就能更好地理解什么是合理的,什么是可能的,什么是必需的。

DB:我认为让更多的人理解什么是高质量的数据是很重要的。每个人都在谈论质量,但大多数人并不真正关心。很多产品并不能衡量质量。他们必须明白,我们对生产或处理的每个数据单元都有认证。很多公司不这么做,很多高管只看价格,而不看质量……这可能会损害组织的项目生命周期。我去过那里。它只是推迟了所有的事情,最终会变得更加昂贵。对我来说,这是最大的痛苦……要注意,不要被那些言辞和喧嚣所愚弄,不要只看证书。

(18:40)你认为在未来五年内,哪些行业、行业或行业最需要收集和丰富资料?有可能成为这种服务的客户的公司有什么共同点吗?

DB:我们认为这种认知世界和人类的互动为完全水平,行业无关。唯一的区别是域专业化和语言的范围。很多行业都收集很多是敏感,所以你不能离开客户端的场所,使大规模的处理非常困难,如果你需要在循环的人的数据。但是,这就是为什么有部署在哪里,我们正在与我们的路线图去和房地且在处理和连续模式的培训和提高客户自己的人帮助的技术。

最大的挑战在于,我们只是在处理——我们和我们的竞争对手——可以触及的数据的冰山一角。现在所有的数据,GDPR(一般数据保护规定),所有的泄漏和扫描仪,甚至不能触摸。有些海洋是公司无法大规模处理的。最大的转变是,我们可以在内部、在办公场所、使用大量技术处理大数据。

订阅我们的人工智能产业播客你最喜欢的播客服务:

itunes-podcast
soundloud-podcast
google-podcast
stitcher-podcast

标题图片来源:feadas.lu

保持在AI曲线的前面

发现关键的人工智能趋势和应用程序,在未来的业务中区分赢家和输家。

报名参加“人工智能优势”通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - Check your email and open our welcome email to confirm your email address with Emerj">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
订阅图像
保持在机器学习曲线的前面

在Emerj,我们拥有最大的关注人工智能的在线商务读者群体——加入其他行业领袖的行列,每周收到我们发送到您收件箱的最新人工智能研究、趋势分析和访谈。

感谢您订阅了Emerj“AI Advantage”时事通讯,请检查您的电子邮件收件箱以进行确认。