语音识别AI–当前公司、技术和趋势

安德耶酥酒店
阿凡达

Ayn在Emerj担任人工智能分析师,涵盖各行业的人工智能用例和趋势。她曾在埃森哲担任多个职位。

用于语音识别的人工智能——当前的公司、技术及其发展方向

语音识别是一种可以识别语音,然后将其转换为文本的技术。语音识别的一个子集是语音识别,这是一种根据声音识别一个人的技术。

Facebook,亚马逊微软,谷歌和苹果-这五家公司世界顶级科技公司-已经通过谷歌Home、Amazon Echo和Siri等服务在各种设备上提供了这一功能。

随着大量的语音识别产品上市,我们决定研究语音识别的业务含义。通过研究这些公司的语音识别技术,我们试图为读者解答以下问题:

  • 语音识别如何推动这些公司的业务价值?
  • 他们为什么要投资语音识别?
  • 几年之后,这项技术会变成什么样子?

我们从科技巨头开发语音识别技术的背景入手。接下来是脸书、亚马逊、微软、谷歌和苹果的语音识别技术。

发展语音识别技术的潜在原因

科技公司正在识别语音识别技术的兴趣,并正在努力制作语音识别标准对于大多数产品。这些公司的一个目标可能是让语音助手围绕上下文和内容更准确地说话和回答。

研究显示,具有语音识别能力的虚拟助理的使用预计将在明年继续增加,从2017年的6050万美国人增至2018年的6240万。到2019年,预计将有6660万美国人使用语音或语音识别技术。

为了建立强大的语音识别体验,它背后的人工智能必须更好地处理挑战如口音和背景噪音。今天,发展自然语言处理神经网络技术已经改进了语音和语音技术,以至于今天据说与人类相提并论.在2017年。例如,微软语音技术的单词错误率被记录为5.1%谷歌报道称,该公司已将其利率降至4.9%。

研究公司的研究和市场报告说语音识别市场将于2023年的价值180亿美元。随着语音识别技术变得更大,更好,研究估计它可以纳入从手机到冰箱到汽车的一切。一瞥在年度上看到的CES 2017在拉斯维加斯的一个展览上,新的语音设备发布或宣布。

为了深入了解语音识别领域的领导者如何进行比较,我们制作了一份清单,重点列出了每一个领导者及其特点。

虽然所有的应用程序都有非常相似的功能和集成机会,但我们基于我们的研究指出的每个应用程序的主要重点领域对它们进行了聚集。在这篇文章中,我们将注意到两个重点领域:

  • 智能扬声器和智能家居:突出亚马逊、谷歌和微软
  • 移动设备应用程序:强调苹果的Siri和Facebook的语音识别集成。

智能音箱和智能家居

亚马逊回声和Alexa

直到最近,亚马逊的语音虚拟助手Alexa还只能在亚马逊的商业产品上使用。然而,亚马逊网络服务公司,已经做出了语音助手可提供给其他公司.亚马逊与英特尔合作发起一个Alexa语音服务设备软件开发工具包第三方公司可以将Alexa的功能嵌入他们的设备。这次合作是亚马逊“Alexa无处不在“ 战略该公司表示,此举旨在让Alexa背后的技术无处不在,为各种智能和可穿戴设备的制造商提供服务。

CES 2018在拉斯维加斯,索尼、TiVo和海信推出了集成Alexa的智能家居技术,使客户可以通过声音控制电视。家用电器制造商惠而浦、达美、LG和海尔等公司也增加了Alexa的语音识别技能,帮助人们控制家里的方方面面,从电视、微波炉到空调和水龙头。根据亚马逊亚历山大在该网站上,来自2500多个品牌的13000多台智能家居设备可以通过Alexa进行控制。

包括其他公司添加的功能,Alexa现在也随附进来30000技能.苹果有Siri,谷歌在智能手机和扬声器中内置了未命名的虚拟助手,而亚马逊将Alexa集成到了名为Echo的智能扬声器中。弗雷斯特预测,亚马逊不会透露最终的销售额2200万回声单元Forrester称,达到这个销售数字将使Echo成为美国销量最大的语音助手。

要为初学者启用Alexa技能,用户可以导航到Alexa应用程序的技能部分,以查看可用功能的目录。一旦用户选择了技能,点击“启用技能”。用户还可以通过语音启用技能。

作为一名虚拟助手,亚马逊声称亚马逊提供Alexa的业务可以帮助专业人士管理他们的时间表,跟踪任务,并设置提醒。当集成到会议控制台等设备时,该应用程序能够通过发言者的声音控制会议室设置。支持alexa的设备也可以作为音频会议设备在较小的会议室,或控制设备在较大的房间。

罗技建造Alexa进入其和谐远程单元,以控制家庭娱乐系统和智能家居设备。这远程设备被激活当客户说“Alexa,打开电视”或“Alexa,播放DVD”等简单命令时,Alexa会将请求发送给Harmony,Harmony会通过红外、蓝牙或IP将请求转发给家用设备。

据亚马逊称,原型团队由罗技(Logitech)的一位高级软件架构师组成,他花了两个小时将Alexa集成到Harmony中。一旦原型准备好了,罗技的各个团队就开始准备启动技术。据罗技公司称,亚马逊报告称,从原型机到生产级技能的构建只花了不到两周的时间。在本案例研究中没有提供其他细节或数字。

其他集成Alexa的产品包括Alarm.com、Ecobee和Haiku Home。

在更基本的层面上,亚马逊也提供录制,一种自动语音识别(ASR)服务,使开发人员能够在他们的应用程序中添加语音到文本的功能。一旦语音功能集成到应用程序中,最终用户就可以分析音频文件,并收到转录的语音的文本文件。

Hassan Sawaf是亚马逊网络服务人工智能总监,他领导了与人类语言技术相关的服务和技术计划的建设机器学习.他在德国亚琛工业大学(RWTH Aachen University)获得计算机科学博士学位,专攻语音和语言处理。

谷歌主页和助理

Google Assistant是Google的语音激活的虚拟助手,其技能包括通过Google Pay发送和请求付款,或者对其像素2 XL电话进行故障排除的任务。

助手可在Android或iOS手机,智能手表,Pixelbook笔记本电脑,Android智能电视/显示器和Android自动启用汽车等设备上提供助理。用户还可以在图书馆等地方时键入助手的命令。

对于儿童和家庭,谷歌助理提供50 voice-related游戏.例如,孩子可以命令助手和他们一起玩空间琐事。

谷歌和目标也有合作,让购物者可以通过Assistant购买产品。

携带Assistant的谷歌智能音箱的频谱包括首页.谷歌声称,这款音箱可以与索尼、飞利浦、LG和东芝等150多个品牌的5000多款智能家居设备兼容,包括咖啡机、灯和恒温器等。

在里面2018年第一季度据报道,谷歌的家庭和家庭迷你设备销量为320万台,超过了由alexa驱动的Echo设备的250万台。两家公司都没有发布官方数据。

为了使助手更泛滥,谷歌开通了软件开发套件行动,它允许开发者将语音构建到自己的支持人工智能的产品中。

下面的3分钟视频显示开发人员如何使用Google助手界面创建自定义设备操作,并允许用户使用其语音与设备进行交互。

谷歌最近还推出了投资项目助理该公司投资于致力于推进语音和辅助技术(无论是硬件还是软件)的初创公司,并专注于旅游、游戏或酒店业。

根据该计划,谷歌将在技术、业务发展和产品领先方面提供支持。初创公司还将首次接触Assistant的新功能和程序;包括谷歌云在内的谷歌产品的信用;据谷歌称,还有潜在的联合营销机会。

参加该计划的一家公司是Botsociety该公司使用谷歌Assistant、Facebook Messenger和Slack设计聊天应用。

Botsociety在其网站上没有提供案例研究,而是发布了来自微软、Hubspot和Finn的推荐信。ai、Convrg和Black Ops,这些公司自称是自己的客户。

蛇嘴梗也声称为AXA,埃森哲和普氏透视。

除了Botsociety之外,其他创业公司在这个项目中有加油时刻埃德温还有脉冲实验室

另一个谷歌演讲产品是AI驱动的云的语音工具使开发人员能够将音频转换为文本深度学习神经网络算法。该工具支持120种语言,支持语音命令和控制、从呼叫中心转录音频、处理实时流媒体或预先录制的音频。

下面的3分钟视频显示开发人员如何创建语音命令。第一步是在JavaScript对象表示法中记录音频并在语音中创建文本应用程序编程接口(API)的请求(JSON)的格式。然后开发人员将JSON请求发送到语音API并等待响应。

Ashwin Ram是谷歌AI的技术总监。在谷歌之前,他曾在佐治亚理工学院举行的计算机学院曾担任辅助教授六年。他还担任Amazon的Alexa Ai高级经理两年。阿什温举行了耶鲁大学计算机科学博士学位。

Cortana微软

微软还首次发布了自己的声控虚拟助手命名科尔塔纳2017年10月。

Cortana家用扬声器和移动设备应用程序提供用户提醒;保持笔记和列表;据Microsoft称,可以帮助管理日历。它可从Apple Store和Google Play下载,可以在个人电脑,智能扬声器和手机上运行。

在一个叫做调用Cortana的程序可以帮助用户语音控制音乐、排列播放列表、调高或调低音量;以及停止或启动轨道。然而,它不支持Spotify之外的主流音乐流媒体服务。微软表示,这款智能音箱还能回答各种问题;拨打和接收Skype电话;并查看最新的新闻和天气。

在个人电脑上,微软声称Cortana可以通过Office 365、Outlook.com和Gmail账户管理用户的电子邮件。微软称,Cortana的客户或技术合作伙伴包括达美乐(Domino’s)、Spotify、Capital One、飞利浦(Philips)和FitBit。

作为一个技能示例,用户可以使用Cortana连接Domino 's Pizza来下订单,重新订购他们最近的Domino订单,并使用Domino 's Tracker跟踪他们的订单。用户可以通过登录Domino的配置文件或注册Domino的配置文件来授权该技能。

Capital One表示,用户还可以通过Cortana扬声器管理自己的账户。要使用该功能,第一资本的客户必须通过点击“连接”连接他们的账户第一资本app界面在Cortana web或移动平台内。一旦他们接受条款和条件,系统将提示他们输入您的大写字母One用户名和密码。

正如下面55分钟的视频中所解释的,开发者希望创造新的Cortana技能对于企业来说,必须首先设置开发环境,如云资源、计算机上的开发工具、Android或iOS移动设备或Harman Kardon Invoke speaker,以及Cortana应用程序本身。

一个伙伴关系Cortana和Alexa在Cortana的帮助下,亚马逊的智能音箱可以访问微软的Office套件。相反,微软表示,用户将可以使用Alexa的强大技能和智能,并可以在亚马逊上购物。项目启动日期尚未公布。

下面的4分钟视频演示了Cortana和Alexa在一个设备中的集成。要在两种技术之间导航,扬声器必须讲述虚拟助手的名称并发出技能。可以要求Alexa激活Cortana,反之亦然。

微软语音识别技术的核心是从语音到文本接口,它将音频流转录为文本。这是创造Cortana、Office和其他微软产品的相同技术。微软表示,该服务可以识别语音结束,并提供格式选项,包括大写和标点符号,以及语言翻译。

微软人工智能与研究执行副总裁Harry Shum负责Cortana和Bing的整体人工智能战略和计划。他在卡内基梅隆大学计算机科学学院获得机器人博士学位。

移动设备应用程序

Siri由Apple.

当苹果公司第一次把Siri集成到2011年的iPhone 4这个虚拟助手连接了一系列网络服务,并提供语音功能,比如通过TaxiMagic订出租车、从StubHub调出音乐会细节、从烂番茄(Rotten Tomatoes)搜索电影评论,或者从Yelp筛选餐厅数据。

今天,Siri的能力包括翻译、播放歌曲、预订车辆和在银行账户间转账。苹果公司表示,由于其机器学习能力,它可以用新的命令编程。

虽然Siri是在谷歌Assistant和亚马逊Alexa之前发布的,但仍然存在对其准确性的担忧在回答命令或问题时,与市场上的其他技术相比。

在一段2分钟的视频中,Cnet.com对Siri、谷歌助手和亚马逊的Alexa进行了测试。在某一时刻,Alexa对命令的反应更准确、更具体。在我们的研究中,我们还发现了长得多的视频评论,显示Siri在回答三种语音技术的问题时都没有做出准确的回答。

2018年6月,苹果发布了Siri的变化,推出了新的专用快捷键用户可以下载的应用程序。通过这些改变,苹果声称用户可以通过语音指令、文本或点击命令Siri执行更多操作。目前iPhone、iPad、Apple Watch和HomePod上都可以使用。这些操作包括连接和激活第三方应用程序的功能,比如查找键的Tile应用程序,或者从Kayak应用程序获取旅行信息。

苹果表示,用户还可以使用快捷键远程激活或控制恒温器和风扇等智能家居设备,或者保存播客或广播电台。据苹果公司称,用户还可以让Siri通知家人何时出行以及出行时间。

下面的2分钟视频演示了用户如何使用Siri创建播放列表快捷方式。

视频显示,Siri会要求用户设置播放列表快捷键的参数。这可能需要让Siri把最近播放的音乐或一种音乐类型结合起来。该应用程序还要求用户进一步定制其他设置,比如将出现在主屏幕上的图标。用户通过给Siri一个口头命令来创建这个快捷方式,比如“给我制作一个播放列表”。

据说Siri快捷方式能够读取用户的上下文数据,如日历事件和GPS位置,以便提供新的快捷方式。例如,使用一个快捷方式。如果用户在某个日期安排观看电影的时间,可以要求Siri进入请勿打扰模式。用户的时间和定位器数据确定用户确实在剧院内。另一个例子是一个报告的快捷方式,它可以根据日历事件和设备位置通知另一个联系人用户正在运行延迟。

第三方开发人员可以创建快捷方式并将其集成到自己的应用程序中诗丽吉王后.有些人已经创建了一个网站,他们创建的捷径可以是共享与其他用户。

其他一些公司使用了Siri为了他们自己的事业。其中之一是ClaraLabsClara是Siri虚拟助理技术的改版。

ClaraLabs管理层意识到,他们花了9个多小时,平均发了135封电子邮件来安排和重新安排他们和招聘人员之间的27次会议,总共18次员工日程安排。据苹果公司称,他们曾向苹果公司寻求帮助,打造其虚拟助手,该助手可以通过简单的语音命令安排招聘人员的面试,以及与公司利益相关者的会议。

在一个ClaraLabs博客ClaraLabs Briana Burgess的收入主管表示,Clara帮助她的公司与14家公司安排了27次会议,几乎省去了9个小时的写作和发送电子邮件的时间。

其他使用Siri的企业包括Kasisto和DigitalGenius。

John Giannandrea是苹果公司的机器学习和人工智能策略主管,他领导了Core ML和Siri技术的进步。在此之前,他曾担任谷歌的高级副总裁8年,领导机器智能、研究和搜索团队。他在苏格兰斯特拉斯克莱德大学(University of Strathclyde)获得计算机科学荣誉学士学位,并获得荣誉博士学位。

Facebook语音识别项目

虽然Facebook扩大并完善了面部识别功能,但它也进行了收购wit.ai.这是一家提供自然语言开发工具的公司。

收购时,Wit.ai是一家成立16个月的初创公司。自收购以来,Wit.ai声称其语音识别技术已被16万开发商并集成到移动应用、机器人、可穿戴设备和智能家电,如恒温器、冰箱和照明。

下面的视频展示了Wit。人工智能语音识别集成到Nao机器人中,协同使用Choregraphe允许开发人员创建动画、行为和对话框的程序。根据视频,Wit。人工智能使Nao机器人能够通过语音指令执行诸如行走、握手和安排日程等任务。

该公司提出索赔博客该平台将继续开放,这可能表明Facebook热衷于广泛采用。

如今,Facebook有能力自动字幕视频广告通过语音识别。下面的视频解释说,在视频广告中添加字幕可以让Facebook用户在向下滚动新闻feed时看到广告的主题。Facebook的广告商可以通过进入Power Editor,并根据指示选择“自动生成”来添加字幕。

Facebook也获得眼睛2014年,该公司以20亿美元的价格收购了这家虚拟现实头盔制造商。2017年3月,Oculus宣布成功集成语音和语音识别使用户能够轻松地在虚拟现实中导航。该应用在Rift和Gear VR头盔上都有英文版本,可以让佩戴者在Oculus Home上进行语音搜索,以导航游戏、应用和体验。

下面的视频展示了Oculus头戴式设备的用户是如何发出语音指令的,以“Hey Oculus”开头,并给出“查找”、“取消”、“启动”等简单指令。

2013年,Facebook聘请纽约大学的Yann LeCun领导Facebook人工智能研究小组。在纽约大学,LeCun研究并教授机器学习、人工智能、数据科学万博官方软件、计算机视觉、机器人学、计算神经科学以及从数据中提取知识15年。

结语

550亿美元的语音识别行业已预测以2016年至2024年的11%的速度增长。

这项技术以转录应用的形式,在其他一些较小和不太知名的公司中得到了很好的应用。目前在保健,医学专业人士使用语音文本转录应用程序,如多贝为患者创建电子病历。

在里面执法法律行业、公司等细微差别提供准确和快速的文件记录的转录应用程序是一个关键的需求,转录也用于记录事件报告。在媒体中,记者使用转录应用程序,例如记录作为一种记录和转录信息的工具,以帮助更准确的新闻报道。在教育方面,Sonix帮助研究人员转录定性访谈。

在谷歌、亚马逊、微软、苹果和Facebook这五家提供语音和语音识别功能的领先科技公司中,类似的功能围绕着日程安排、提醒、管理播放列表、与零售商联系、管理电子邮件、制作食品订单和在线搜索。

这些都是在移动,个人电脑上提供的,并且在他们自己的品牌家用扬声器中提供。亚马逊的Alexa正在Echo上,Apple的Siri在HomePod上,Google Assistant在Google Home上,微软的Cortana正在调用。只有通过Oculus虚拟现实耳机和视频广告上的字幕提供语音识别能力,才能从此趋势分歧。

尽管苹果是这一领域的先驱,但事实证明Siri不如亚马逊的Alexa和谷歌Assistant聪明,与其他产品相比功能有限。就常识而言,a学习由近5000个问题组成的谷歌Assistant是四个应用程序中最聪明的。

但是在技能方面,一个单独的报告显示Alexa的技能数量最多,为25785种,谷歌Assistant为1719种,Cortana为235种。Siri不包括在这份报告中。越来越多的技能可以归因于提供这些应用程序业务版本的公司。软件开发工具包(SDK)已经提供给开发人员,使初创企业和小企业能够为他们的客户建立定制的技能。

根据我们的研究,以下是我们对这些公司在业内竞争情况的看法:

  • 谷歌成立了助理投资计划来资助创业公司,目的是推进语音和语音识别技术。
  • Facebook聘请了一位人工智能行业专家,并收购了几家语音识别初创公司。
  • 微软与亚马逊合作,可能会增加Cortana的生存机会。

标题图片来源:Szifon

保持在AI曲线的前面

发现在业务未来将赢家分开获奖者的关键AI趋势和应用程序。

注册“AI Advantage”时事通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - check your inbox for a confirmation email">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
subscribe-image
零售中的人工智能小抄

在我们长达8页的备忘单中,了解零售和电子商务行业的关键AI应用程序和相关数据科学术语。

谢谢你!你的AI在零售小抄被发送到你的收件箱。