AI用于语音识别和法律和法律的转录|emerj. - 万博x官网,msports万博体育官网,万博官方软件

你是否曾经因为Alexa或Siri不总是理解你的口头要求而感到沮丧？如果是这样，那么您已经了解我们的客人所面临的问题。他是Tom Livne，Verbit.ai的联合创始人兼首席执行官。

验证是一家专注于AI转录的公司，专门针对AI法律和法律空间。他们结合使用机器学习和人类专家在不同的噪音环境中转录音频，在不同的噪音环境中，用不同的解释，给予人们更准确的结果，并希望有助于处理规模。

在本期节目中，Livine解释了五种不同的因素，这些因素有助于正确转录，并使人工智能能够在这一过程中提供帮助。此外，Tom还谈到了转录在为业务带来价值方面发挥作用的一些关键因素。

订阅我们的工业播客中的人工智能您最喜欢的播客服务:

客人：汤姆Livne，联合创始人和首席执行官Verbit.ai

专业知识：企业家精神/技术启动生命周期

短暂的识别:Livne在耶鲁的工商管理中持有MBA

采访亮点

(03:00)让我们了解一下今天转录的可能性?

TL:想想这个播客。我们正在录制这一集，让我们假设我们想要获得专业成绩单。当我参考专业成绩单时，我的意思是100％的准确性。它今天完成的方式，它是完全手动，对吧？人们正在从头开始听，键入它，它会产生有限的规模和低毛利率。

另一方面，语音识别技术只能达到70％至80％。如果我们只参加法庭并仅提供自动成绩单，这并不够好。所以我们在Verbit解决它的方式是[用]机器 - 人类混合的方法。

所以我们拥有我们在内部开发的自己的语音识别技术。我们有模式注册我们的技术。我们有一支九部博士学队的工作。我们拥有我们的网络和自由转录器的网络和平台从全球各地的自由输送者的组合，采用机器的自动输出并纠正它，以使其达到100％。

关于什么是可能的，我提到了技术不存在。至于原因，我会解释的。很少有参数会影响语音的准确性，这就是机器的原因。和也。在我看来，即使在10年后，我们也不可能只实现100%的机器。

因此，影响语音识别准确度的参数是语言模型。所以想想看，如果你去法律抄本或医学抄本，有很多特定的行话和特定的单词与这个用例相关。对于机器来说，这真的很难做到，也很难得到人名，也很难得到具体的术语，所以这会影响准确性。

第二件事是声学模型。因此，如果你在一个开放的空间里说话，或者通过电话说话，或者如果你有一个法庭等等，那么所有这些不同的声学模型也会影响讲话的准确性。

和第三个，因为你可以听到我可怕的以色列口音，所以通常会影响语音到文本的准确性。因此，您需要调整它以培训机器以获得特定的口音。然后你有第四个：背景噪音。人们重叠，所有背景噪音，都是真正损害了机器输出的质量。

第五个是你谈话的步伐。你真的说话，真的很快或你正在慢慢地说话，那么它也会影响准确性。

最后一个将是用语。如果有人，年轻人或孩子们说话或者老人说话，这也是真正的教学，影响了演讲的准确性。所以如果你组合......所有参数在不同的用例中，它真的很难，几乎不可能正确地获得所有这些。除非您有此特定用例的特定数据，否则将所有这些参数组合在一起，为此特定客户组合在一起，这将使您能够获得90加百分比的精度。

我们在Verbit的工作不是取代人类，[但]实际上帮助人类做得更好，让他们的生活更轻松。

这些都是具有挑战性的因素。我想知道哪一个是最难克服的。

TL:我认为那些人的独特方式非常艰难，但如果你问我，我认为所有声学模型和背景噪音以及识别不同的扬声器的能力，这很难谈论和制作适应不同的声学环境和...控制音频录制的质量。

为了能够相应地调整算法，这是一件非常具有挑战性的事情，由于所有的神经网络和训练能力，但有时当你把一些录音和声音不好的东西放在机器上时，仍然很难理解……我认为这是最难理解的。

（10:30）换句话说，即使算法训练的人类直觉仍然有特殊性的人，仍然存在遗留的地方......采取差的音频并填补空白，仍然是你认为人类的东西边缘？

TL:我相信这一点，因为他们有能力一次又一次地听到它，并获得输入，以理解所说内容的背景。

所以我猜一个法庭......永远不会满意机器，因为他们是法律要求拥有100％的[准确性]，这将需要花费大量的时间和信仰的飞跃，直到他们能够相信机器能够让他们提交的完美输出......你有谷歌，你提到百度......他们正在建造一些非常通用的东西。应该适合每个人的东西......因为我们正在采取更多的垂直方法，这使我们能够为任何客户量身定制，并将为我们提供更好的结果。

因为说到底，什么是语音识别技术?语音识别试图识别人们说了什么，有非常复杂的统计模型来给出排名，向你展示机器对人们说了什么的最佳猜测的最佳概率。你有很多参数，试图以最好的方式猜测那里说了什么。这实际上是因为你把废话看作是一种语境。当你在一个通用的引擎，语音识别引擎中，你只需要输入音频，然后输出文本，这是基于每个人用于语音识别的相同算法。

如果你想说废话，你需要使用语境层，给你提供说话的人(信息)，你有口音，他说的是行话，在这个声学环境中，法律空间。所以，在进行语音到文本的转换之前，请使用所有这些参数，以提供更好的准确性。这对我们很有帮助，因为我们并不是想要通用，而是想要量身定做。

(14:30)当你想到我们在五年后能做什么，而现在的转录还不能做什么，你最希望在哪些方面取得真正的进步?

TL:所以我们思考它的方式是在措辞中远远超过转录。我们认为转录变得更聪明了，这是什么意思呢?想想……调用的用例?当你有上市公司时……在季度末与分析师讨论公司业绩。

Think about having an automated transcription for it, and then you already have the pace data and you can create actionable links and intents and you know let’s say Apple is talking about iPhone X, so you can identify in your transcription that this is what has been said and you can…click…and go directly to the website and buy the iPhone X. You can do a comparison, take all the numbers that you just automatically transcribe and create a graph and create a visualization and compare it to past results because you already have the transcription of the past results. And to get much more insights from the data.

因为我们允许人们从他们的口头资产中获得更多的价值，所以所有这些口头沟通和交换的信息我们希望让我们的客户获得更多的价值。

(17:30)你能谈谈转录的商业价值吗?

TL:想想一旦你有一个证人的检查，那么你可以看到他过去的证词是否违背自己？也许他躺在[所以我们可以尝试分析他的声音，以实现一些文本。您可以提取许多事情，因此语音和转录是第一层。你可以在很多事情上做很多东西。我们认为转录市场非常非常大。一旦我们能够提高准确性，我们就能允许更多的人在口头资产中获得更多价值。

订阅我们的工业播客中的人工智能您最喜欢的播客服务: