事件总结:人工智能,特别是自然语言处理,使文本作为一种媒介更容易理解,以更深层次、更有效的方式和规模。对于视频,情况就大不相同了。人工智能已经被用于帮助在视频媒体工作的行业.然而,在视频中搜索内容更具挑战性,因为视频不仅仅是声音和声音,它还是屏幕上移动和静止图像的集合。人工智能如何克服这一挑战?
在本集人工智能在工业在播客中,我们采访了Manish Gupta博士,他是VideoKen的首席执行官和联合创始人,同时也是班加罗尔国际信息技术研究所Infosys的首席教授,关于机器学习日益融入视频搜索过程的未来。古普塔博士谈到了视频如何变得更易于搜索,并讨论了他自己对未来的预测。他还预测,随着人们继续搜索更具体的视频内容,机器学习将让Youtube做些什么。
我们的内容主管,Raghav巴拉欢迎加入我们的访谈。
订阅我们的人工智能产业播客您最喜欢的播客服务:
客人:Manish Gupta博士,联合创始人兼首席执行官,VideoKen
专业知识:高性能计算,编译器,分布式系统,虚拟机优化
短暂的认可当前位置古普塔博士还是班加罗尔国际信息技术研究所Infosys基金会的客座教授。此前,他曾担任施乐印度研究中心的副总裁和董事。他在IBM担任领导职务,包括IBM印度研究总监和IBM印度/南亚首席技术专家。作为IBM T.J.沃森研究中心的高级经理,古普塔博士领导团队为Blue Gene/L超级计算机开发软件。
他在伊利诺伊大学香槟分校获得计算机科学博士学位。他与人合作撰写了75篇论文,在谷歌Scholar中被引用超过6000次,涉及高性能计算、编译器和虚拟机优化。古普塔博士还获得了19项美国专利。
采访中强调了
(3:13)在商业环境中,人工智能在视频数据中扮演着怎样的角色?
古普塔:资源视频功能强大,但往往不透明,不像文本,你可以快速可视化。你通常得从头到尾看一遍才能明白内容。但是人们没有耐心看一段30分钟的信息视频。
VideoKen是查看一类视频,如讲座、信息视频、演示和培训。我们的出发点是将诸如目录表和术语表等特性自动构建成视频。我们利用人工智能技术分析视频内容。在视频中成千上万的单词中,哪一个是最重要的?
(6点半)有没有图像分析?
MG:是的。特别是对于目录,我们觉得信息视频中的可视数据,尤其是讲座中的可视数据非常丰富,比我们从音频中得到的数据要丰富得多。我们的应用程序识别视频的哪些特征包含视觉上丰富的文本。这在人工智能中是可能的,这是一个分类问题,技术试图识别产品特征。它是否以文本的形式提供丰富的信息?一旦确定了这一点,你就必须识别突出的文本。
以幻灯片形式的讲座为例。主题的改变通常发生在幻灯片的边界处。那部分信息非常丰富。应用程序从这部分中提取重要的单词。更丰富的内容也来自这些游戏。
(9:00)专注于为视频开发AI,需要找到信息视频的共性,比如讲座和幻灯片。你如何训练这种视频的算法?
MG:我们在起点,就像一本教科书。但你可以对演讲的不同部分进行分析,发现其中涉及的概念。我们可以从音频中得到一些观点。不同的老师有不同的转换话题的方法。
(09:55)你必须找到一套新的模式来训练新的教学模式的算法。
MG:(在主题或幻灯片之间)通常会有更大的间隙或沉默。但你无法预先对所有这些细微差别或变化进行编程。他们必须从数据中学习。
(10:28)在创建目录或词汇表时,是否有一个检查算法提取信息的能力的过程,或者如何训练算法使其做得更好的过程?
MG:我们创建了一个编辑工具,以便最终用户能够进行修改。制作视频是劳动密集型的工作。但是,编辑应用程序创建的目录所花费的工作量通过能够编辑或更改一些条目而得到了简化。
(12:15)当企业用户编辑目录或术语表时,这将作为系统的反馈。它的目标似乎是从用户的角度来推动机器学习,而不是从自然语言处理专家团队的角度。
例如,我正在寻找2015年苔原地区油气钻探的发展情况。我只想看看有钻孔痕迹的部分。目标是找到查询这些特定部件的方法。这是目标吗?
毫克我们正在努力使搜索过程更容易。不只是在视频中搜索,还要在视频中搜索。你不希望一个人看一整个小时的视频。
(15:00) Youtube的平台是音乐、娱乐和教育的混合体。寻找商业话题不是他们的利基。你的利基是那些需要以一种有效的方式教育员工的组织。
MG:这是起点。我们认识到,没有一家公司正式利用这一资源。大多数公司都有课堂教学或购买内容用于员工培训。VideoKen实现的一件事是利用Youtube上免费视频中已经包含的丰富信息。仅Youtube上就有300万个教育视频。但公司无法找到高质量的视频,因为这是一种痛苦。公司如何区分高质量视频和低质量视频?在那里,他们可以根据上下文选择适当的内容。
大多数公司都有客户活动,内容发布在Youtube上。人们可能只会看视频的开头部分。我们的应用程序让用户处理这些视频,让它们更容易使用,更有影响力。
这些视频的应用远远超出了学习的范围。我们可以拍摄客户的视频,并将其与我们的应用程序进行索引。
在未来的两三年内,视频分析可能成为可能。你怎么看?
毫克下一步是加深对视频的理解。其中一个挑战是识别名词和动词。所以作品是名词(名字,物体,人,地点)识别和动词(活动)识别。这适用于创建标题。
订阅我们的人工智能产业播客您最喜欢的播客服务:
标题图片来源:验光CEO