信息提取的银行 - 合规，合同和更多|Emerj - 万博x官网,msports万博体育官网,万博官方软件

大银行每天处理数以百万计的文件在其公司办公室和许多分支机构。Although one might assume that these documents are digital, in many cases, even the largest banks store old physical documents in file cabinets and boxes off the bank’s premises, and even those that are kept on-site might be relegated to storage units amongst hundreds of thousands of other documents.

在数字空间组织的状态也好不到哪里去。一家银行的多个部门可能都存储他们的数字文件不同。他们每个人使用相同的系统不同的系统或保存文件，在一个完全不同的方式。此外，文档的布局往往随着时间而改变。银行的雇佣合同可能看上去与它有员工签署二十年前，例如完全不同的;而这些合同可能会在这两个格式和内容是不同的。

银行员工加薪，并保留法律团队花费了大部分的时间发现和阅读的通过这些文件，发现在那一刻与他们相关的信息。根据存储的文件在哪里，这可能需要数周或数月，而他们可能需要做同样的过程再次找到在稍后的日期不同的信息。

因此，如果客户要求银行清除关于该客户的所有信息，银行将很难满足这一要求。这让他们面临着不遵守GDPR和《加州消费者隐私法》(California Consumer Privacy Act)等法规的风险。在前一种情况下，不遵守规定可能会导致1000万欧元(1120万美元)的罚款，或公司年收入的2%，以更高的金额为准。

此外，银行花在搜索和发现：不是分析。他们显然宁愿他们的雇员和律师花尽可能多的时间作出基于他们在他们的搜索尽可能地找到所需的信息的决策。

人工智能，即自然语言处理(NLP)和机器视觉，可能是一个办法来补救这种情况。

我们采访了Anke Conzelmann他说，人工智能可以用于银行的文件搜索和信息提取。在本文中，我们将讨论以下几个用例基于AI-文件数字化银行业的信息提取，包括合同和合规，夹杂着来自Conzelmann的报价。

如需更多关于银行的信息提取和数据搜索，我们建议Iron Mountain的白皮书在这个话题。

我们首先什么是许多银行在他们的公司中最具挑战性的问题之一：如何处理他们的纸质文件的积压做。

数字化纸质文件和缩微胶片

常见于金融领域，包括投资银行，是缩微胶片文件存储。缩微胶片是包含的文件显微图像小索引卡片尺寸的薄膜。缩微阅读器放大了这些画面，让银行员工阅读文件。

缩微胶片通常包含过去的会计报表和客户信息。员工认为有必要收集这些信息需要幻灯片微缩胶片阅读器下找出的缩微胶片每个文档都包含。他们可能会经历几个缩微找到正确的信息，或获得所有必要的，以响应请求的信息。这些数字化的缩微胶片可以节省员工时间，让他们能够专注于更高价值的活动，提升客户体验。

机器视觉软件，尤其是光学字符识别（OCR），能够帮助数字化缩微胶片中找到的文件。OCR是一种人工智能的是工程，专门录制打印和手写的文字转换成数字文本。文件数字化可以在这是一个有用的AI用例银行现在所述AI时代精神的电流相位(我们称之为“涌现”)，主要是由于本文开头所述的原因。

缩微胶片包含了在数码成为银行主要存储手段之前的文件，但这些文件通常仍然与经营了几十年的老牌银行有关。

Conzelmann举例说明了它们与一位房地产所有者的关系，后者声称银行持有某一特定房地产的数百万美元。银行的员工可能需要在微缩胶片上出示几个月甚至几年的报表来证实或反驳这一点。Conzelmann详细描述了在缩微胶片上找到这些陈述的艰难过程:

(员工需要)在正确的盒子里找到正确的缩微胶片，把它放在(他们的)缩微胶片阅读器上，在(缩微胶片上)找到正确的方块，把它数字化，这就是第一个月。希望[帐户]只有一页报表，因为，如果它有两页，[他们]做两次为特定的一个月。24个月的时间真的很长。(该员工)没有通过这种方式增加任何价值;他们所做的就是响应客户的请求。

该银行想要做的是能够搜索一个日期范围内的账号，并找到所有与特定地产相关的报表，但这对那些将文件存储在不同来源(包括微缩胶片)的大型银行来说是一个挑战。

OCR软件理论上可以转录从缩微胶片上数字化的文件中的文本，这样员工就可以更快地搜索这些文件并在其中找到相关信息，而且另一名员工将来也不必在缩微胶片上搜索同样的文件。

话虽如此，与另一种机器视觉功能(面部识别和图像识别)相比，OCR作为文件数字化的一部分，似乎是人工智能在银行业的一个相对新生的用例。在我们自己的研究过程中，我们发现与我们在本文中讨论的下一种人工智能方法(自然语言处理)相比，总共只有5家人工智能供应商提供机器视觉软件。

信息提取抵押和合同

在银行业中有许多自然语言处理的用例，文档搜索和相关功能的用例是最常见的。事实上，根据我们的研究，大约23%的向银行销售的人工智能供应商提供用于信息检索的NLP软件，换句话说，就是搜索。七家排名前100的银行也声称他们也在使用NLP进行信息检索，包括摩根大通。

银行可以数字化所有的纸质文件，但仍然很难在其中搜索相关信息。就标准搜索功能而言，数字文档当然比物理文档更好，但人工智能搜索承诺，当存在的每个文档中的信息不完全相同时，将从数千个文档中提取信息。现在只有人工智能才能实现这种功能。

假设银行将纸上的抵押贷款协议数字化。这可能会让员工更快地通读合同，但他们可能仍然需要阅读合同的大部分内容，以找到与他们相关的信息。一个基于人工智能的文档搜索或信息提取应用程序，也就是Iron Mountain所称的“文档理解”，可以让员工找到以下信息:

在一定的日期范围内发放一定数额的抵押贷款
在一定的日期范围内以一定的地理位置发行的抵押贷款
含有这些条款的具体条款或重复抵押协议

文档搜索和信息提取应用可以提出这些抵押贷款的银行职员即使在其中的信息是不相同的格式或以同样的方式也不说。

这适用于按揭QA流程，以及：银行必须保证客户的贷款文件中的信息是完整的（所有形式都存在），而他们所有的形式填写完整。An information extraction software may be able to pull out the customer’s name, social security number, the APR, and other pertinent information as it appears in various places across all of the customer’s documents, even if that information is written differently in different places of the documents for different loans.

名叫罗伯特的客户可能签上自己的名字“鲍勃”，例如，或者他们可能会错过在他们的社会安全号码数字。从理论上讲，NLP软件仍然会提取该信息作为客户的姓名和社会安全号码，但会标志不一致的异常。这将允许银行职员核实和更正信息，或要求客户更新信息需要。

用于人力资源和法规遵循的信息提取

地区数据隐私法如GDPR实际上或将很快,银行可能需要找出如何找到他们的所有信息在客户或员工,能够产生这些信息如果请求,并能够证明他们已经清除它如果客户或雇员要求他们这样做。这本身就是一个挑战，但是对于那些信息部分存储在物理文档中的客户和员工来说就更加困难了。Conzelmann用一个个人轶事来解释:

我一直在Iron Mountain的很长一段时间。我刚来的时候，有纸物理块是分别填写为我的员工档案的一部分。那些仍然坐在某处。但是，也有当我上个月有我的审查，收集的数字信息。那么，如何[银行]跨越的那些信息不同的存储库去... ...并能够回答的问题一样......”给我你所有的所有这些渠道的该员工的个人信息。”

发现其中的信息所在是极为重要的是要保持符合规定的银行，虽然积分时间将取决于银行已经组织他们的数字文件的方式不同，银行可能会从实现基于AI-文件搜索系统中受益合规的目的。

根据这些数据隐私法，银行需要能够在客户或员工要求时向他们提供个人信息。随着数据隐私法在世界许多地方变得越来越普遍，允许银行人力资源或客户服务部门快速查找员工或客户所有信息的搜索应用程序在未来可能是必要的。

我们的研究证实，需要基于ai的解决方案来实现遵从性。我们发现有12家人工智能供应商为银行提供合规解决方案，约占向银行销售的人工智能供应商数量的15%。我们还发现，平均而言，提供遵从性解决方案的AI供应商是相对可信的，在我们的专业知识和资金得分上，它们的得分为3.1分(满分4.0分)，而资金得分是3.1分(满分4.0分)。

这表明，银行希望采用AI是否符合他们的公司有可能与工作有技术人员来备份他们做出自己的软件要求的AI供应商。

换句话说，当涉及到人工智能和机器学习时，法规遵循供应商可能知道他们在谈论什么。正如我们在一份最受欢迎的执行指南中所概述的那样，许多AI供应商实际上并没有这样做:7种方法告诉如果AI公司说谎关于使用AI。

底线 - 哪些银行需要知道

当涉及到从数字文档中提取信息的自然语言处理解决方案时，银行有多种选择。他们将纸质文档数字化的选择要少得多，尽管我们怀疑这个用例的解决方案会随着时间的推移而增加。

底线是，银行也许比任何其他金融机构正在处理的文件在各种格式的物理和数字了大量资金，而且通过这些文件搜索生成客户分析，解决客户支持问题斗争，也许最重要的是，保持符合当地和地区的法律。

这将有可能成为与不断的引进数据隐私法更加困难，银行可能损失数亿美元的罚款，如果他们没有有效的和有组织的，足以为客户提供他们的个人信息，并清除它的请求。

那些有资源致力于在内部开发基于人工智能的信息提取产品，或与可信的人工智能供应商合作的银行，可能会先于那些难以将数百万份遗留文件数字化的大型银行，更不用说为它们实现人工智能搜索功能了。

Conzelmann简洁地阐述了基于ai的搜索应用的潜在价值:

机器学习和人工智能的强大之处在于，你可以大规模地跨越数百万个文档，即使你处理的是不同的、外观不同的内容。

银行可以在耗时的过程，它会涉及多种文件类型，通过纸质文件，microfishes，PDF扫描和数字形式的手动搜索节省数百万。虽然绝对没有银行应实行无AI数据，人才，时间和资源，它需要的透彻理解，在美国，真正为人工智能做好准备的银行可能会考虑文档数字化或搜索应用。我们怀疑，在未来十年，类似的申请可能会变得普遍，尤其是针对GDPR和类似的法规。

这篇文章是由Iron Mountain的赞助，写，编辑出版对准我们的透明Emerj赞助的内容指南。了解更多关于实现我们的AI-专注于执行我们的观众Emerj广告页面。

标题图片来源：阿斯巴甜