最大化一个小的数据科学团队AutoML

拉哈夫巴拉德瓦
头像

Raghav是Emerj的分析师,负责报道主要行业更新的人工智能趋势,并进行定性和定量研究。他曾在Frost & Sullivan和英菲尼迪研究公司(Infiniti Research)工作。

数据科学

金融服务行业是数据科学和人工智能的早期采用者之一技术。这就是说,那些从事AI项目的财务公司将已经意识到,他们需要的数据管理和熟练的数据科学专业人员的深刻理解,以解决这些复杂的问题。

此外,AI项目是高度资本密集型的​​,需要金融机构发现,租赁和留住熟练的数据科学家,谁今天仍然奇货可居。这意味着,即使是在大公司,数据科学团队通常集中所有业务单位和通常很小。从每队五到十五的数据科学家。

小数据科学团队在这些金融机构满足几个业务部门的数据需求,如销售或市场营销。什么最大化这些小团队可以实现是至关重要的,几乎必要的金融企业,由于涉及与AI的成本。这些小团队需要满足成功各业务部门的需求,同时创造新的创新性的数据项目。

自动化机器学习平台,增强数据科学团队的能力

术语自动化机器学习或AutoML是一个相对较新的一个,并与AI空间演变迅速,普遍一致同意的定义可能是很难遇到。从本质上讲,AutoML涉及一组数据科学工具和软件,可帮助机器学习的工程师和专家在创造人工智能项目的自动执行重复性任务。它这样做,总之,通过应用机器学习,以提高机器学习项目的建设和发展。

自动化机器学习平台帮助数据科学家执行AI项目更快,跟踪在一个地方项目的每一步。AutoML可以帮助减少从头开发的AI模式,本质自动化某些步骤所花费的时间。在AI项目每一步都可以从任何地方一天最后一个月与需要重复几个这些步骤可能的可能性。这可以大大减少对小数据科学团队的效率。

对于金融机构改善其数据科学团队工作效率的一种方法是通过使用自动化机器学习的平台。我们采访了安瓦尔Ghauche卡洛斯·帕索斯从SparkCognition(收听播客行业的AI采访全文)有关AutoML平台,比如自己的达尔文如何帮助最大限度地提高小数据科学团队在金融服务公司的努力。

据帕索斯,AutoML系统可以帮助金融机构创造和生成AI模型,再培训,这些模式拓展他们包括新的数据,和原型和测试新的模式以快速和可扩展的方式。

这些AutoML平台的目标是帮助扩展数据科学团队的能力。Pazos告诉我们:

金融服务行业已经做出努力建设一个数据科学家团队的努力。但在这一领域和应用数据的庞大体积的复杂性参与作出任何AI项目的小团队挑战由于维护繁忙的工作也与这些项目一起去。

这是因为人工智能项目不仅仅是开发一个人工智能模型,还要维护模型,并在新数据集引入系统时更新模型。这些模型的维护是对项目成功至关重要的持续工作。

大多数AI项目需要使用这种类型的算法来微调原型的,为了维护他们的帐户的新情况和数据集。这还需要繁琐的数据管理,测试和验证工作。

安华和卡洛斯似乎也暗示,一旦原型设计阶段已经完成的事情不要变得更容易。除了维护这些模型,数据科学团队在金融公司需要扩展产生了组织的其余部分的AI模式。这意味着,当一个数据科学团队开发的算法用于销售或市场营销的应用,该机型需要复制几个不同的方案。

预测客户流失使用自动化机器学习平台

Pazos通过一个金融公司使用人工智能预测其产品客户流失的用例来解释这一点。如果该公司现在需要为另一种金融产品开发客户流失预测模型,那么从理论上讲,这可能看起来是一个类似的项目,可以借鉴已经生成的模型,但在现实中,不同的产品可能真的需要完全不同的模型来准确预测客户流失。

Pazos补充说,在数据科学中进行这样的概括是一种不好的做法。在这种情况下,每个数据科学项目都是独一无二的,即使应用程序或用例是相同的。除此之外,即使对于相同产品的相同用例,根据模型所训练的数据集,最优化的算法也可能是不同的。

下1分钟的视频,我们可以预见到如何SparkCognition达尔文自动化机器学习的平台,它的一些功能和特点:

有在市场上发行的产品为金融服务行业的几个AutoML供应商。SparkCognition还声称已经测试了针对多种开源自动化机器的达尔文模型的学习平台,如Autosklearn,H20.ai和随机森林。该公司宣称,结果如下:

基于达尔文平台的Spark认知测试结果

测试包含的问题,涉及的分级,比如从扭曲的字符,回归分析等预测房地产价格和时间序列分析等预测金融交易的演出识别正确的字母。

每个AutoML平台可能具有应用和用例,其中溶液表现最好,而金融服务公司需要考虑他们现有的数据基础设施,在那里他们的用户目前基于人工智能的自动化与现有的预算和数据科学资源的强烈需求的领域。

面临的挑战是小数据科学团队

金融公司的小型数据科学团队面临的另一个挑战是,他们集中在一起,为其他几个业务部门服务。这使得数据科学家的工作更加困难,因为他们不仅要开发新的模型来解决不同业务单元的挑战,而且还要不断维护他们已经构建的现有解决方案,以适应新的数据。

数据科学团队已经很难雇用和留住,正如前面提到的,这是有道理的,金融公司有这些员工运用他们的专业知识来解决高级复杂的问题,而不是交易的那一天到一天的数据的科学维护工作有数据,测试某些情况下,建筑模型,并能够保持这些模型。这是AutoML平台在很大程度上发挥作用。

随着金融企业聘用被集中和专注于解决企业数据问题小数据科学团队,这些团队几乎结束了作为金融企业内部服务机构。例如,销售,市场营销和金融贸易部门在组织可能请求数据科学团队来解决各种问题。

小的数据科学团队很容易被来自不同业务单元的请求压垮,在这些业务单元中,他们最终进入了服务这些请求的循环。根据Pazos的说法,AutoML平台可以帮助节省数据科学家的时间,帮助他们将智慧投入到更合适的问题中,从而从他们的数据科学团队中为组织创造更多的价值影响。

AutoML可以帮助找到正确的算法模型,该模型允许对特定数据集进行最准确的预测。另一方面,AutoML平台也可以用来构建客户AI模型,根据手头的特定数据定制这些模型。

为了成功地利用了AutoML平台,人类仍然需要在循环。AutoML可以得到一个项目的启动和运行速度更快的帮助,但人们仍然需要解释系统的结果,对其进行验证,并把该系统付诸实践的组织。这需要从两个数据科学家和主题专家的投入。

例如,在客户流失预测例如,数据AutoML平台可能有助于预处理,识别输入到系统和一般的几款车型的数据集功能,找到一个给定数据集的最优化模型。但为了测试客户流失的预测和检验预测的准确性,数据科学家和主题专家是必要的。

金融公司可能会发现很难让数据科学家和主题专家达成一致。

AutoML是如何工作的

帕索斯有另外的见解为金融服务公司,其数据科学团队是从多个业务单位卡住服务请求。他声称,当这些公司开始在其数据科学团队的生产力方面看到一个瓶颈,通常这是以创新的成本。

此外,使用传统的软件工程师和主题专家构建AI系统可能不会导致障碍,因为这些项目需要对数据管理技术有更深入的理解。类似地,AutoML也可以帮助新的数据科学团队开始工作,更快地学习和创建模型。

例如,SparkCognition声称他们与一家金融公司合作生成最准确的模型,以金融市场制度归类在一个宽泛的时间窗口捕捉多个资产类别。根据该案例研究中,金融公司使用的达尔文AutoML平台,打造预测模型根据历史财务数据。

为了找到最好的交易方法,该公司使用SparkCognition达尔文自动数据处理的科学三个主要步骤:

  • 数据清洗和管理:根据SparkCognition公司的说法,Darwin平台被用来对历史金融交易数据进行自动预处理,使其成为机器可读的数据。
  • 特征生成:特征产生是采取非结构化数据,并在算法也称为特征定义变量的过程。SparkCognition声称达尔文平台也被用来自动生成的新功能,从历史数据的主题专家以前没有揭开。
  • 模型建立:最后,达尔文平台被用来产生了深刻的学习架构,测试和更新,以断然适合输入算法中的数据集。这是通过微调的算法做了几代人在最准确的模型得出。

AutoML平台本身不是一个解决方案,但它是人工智能项目中自动化过程的一个好方法,因此即使是小型数据科学团队或新成立的人工智能团队也可以处理多个新项目,同时仍然维护已经构建的项目。

手动开发机器学习模型需要金融相关专业知识,统计专业知识和计算机科学技能。人为错误,算法偏差,偏差的数据都是新的挑战,金融企业在AI的项目要处理。自动化的机器学习使组织能够增加其数据科学家的能力,其中,他们可以开发新的项目,而不必从头开始开发自己的能力,每一次,从而减少了参与项目的AI的成本,时间和精力。

使用AutoML有可能对金融公司的员工甚至没有太多数据的科学经验添加到自该软件可以帮助建立AI系统的开发过程。

机器学习可以帮助金融公司找到隐藏在他们的数据潜在的商业洞察力。该自动化的机器学习带给这个过程中的额外的好处主要是在实现相同的功能,但在一个高度可扩展的方式。

这篇文章是由星火认知赞助,写,编辑出版对准我们的透明Emerj赞助内容指南。了解更多关于到达我们的ai集中执行观众的信息Emerj广告页面

标题图片来源:Dataquest

保持在AI曲线的前面

发现关键的人工智能趋势和应用程序,在未来的业务中区分赢家和输家。

订阅“AI优势”简报:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - Check your email and open our welcome email to confirm your email address with Emerj">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
订阅图像
机器学习曲线保持领先

在Emerj,我们有AI-集中的商业读者最多的观众在线 - 加入其他行业领导者和接收我们的最新人工智能研究,趋势分析,并将其发送到您的收件箱周刊的采访。

感谢您订阅了Emerj“AI Advantage”时事通讯,请检查您的电子邮件收件箱以进行确认。