数据科学生命周期的7个步骤 - 在业务中应用AI

丹尼尔Faggella.
头像

Daniel Faggella是Emerj研究的首脑。丹尼尔呼吁由联合国,世界银行,国际刑警组织和龙头企业,丹尼尔是AI对商业和政府领导者竞争战略影响的全球追捧。

数据科学生命周期的7个步骤
此EMERJ Plus文章已公布有限的时间。
解锁我们的完整图书馆使用案例和AI策略最佳实践,访问Emerj Plus

AI不是它 - 采用人工智能几乎没有像采用传统的软件解决方案。

虽然软件是决定性的,但AI是概率的。

通过算法从数据中哄哄哄阳性是一个具有挑战性的,并且通常耗时的一个。虽然非技术性AI项目领导者和高管不需要知道如何清洁数据,写入Python或者调整算法漂移 - 但他们必须了解主题专家和数据科学家通过寻找数据价值的实验过程。

上周我们涵盖了AI部署的三个阶段,本周我们将深入了解数据科学生命周期本身的七步 - 以及非技术项目领导人应该理解的过程的方面。我们将使用的模型来探索数据科学生命周期(下面)直接由IBM的启发数据挖掘的跨行业标准过程(或CRISP-DM)模型。我们的型号仅略有不同 - 通过减少强调技术细微差,更加重视商业环境。我们将参考整个本文的剩余时间内的图像中概述的步骤:

7步
来源:AI部署路线图

与部署三个阶段的线性阶段不同(导频,孵化,部署),数据科学生命周期步骤相当快地循环,并且通常从一步到下一个步骤跳跃,以便在模型上迭代或朝向A工作成功的结果。步骤1和2(业务理解和数据理解)和步骤4和5(数据准备和建模)经常同时发生,因此甚至没有线性列益。

数据科学生命周期有可以按顺序考虑的步骤 - 但是粗略的顺序并不总是恰好遵循真正的部署。

例如,在数据准备中,一支球队可以决定将“向后”向业务理解进行“倒退”,以解决额外的预算需求(即数据需要密集,需要及时清洁,以便澄清业务结果。同样,评估步骤中的团队可能会返回数据理解,或者在能够实际部署解决方案之前评估项目规划。

与部署的3个阶段一样,我们将通过使用两个示例公司说明下面的阶段:

示例1 - 采用产品的电子商务公司推荐引擎。电子商务公司认为承诺提高其购物车价值,并改善现场用户体验,特别是对于具有购买历史和活动的现有客户。

例2 - a制造业企业采用预测分析应用程序。制造公司具有强大的数字基础设施,并旨在利用其现有的数据流来检测制造过程中的故障和错误。

1.商业理解

  • 目标- 确定项目的业务目标以及分配给其成就的资源。问:“我们以后的结果是什么?”问:“AI真的是这份工作的合适工具吗?”问:“这种潜在的AI倡议的可衡量和战略价值是什么?”
  • 挑战- 找到公司达到合理和可访问的机会。不要假设AI可以做些假设。接受公司必须发展的长期迭代时间和关键技能和能力,以便为企业带来AI生命。
  • 可能有人参与其中-
    • 高级领导
    • 铅数据科学家
    • 专案经理
    • 功能主题专家

示例1 - 采用产品推荐引擎的电子商务公司。讨论公司实现增长和盈利能力的各种选项 - 与其他选项相比,推荐引擎优先事项?关于我们的客户及其购买行为的理解,应考虑到这种营销项目的购买行为吗?

示例2 - 采用预测分析应用的制造公司。确定如何测量预测模型。考虑哪种机器需要这种预测性维护 - 该公司对公司持续最昂贵的风险和故障,我们可以专注于那些第一个?

2.数据理解

  • 目标- 确定数据的可访问性和潜在值。问:“我们可以实现我们的业务目标,我们现在的数据资产吗?”问:“与此数据有挑战,或者在新的方式使用此数据来实现所需的业务结果的机会?”
  • 挑战- 访问数据的价值,获取主题专家和数据科学家一起查看数据,以确定如何访问它,如何改进它,哪些功能可能是业务结果的最高价值。
  • 可能有人参与其中-

示例1 - 采用产品推荐引擎的电子商务公司。评估客户购买行为的质量。这个数据是否讲述了一致的故事?我们是否觉得有信心一个客户帐户是一个人,或做多个家庭成员(不同年龄,优先事项,偏好,偏好)在一个账户上商店,使事情更复杂?

示例2 - 采用预测分析应用的制造公司。从制造设备看现有数据源。这次是来自类似机器的序列和遥测数据,并以相同的方式存储?我们可以确保数据可靠吗?它最不可靠的地方,我们可以减少这种影响数据的因素吗?

3.评估项目需求

  • 目标- 确定与项目继续前进的要求和资源。这可能包括额外预算,额外的员工培训,加入跨职能项目团队的其他主题专家,或访问新数据系统。
  • 挑战- 获得高级领导,以忍受真实AI项目的不可避免的复杂和不断变化的需求(特别是对于缺乏以前的实际数据科学经验的公司)。
  • 可能有人参与其中-
    • 高级领导
    • 铅数据科学家
    • 专案经理
    • 功能主题专家

示例1 - 采用产品推荐引擎的电子商务公司。分配给项目的跨职能团队可能会决定他们需要访问更多的历史数据,以及清洁和组织它的资源。他们还可以确定 - 鉴于业务不同部分的ROI机会 - 他们希望将推荐引擎应用于两个非常特定的产品类别(与文件上的所有产品相反),并且该团队可能要求访问专用来自该部分业务的主题专家。

示例2 - 采用预测分析应用的制造公司。该团队确定他们计划穿上各种设备的传感器的数量和类型 - 以及他们需要的特定主题专家,以便正确设置,解释和理解这些新数据流以便运行成功Poc。

4.数据准备

  • 目标- 访问,清洁和协调数据。特征工程来确定数据语料库的和蒸馏有意义的方面。根据可用数据确定项目的可行性。
  • 挑战- 数据科学家坦率地谈论业务领导,了解组织数据的挑战和成本,这些挑战和成本通常很大(特别是在较老的公司,或具有很少或没有实际数据科学经验的公司)。承认项目如果数据的金额或质量不可行,则项目不可行或可行。
  • 可能有人参与其中-
    • 高级领导
    • 铅数据科学家
    • 数据科学团队
    • 功能主题专家

示例1 - 采用产品推荐引擎的电子商务公司。该团队清理和协调历史数据,并确定新数据需要采取的具体格式,以帮助提交推荐引擎。数据科学家和主题专家共同努力,确定购买和用户行为数据中的功能,他们认为最重要的是最初训练其模型。

示例2 - 采用预测分析应用的制造公司。数据科学团队与工程师和机械师密切合作,以确定它们旨在将传感器放置的设备的最重要的遥测信号(热,振动)。然后,收集和分析初始数据集,并在与来自中央制造软件的现有数据流中的时间序列中组合。传感器和核心系统数据以允许其用于培训模型的方式重新格式化或重新组织。

5.建模

  • 目标- 建立输入和输出之间的关系,迭代数据和算法以达到业务价值。
  • 挑战- 在迭代过程中循环回复数据处理,数据理解和业务理解。拉动主题专家促进模型的假设和实际培训。
  • 可能有人参与其中-
    • 铅数据科学家
    • 数据科学团队
    • 功能主题专家
    • 专案经理

示例1 - 采用产品推荐引擎的电子商务公司。铭记团队决定的成功指标 - 数据科学团队在特定产品类别中测试新产品建议。反馈从团队成员使用,(潜在地)来自小型用户队列,以便校准改善推车值和转换率。使用数据中的新功能,或者在不同的级别加权,以便拨入所需的结果。

示例2 - 采用预测分析应用的制造公司。该团队将使用过去的修复和崩溃数据以及新的工作遥测数据,预测机器更有可能分解。这可能需要相对较长的时间范围,或者相对大量的机器初始测试,以便在需要维修的情况下找到更多的机器实例,因为只有这些事件将有助于告知模型的预测能力。

6.评估

  • 目标- 确定我们的数据资产和模型是否能够提供所需的业务结果。这通常需要许多循环返回到步骤1,2,3,4或5 - 因为驳斥了假设,并且新的思想表面。
  • 挑战- 处理评估中的挑战,确定衡量成功的强,可量化标准(其中基准很难确定)。涉及高级领导和主题专家,为促进自信的部署促进稳健的评估。
  • 可能有人参与其中-
    • 高级领导
    • 铅数据科学家
    • 专案经理
    • 功能主题专家

示例1 - 采用产品推荐引擎的电子商务公司。随着时间的推移,团队将衡量他们的新产品建议给以前的产品列表或推荐方法。在这种评估阶段,数据科学家和主题专家聚集在一起,以确定似乎有工作,什么不起作用,以及如何调整推荐模型的模型,数据或用户体验,以更好地推动所需的结果(更高的推车价值,用户对客户的更高转换率)。

示例2 - 采用预测分析应用的制造公司。跨职能团队评估预测模型的建议,确定它们是否比以前的方法更好或更差。在概念或孵化阶段的早期证据中,这可能更具定性(即,我们认为我们之前的方法是否会发现该设备故障?),而在实际部署中,该测量将是定量的(即。多少崩溃每月发生故障?每月x类机器的正常运行时间都有多少?预测性维护系统的误报的速率是多少?)。

7.部署

  • 目标- 要成功将AI模型或应用程序集成到现有的业务流程中。最终,提供业务结果。
  • 挑战- 培训人员利用新的​​AI申请。需要维护维护模型工作,并调整更改。
  • 可能有人参与其中-
    • 铅数据科学家
    • 数据科学团队
    • 专案经理

示例1 - 采用产品推荐引擎的电子商务公司

  • 第2阶段:孵化部署:推荐引擎已经在a中充分测试沙箱环境,内部团队成员的反馈,融入了电子商务网站的一部分,15%的用户接触到AI生成的建议,而不是先前的建议。
  • 第3阶段:完全部署:推荐系统已完全集成到网站上,成为团队认为它将提供价值的所有网络界面上的默认体验。建立监测系统,以校准新系统的结果和调查结果,规则的会议和诊断步伐,以确保系统正在进行和改进。

示例2 - 采用预测分析应用的制造公司

  • 第2阶段:孵化部署:预测性维护系统集成到制造地板上的工作流程的一部分中。现在,一些机械师和工程师队员,其中一些人可能不是跨职能AI团队的一部分,能够在AI团队的指导下使用和回应这一新系统。
  • 第3阶段:完全部署:预测维护完全集成到制造工作流程中,完全成为AI团队认为它可以提供价值的所有加工功能中的默认过程(已经在POC和孵化阶段测试的区域)。建立监测系统,以校准新系统的结果和调查结果,规则的会议和诊断步伐,以确保系统正在进行和改进。

保持领先于AI曲线

发现在业务未来将赢家分开获奖者的关键AI趋势和应用程序。

注册“AI Advantage”时事通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - check your inbox for a confirmation email">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
订阅镜像
保持领先于机器学习曲线

加入超过20,000名以上的可调性的商业领袖,并收到每周提供的最新的AI研究和趋势。

感谢您订阅EMERJ“AI Advantage”时事通讯,请检查您的电子邮件收件箱进行确认。