建立和保持数据科学团队|Emerj - 万博x官网,msports万博体育官网,万博官方软件

建立和保留一个数据科学团队

库马拉斯Madhavan 最后更新:2018年11月29日

最后更新:2018年11月29日，由库马拉斯Madhavan

拉迪卡Madhavan先生介绍AI创新的Emerj。拉迪卡以前在内容营销三大技术公司合作，并从奎师那大学工程与技术毕业，在信息技术学位。

集简介:本周，我们就人工智能产业与Equifax进行了交流拉库玛Bondugula博士关于数据科学团队的动态、组成和需求是如何在这些年中演进的。Raj还分享了关于如何建立一个健壮的数据科学和机器学习团队、使用其集体智慧解决问题以及通过让团队参与他们希望解决的正确问题来留住团队的宝贵见解。

订阅我们的AI在工业播客你最喜欢的播客服务:

客人:费道宜Bondugula博士，首席科学家的数据，并在高级总监Equifax

专业知识:机器学习，大数据，数据挖掘，并行计算

短暂的识别:Rajkumar Bondugula博士是Equifax的首席数据科学家和高级主管。他拥有密苏里-哥伦比亚大学(University of Missouri-Columbia)的计算机科学博士学位，专长是机器学习。Raj博士曾在Sears Holdings Corporation和Home Dept担任数据科学领导职务。

面试重点是雇佣和保留一个数据科学团队

以下是Raj在这次采访中谈到的最重要的几点:

（注：这不是一个字对字的转录，但肯定密切的回答转述，没有采取断章取义的最重要的因素对于整个采访，请听嵌入在这篇文章的顶部的播客。）

我们如何撰写制胜数据科学团队？

我们需要谁可以与不同种类，数量和数据的速度工作的个人。业务需求已经大大超过过去几年改变。在过去，我们看数据，分析了什么改变了过去。现在，我们正在寻找未来的预测分析，并要求会发生什么。我们预测未来选择，我们选择什么是对我们最好的。我们应该怎么做这个信息？这里的问题是，同样的数据不能回答这些问题。

数据种类显著增加。例如,在电子商务，我们可以分析过去的用户行为和使用预测分析，以提供更好的建议。捕获整个活动的日志回答一大堆问题。哪个品牌是你忠诚？你花了多长时间购买特定产品之前决定？而基于这些数据，我们可以做出更好的建议。为此，我们要提取从各种不同渠道的信息。

技术从大数据中提取特征是比传统的RDBMS，在这里你有行和列的结构化数据不同。所述输入数据的性质是更广泛的，现在和不同技能组都需要提取信息出这各种数据集，诸如图像数据，数字等的数据的RDBMS中的体积仅仅是一个几百万行。它已经成倍扩大。我们正在谈论数百TB的数据。

因此，我们可以不再使用传统的RDBMS或一台计算机。一组全新的工具来操作这样大的数据，如Spark和Hadoop的，是必要的。一组全新的技能需要的只是处理的数量，种类和数据本身的速度。An example of high velocity data would be real-time data, like streaming data, weather data, etc – which needs to be handled and considered for business decisions as it’s coming in (i.e. Weather data must be taken into account in real time if we’re making decisions about where to route delivery trucks or planes).

一个全面发展的AI团队需要哪些技能?

不同的技能组合的例子：对于分布式计算，处理分布式存储，等等，我们需要大数据工程师谁是好的分布式系统和计算。我们可能需要从流媒体，实时数据处理信息不同的大数据工程师。

随着技术的发展变得比以前更加规范，技能是产业之间转移。培训公司也出现了对列车工作人员在新的技术。例如，如果你知道如何使用SQL，你可以做你的SQL做一个更大的数据集（在分布式数据库）是什么的问题。你把你已经有了和应用在更大的数据集这些技能工作的技能。实际上，这意味着，当您使用不同的域相同的工具，你懂什么工具在哪个域中更好。

哪里可以找到数据科学人才?

这是非常困难的，因为你心目中的合适人选已经有很多工作机会了，这是一场竞标战，真的。不好的动力学。确保更多这样的人具备你所需要的工作技能的一种方法是咨询大学的行业咨询委员会，告诉他们这是我们的需要。另一种方法是我们与学生交流，并在早期鼓励他们学习新技术，培养正确的技能。

另一种方法是，我们对现有的员工进行新技术的过渡和培训。如果您是传统的Java/SQL开发人员，那么您可以接受在Spark上执行Java/SQL的培训。我们需要企业建立培训能力，以留住现有的员工。在某些领域，经验确实很重要。

现有员工知道工作流程。他们知道谁管理数据，谁操纵数据，谁输入数据，谁拥有数据，谁需要理解数据，等等。这真的很重要，因为他们了解大局。这就是制度知识派上用场的地方。

我们如何能留住一份数据科学的劳动力？

大多数人都是时下在2年内有新的公司启动的换工作。构思一个问题投入生产，以我的经验，在企业3年的旅程。在一大群人把没有意义，如果作为一个公司，你没有明确的技术目标 - 并保持数据的科学人员的能力。

维护数据科学团队架构的平衡是非常重要的。有要考虑到这里的因素很多。

例如：

谁来管理这个队?
团队是否有足够的工作？
团队是否超负荷工作?
他们是否得到了与公司的业务和技术目标相一致的正确的问题?
组织准备情况如何?
您的公司已经过渡到集中式数据库了吗?

你的管理团队也是一个重要的因素。数据科学团队需要来自管理团队的成熟支持。

订阅我们的AI在工业播客你最喜欢的播客服务:

标题图片来源：东北大数据中心

关注Emerj人工智能研究万博官方软件

订阅Emerj周刊

每周发布的人工智能商业趋势和见解:

建立和保留一个数据科学团队