制药和生命科学中的大数据——人工智能和数据管理

尼科洛·梅希亚
《阿凡达》

尼科洛是一个内容的作家和初级分析师Emerj,既开发Web内容,并与定量研究帮助。他拥有学士学位的写作,文学,出版从爱默生学院的学位。

制药和生命科学中的大数据——人工智能和数据管理

我们谈过许多领导人医疗保健制药在过去5年里,当涉及到人工智能时,医疗和制药行业领导者报告的最紧迫挑战是,他们不确定如何去做精简和组织他们的数据让他们建立机器学习模型。医疗保健公司正陷于其潜在人工智能计划的数据整合阶段,而一个又一个供应商试图在一个新的应用程序上推销它们,而该公司甚至可能还没有准备好。

AI和机器学习的项目可能需要几个月到功成。许多制药公司不启动,如果他们看到一个在所有启动一个AI产品后,看不到半年以上的投资回报率。因此,它是为制药企业的清洁很重要,并存储数据,这样它的“机读”,准备送入机器学习算法在时机成熟时。

这可能是节省时间和金钱(甚至数千)上的AI产品的初步整合,公司是否使得它在公司内部或购买它从AI供应商。

刘志庚陈在腾讯医疗保健大数据实验室主任,曾在此说我们采访了他关于在医疗行业应用机器学习时使用数据(并将其数字化)的重要性:

如果你看一下该行业,该数据还没有应用。该数字还没有准备好。因此,对于AI,大数据真正腾飞,这个基础必须有所准备。在大数据领域,我们常说的你的时间和研究的80%都花在了数据,然后20你的时间%实际上是对模型的算法。

Without that foundation of data and digitalization, it’s hard, or it’s almost impossible to get really good models out of it…without digitalization, without this whole process being online and being digitalized, how are you going to realize or how are you going to bring the value of the AI back to the business?

在这份报告中,我们将讨论如何制药公司可能能够聚集和清理自己的大量数据,使他们能够利用它来解决业务问题,并改善运营与AI,其中包括:

  • 集中化的数据将被缩减为数据科学项目和机器学习培训
  • 预处理非结构化数据,使机器学习模型可以识别并从中“取经”
  • 利用数据科学和营销目的的集中和重组的数据预测分析

我们以数据集中开始我们的报告。

数据集中

一家制药公司的结构化大数据可能存储在某种类型的数据仓库中。制药公司也可能将非结构化数据(本质上是那些非机器可读的数据)存储在各种不同的地方,比如匿名化的地方电子病历(EMR)的记录和数据库医学扫描

许多软件供应商提供服务,帮助制药公司做所有的输入数据流的意义的方式,使他们能够被输送到机器学习算法。公司产品畅销到医药行业也,在一般情况下,似乎提供了一个API或类似的整合,让客户在云中或在公司的电脑上运行的任何机器学习模型。

提供大数据集中解决方案的供应商通常也在人工智能和数据分析市场。他们倾向于提供数据分析解决方案(例如预测分析)独立于数据集中,但有些产品可能两者兼而有之。在制药行业,这些供应商最常声称要解决的业务问题是临床试验优化药物发现

一位销售商的提议的数据大集中解决方案,制药公司是GrayMatter。他们还提供了一个平台,用户可以直观商业智能分析

GrayMatter没有提供任何显示制药公司在软件方面成功的案例研究,但该公司将辉瑞和迈斯特阿科拉列为过去的客户。我们选择在这篇报告中讨论GrayMatter,因为他们的团队似乎很有可能在人工智能和机器学习方面有一些经验,这对那些想要使用GrayMatter的解决方案来集中他们的数据以用于机器学习的制药公司来说是个好兆头。

例如,在GrayMatter的平台上集中和结构化数据可能有助于制药公司更有效地分析匿名的EMR记录,从而缩小可能的患者范围,以便进行临床试验。

诸如此类的数据集成咨询和服务是为那些需要集中他们的数据以便为他们想要使用的任何类型的人工智能解决方案做准备的公司提供的。在下一节中,我们将讨论制药公司大数据的预处理,以及如何为特定的机器学习用例准备这些数据。

数据预处理

在所有必要的数据被集中处理期间和之后,制药公司可能需要准备一些数据集用于人工智能和机器学习活动。制药公司的非结构化数据可能包括药物分子成像或EMR数据。像这样的数据在被输入深度学习算法之前需要做标记,深度学习算法试图“学习”对未标记的图像进行分类,或者填写空白的EMR表格。

从核磁共振或先进的显微镜成像数据,每个图像必须采用电子根据对象和实体机器学习模型旨在检测标记。

例如,微观血液成像软件将需要被训练以辨别不同类型的血细胞和多少都存在于每个图像英寸血液成像的机器学习模型也被训练来检测来自血液中的某些药物或治疗的不良反应和反应。

EMR数据通常写入或决定由医师。记录包括有关病人和他们与疾病的经验,这些疾病和如何病人反应,它们的详细信息,以及过去的药物和治疗方法。该定位患者信息相关于临床试验的资格是在制药为AI突出的解决方案之一,现在自然语言处理的应用程序。

如果一个公司想要建造或购买自然语言处理申请从匿名的EMR记录中筛选IDC-10编码,以发现可能适合临床试验的患者,例如,EMR记录将需要标记为包含某个IDC-10编码或其他编码。

BioSymetrics是一个供应商,提供数据组织和标签,清洗和分析生物医学和医疗保健数据从不同的来源。他们的奥古斯塔application使用机器学习来加速在商业领域部署人工智能应用程序的过程,如药物发现、临床试验优化和精准医疗。

BioSymetrics’ SymetryML机器学习引擎可据称评估原始数据的必要的处理方法,以在进一步机器学习发展和AI应用中使用。该原始数据可以在图像,基因组学统计被格式化,流数据,和观察到的化学化合物。

SymetryML可以处理来自核磁共振和的FMRI医学成像数据。它也可以从像FitBit或智能手表穿戴式处理来自EKG,遗传学,蛋白质组,和数据的IoT的数值数据。机器学习模型还能够从电子病历格式,它允许其将数据从各种非结构化数据源相结合,开发出更好的产品和治疗过程的信息。

当一种化合物以数字形式呈现为数据时,它用一个字母数字文本串表示,该文本串可以保存以供将来识别,并用于机器学习模型训练。这些文本链是通过一个数学公式找到的,这个数学公式可以获取分子的图像和图形表示,并将其转换成独特的代码行。这些代码被称为IUPAC化学标识符(IChIs)。

图2:受遗传变异型的脑部扫描显示区域,Biosymetrics的礼貌

BioSymetrics的网站上没有任何演示或案例研究,但有报价的例子他们的软件如何帮助制药和生命科学公司。其中这些例子亮点如何奥古斯塔分析了联想120万点病人的变化具有一定的疾病155例在不到12分钟。

该公司当时能够医学图像的属性在他们的基因变异进行比较。图2突出显示了大脑中受影响较大的不同区域,这取决于个体是否具有遗传变异:

图1:患者和无基因变体的比较,Biosymetrics的礼貌

这个例子表明在他们的分析中发现其中一个基因变异与自闭症有显著的联系。然后,该公司可以根据大脑不同区域的偏差,确定与某一特定疾病相关的不同条件之间的差异,以及哪些人有这种变异,哪些人没有这种变异。

大数据为医药营销

其中,大数据发挥在医药行业尤其显著作用的一个领域是他们的产品和治疗的营销医疗网络,零售商和客户。开发新的市场营销活动,跟踪的投资回报率和销售的统计数据,并管理销售团队是可以与AI解决方案,充分利用大数据来解决所有的业务问题。

与医药市场营销的数据科学计划最相关的数据来源如下:

  • 销售数据有关个别产品,地理销售区域和零售商
  • 最近和历史这两个市场的条件,如需求上升某一产品的同时,对其他产品的需求下降一定的面积​​。
  • 数据从以往的市场营销活动,项目和实验,以及投资回报率观察这些广告活动的结果
  • 销售团队业绩数据,按员工个人及其相关经验分项列出
  • 基于客户的数据被划分为人口统计数据,并根据每个客户预期拥有的持续价值进行划分。

这些不同类型的数据可能需要使用大型数据存储设备和机器学习解决方案(如GrayMatter)进行集中。此外,来自过去营销活动和历史市场情况的书面信息可能需要预处理,以便机器学习模型识别它。

目前还不清楚之前提到的BioSymetrics解决方案是否能够处理这些特定类型的营销数据。

Complexica是澳大利亚的软件供应商,提供了一个预测分析解决方案叫做拉里数字分析。该软件据称能够创造的销售价格,营销投资,以及市场条件,如季节性上升的预测模型和需求下降。它是根据境内,其销售代表被分配给地区的大小,并且每个的地理位置也通告给优化的销售区域的映射。

双拼,数字分析的价值主张

Larry the Digital Analysts充当Complexica的人工智能平台,因为它是每个业务智能解决方案的人工智能部分。左边的图表详细说明了Complexica的软件解决方案中哪些使用了数字分析师拉里背后的机器学习模型。

尚不清楚Complexica为电子商务提供的推荐引擎是否也使用了实际的人工智能推荐引擎,这需要与数字分析师拉里(Larry)的预测分析能力分开。

虽然该公司没有任何案例研究,但他们的工作辉瑞公司为了帮助他们模拟销售,市场投资和市场情况已获得显著关注的AI空间。

辉瑞选择了Complexica的假设模拟器和优化器作为他们的分析解决方案,这使他们能够利用他们的营销和销售数据来告知他们的业务决策。

很明显,由制药公司拥有大数据的存储,可以用来开发有用的机器学习模型以提高制药业务。虽然营销就是企业数据被利用了清晰的业务领域,制药公司可以利用自己的颗粒状的医疗数据进行临床试验和药物开发的目的也是如此。

标题图片来源:科学家现场

艾曲线保持领先

发现关键的AI趋势和应用,在企业的未来和输家独立的赢家。

报名参加“人工智能优势”通讯:

" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Thanks - Check your email and open our welcome email to confirm your email address with Emerj">
" data-trigger="manual" data-title="Notice" data-placement="bottom" data-content="Error - There was some problem.">
订阅
subscribe-image
机器学习曲线保持领先

在Emerj,我们拥有最大的关注人工智能的在线商务读者群体——加入其他行业领袖的行列,每周收到我们发送到您收件箱的最新人工智能研究、趋势分析和访谈。

感谢您订阅的Emerj“AI优势”的通讯,检查你的电子邮件收件箱进行确认。