这个生物医药AI应用靠谱吗?先回答硅谷顶尖风投六个问题

人工智能
人工智能在生物领域的应用突飞猛进,从药物发现、诊断开发到医疗保健,每一环都能找到AI的身影,尤其在新冠疫情的影响下,AI技术飞速前进。但是,大家都面临一个共同问题——如何评估一项AI新技术,是否值得大家投入时间、精力与金钱?本文就详细地介绍了如何评估一项AI生物技术、需要遵循的原则以及常见陷阱。

 [[375650]]

人工智能在生物领域的应用突飞猛进,从药物发现、诊断开发到医疗保健,每一环都能找到AI的身影。鉴于AI拥有巨大的应用潜力,几乎每天都有AI与生物领域的新应用出现,以至于越来越难以从噪音中分辨出信号。无论是生物医药领域从业者、领导者,还是相关投资人与运营商,大家都面临一个共同问题——如何评估一项AI新技术,是否值得大家投入时间、精力与金钱?

这是一个非常重要的问题。这篇文章中,我们会分享自己如何评估一项AI生物技术、需要遵循的原则以及常见陷阱。

一 你真的需要AI来解决问题吗?
第一个问题不是关于产品,而是关于你想要解决的问题。人工智能不是万灵药,所以首先要考虑这个问题是否需要或将从基于人工智能的方法中受益。

人工智能在处理复杂任务或进行分析时非常独特,因为这些任务或分析需要处理大量的非结构化数据,而这些关键特征并没有很好地定义或对人类来说并不直观。

如果你想要仅能预测受某些已知变量影响趋势的软件,则AI可能会过大(甚至有害)。相反,AI可以帮助你筛选复杂的医学图像或非结构化的健康记录之类的数据,以帮助诊断由广泛的相互作用或不清楚的因素引起的疾病。

您还必须考虑数据本身。是否有足够高质量用于训练和测试的无噪声数据,以便使AI能够有效发挥作用?是否需要首先单独进行数据生成和管理?当你已经一丝不苟地对你的问题和数据进行了压力测试,并确信对于AI来说生物问题已经成熟,那么就可以评估平台或产品本身了。

二 是真的AI还是营销炒作?
人们经常混淆或故意误用「AI」这个词,但实际上,它的意思是使用预先编程的软件进行自动数据分析。当我们谈论AI时,通常指的是自动发现独特见解的算法或平台,这些见解对于人类而言至少在合理的时间范围内很难推论甚至无法推论。随着数据随着时间的推移而扩展,这些见解将继续得到改进和优化。真正的AI系统是迭代的,并且变得越来越自治。

另一方面,自动化使用基于规则的系统来「预测」结果,但是这些预测无法适应。自动化可能允许重复性任务的完成,但是它无法从这些任务中学习以完成新任务。

例如,不由AI提供支持的医学转录软件可以很好地理解经典的心血管术语,但是,如果遇到较新的肿瘤学研究概念或以前尚未探索的本体论,它将无法适应和学习。

当心那些声称使用AI但实际上只是基于人类选择的统计分析进行基本数据分析的公司。这看起来像一个模型,该模型基于利用医生选择的特征(疾病严重程度,年龄等)的回归分析来估计住院时间。这不是AI。

为了识别真正的AI,重要的是要深入研究如何训练平台。功能是自主学习的,还是全部预先预期或预先选择的?它是否可以根据反复试验实际进行调整,还是受某些参数约束?准确性和预测能力会随着时间的推移自动提高吗?还是趋于平稳?它会创建自己的大量数据吗?

数据消耗是AI的显着方面,它可用于迭代地改进模型。总而言之,假冒的AI系统严重依赖费力的输入和人工监督,因此无法适应。真正的AI系统具有学习能力,独立的特征识别能力,并且随着时间的推移而不断改进。一旦确定要使用真正的AI,就可以更深入地探究AI的工作原理,以及它如何与竞争对手竞争。

三 该模式能否真正实现差异化?
评估任何一项AI驱动的新技术,下一步就是要确定它与竞争对手有哪些差异化之处。要了解一个产品的创新本质,自然要对其应用领域(医学转录、药物设计、生物标记物发现、临床试验预测等)有更深入的了解。

核心问题在于,判断AI是否真的实现了该领域中前所未有的东西,是作为一个全新的用例出现,还是在速度、效率、成本等方面有了数量级的改进。这里的逻辑对于所有新产品都是一样的,不管是不是AI。

当我们考虑差异化时,一切都归结为第三方要复制该技术或提高它的难度(有没有护城河?)。了解数据集甚至AI算法本身的来源非常重要。关于高质量开源AI软件包和数据集民主化的惊人事情之一是,它们易于现成。现在,即使是入门计算机科学的学生也可以将一个简单的机器学习分类器组合在一起。

尽管这对于更广泛的领域而言是不可思议的进步,但还必须辨别给定的平台是否可以使用现成的工具进行复制,或者是否存在一些根本的进步。

四 有效吗?你怎么知道的?
一旦你确定所讨论的产品是真正的人工智能,并且与竞争对手有所区别,现在是时候深入了解它的量化表现了。此时,了解给定应用程序的指标,至关重要。

例如,如果你正在处理一个分类问题(例如,分类一个组织样本是否属于癌症),你的目标应该是最大化准确性。了解AUC值、灵敏度、特异性等非常重要;如果正在处理一个复杂的回归问题,如预测药物的分子属性值或患者治疗的理想剂量,你应该努力减少误差,度量标准如R²或RMSE是关键。

然而,在现实世界中,最大化准确性或最小化误差并不足以保证成功。你必须知道效用的临界值。由于预测建模是相对于手头的应用程序而言的并且是特定的,因此最大精度通常是不可行的(也不要求)。这一切都基于上下文,以及适用于该问题的AI驱动算法的当前基准。从表面上看,0.71 R²可能并不令人印象深刻,但如果没有特定应用程序的优先级,则可能令人震惊。例如,如果您要预测临床试验结果,那么,即使是一个不完善的系统也只能提供适度的预测性能提升(也许允许您每年取消一个额外程序的优先级),也可以为组织节省数十亿美元。

了解性能后,将其与更简单的方法执行效果进行比较也很重要。如果用更简单的随机森林或逻辑回归替换你的复杂深度学习算法,了解性能如何变化,你就有机会发现模型技能的局限性。

随着人工智能在生物技术领域的发展,可能会出现一些甚至还没有建立基准的新应用。在这些情况下,最重要的是理解与标准方法相比,人工智能如何提高特定任务的准确性、速度或精度。(尽管这些未知的情况可能看起来很棘手,但这些新领域的机会往往是最令人兴奋的!)

五 是不是……太好了?
在这一点上,也许你拥有数据,知道你的参数和基准,已经训练了你的AI,并且它的AUC是0.99 !看起来你已经破解了代码,你的平台已经准备好了! 不过,先别喝香槟。作为该领域的投资者和从业者,我们已经多次目睹了这场电影的结局。剧透警告:这个超高精度的人工智能算法一旦被暴露在真实世界的数据中,很快就会失败,给你的预测就像抛硬币一样。

「这怎么可能呢?」人们可能会问,尤其是在经过几个月的训练和验证之后,而且利用了最先进的人工智能工具。一个可能的解释是,答案可能已经隐藏在训练数据集中,所以,本质上这个过程从一开始就被破坏了。简单地说,答案测试集被意外泄露到训练数据集。从技术上讲,数据准备和交叉验证过程会导致数据泄漏。

一个经典例证就是,从组织图像中开发出一种看似精确的AI驱动的肿瘤检测器,但当该系统用于另一家医院的肿瘤图像时,它会完全失败。回顾这些数据,科学家们意识到,所有带有肿瘤的图像中都有一个白色的标尺来测量肿瘤的大小!标尺是隐藏在训练集中的欺骗项,为了使模型成为一个训练良好的标尺检测器。这里的关键信息是要注意从它的「白色标尺」中清理数据,仅仅掌握统计数据是不够的。

有时,AI模型的陷阱更隐蔽,以致于无法准确定位某个特定功能。这些比较难发现,因为它们可能不那么明显或不像二进制,可能是R2之间的差异,比如 0.6和0.78之间。一个经常困扰AI算法的例子是时间序列数据问题。

以人工智能驱动平台为例,该平台致力于预测一种药物在临床试验中的成功概率(PoS)。乍一看,使用所有可用的临床试验信息似乎很自然。测试时,当你的模型自信地预测2007年一些关键试验的结果时,你也会被(错误地)打动。

这里的错误是,人工智能模型已经包含了来自未来的线索,这使得问题更容易预测。尽管数据已被清理,重复数据已被删除并且没有任何隐藏的线索,但是,截至2020年的临床试验数据集已经借由新的生物学和临床知识(例如,新的剂量方案,与新方式的相互作用,较细化的患者亚组等进行的临床试验等)吸收了「作弊因子」,而这样的模型在2007年是不存在的,也因此无法推广到以后的试验中。在按时间序列引入数据泄漏的情况下,我们必须注意不要让我们模型窥视未来。

最终,一个好的模型(从而是一个好的产品)可以确保训练数据真正代表并推广到将要分析的真实世界的预期数据。

六 是否进行了前瞻性试验,作为验证的黄金标准?
最后,即使认真地执行了上述所有步骤(并且选择了明确的控件来建立基线,确保没有偏见或数据泄露的暗示,检查了训练数据是否可以推广),你仍然只测试了AI平台使用历史数据与预先确定的答案。简单地说,一切都是回顾性的。而对于现实世界的应用程序,你只能控制这么多,未知可能会让你摔倒——即使你并没有打算作弊!

在对给定技术做出最终决定时,没有什么比精心设计的随机临床试验(如前瞻性测试)更能真正验证AI平台的了。这是测试的圣杯——真实生活中的预演。不过有时在时间,资源和新技术的成本方面可能不切实际,因此,下一个测试最好是某种形式的回顾性盲法测试。一个经典的基准数据集可以让你有机会在一对一的研究中,比较不同竞争技术的性能。

总之,随着人工智能继续渗透到生物技术的每一个角落,我们相信这些指导原则对于从业者和商业伙伴都是至关重要的。但这些复杂的模型——以及它们在复杂生物学上的应用——需要一套独特的技能才能真正理解。我们认为,企业必须将他们的人工智能专家与其他领域专家结合起来。只有这种协同的结合才能充分发挥人工智能在生物领域的巨大潜力。但对于那些曾经怀着好奇或怀疑态度「袖手旁观」的人来说,这个框架可以成为一个切入点,让他们开始评估一个特定AI产品是否值得他们投入时间和资本。

说明:

1、曲线下面积(Area under the curve, AUC)是分类问题的一种性能度量,表示可分性的程度或度量。它告诉我们一个模型能在多大程度上区分不同的类。AUC越高,模型的预测能力越强。理论最大值为1。当AUC为0.5时,说明模型根本没有分类能力。

2、R²或r²是对数据点与模型匹配程度的一种衡量。R²的理想值是1。R²的值越接近1,说明模型对数据的拟合越好。

3、RSME:均方根误差(RMSE)是预测定量数据时模型误差的度量。RMSE越小越好。

4、交叉验证主要是人工智能应用于对看不见的数据估计模型的技巧。首先,将可用的数据集分割为训练数据、验证数据和测试数据的三个子集。使用训练集对模型进行训练,该过程的目标是在某些指标(如准确性)上获得最高分数的模型。最后通过测试数据集判断模型的性能来衡量模型的成功与否。

参考链接:

https://a16z.com/2021/01/08/evaluating-ai-bio/

责任编辑:梁菲 来源: 机器之能
相关推荐

2009-08-14 10:56:09

曙光高性能生物

2016-01-04 10:03:48

2019-04-11 13:25:58

2021-01-04 09:32:30

数据平台架构

2012-10-16 09:54:21

MapRHortonworksCloudera

2022-01-26 10:48:40

虚拟货币货币比特币

2018-03-04 23:08:25

安全运营自动化事件响应

2022-09-13 08:47:59

CIO董事会IT

2017-11-24 14:17:44

身份管理迁移云端

2014-02-11 09:25:09

2019-03-21 12:10:56

腾讯管理年轻化

2023-09-10 20:31:01

AI

2021-11-11 15:13:15

人工智能容器技术

2015-07-28 10:52:36

DevOps

2021-12-16 10:29:22

SAP数字化转型加速包

2019-06-28 12:10:02

ERP数字化转型企业

2020-04-09 09:40:20

AI 预测研究

2016-11-22 17:26:11

开源PowerShellLinux
点赞
收藏

51CTO技术栈公众号