Google新模型可以理解细胞语言了

发布于 2025-10-17 07:40
浏览
0收藏

Google Research 最近公布了一项研究进展:他们的开源模型 Gemma 家族新成员 Cell2Sentence-Scale(C2S-Scale)27B,在与耶鲁大学和 Google DeepMind 的合作中,发现了一种新的癌症治疗途径,并已在活细胞实验中验证。

这个 27B 参数模型的核心创新在于将单细胞基因表达数据转换成语言模型可理解的"细胞句子"。耶鲁大学 David van Dijk 实验室通过标记化处理,把每个细胞的基因表达模式以及数千个基因的活跃程度及相互关系编码成类似自然语言的序列格式。每个"细胞句子"描述了细胞在特定时刻的完整状态:哪些基因活跃,哪些沉默,以及它们之间的相互关系。

这项工作建立在今年早期的研究基础上,当时团队证明了生物模型遵循明确的扩展定律:就像自然语言一样,更大的模型在生物学任务上表现更好。这引出了一个关键问题:更大的模型是仅仅在现有任务上做得更好,还是能获得全新的能力?

研究团队面对的是癌症免疫疗法中的一个关键挑战:许多肿瘤呈现"冷"状态,对免疫系统不可见。为使这些肿瘤变"热",需要通过抗原呈递过程让它们展示免疫触发信号。

研究人员给模型设定了一个精确任务:寻找一种条件性放大器药物,仅在存在低水平干扰素(关键免疫信号蛋白)的"免疫环境阳性"条件下增强免疫信号,而这些干扰素本身不足以诱导抗原呈递。

为此,他们设计了双重环境虚拟筛选实验:

  1. 免疫环境阳性:使用包含完整肿瘤-免疫相互作用和低水平干扰素信号的真实患者样本
  2. 免疫环境中性:使用没有免疫环境的分离细胞系数据

模型需要预测哪些药物仅在第一种环境中增强抗原呈递,以偏向患者相关的设置。在模型突出的许多候选药物中,10-30% 是已知药物,其余是与筛选目标没有已知联系的"惊喜发现"。

C2S-Scale 27B 从 4000 多种药物中识别出 silmitasertib(CX-4945)的显著"环境分裂"效应。模型预测该药物在"免疫环境阳性"条件下会强烈增加抗原呈递,但在"免疫环境中性"条件下几乎没有效果。尽管 CK2 作为免疫系统调节因子参与多种细胞功能,但通过 silmitasertib 抑制 CK2 来明确增强 MHC-I 表达或抗原呈递此前从未被报道。

实验室验证在人类神经内分泌细胞模型中进行,这是模型训练时完全未见过的细胞类型。结果显示:

  • 单独使用 silmitasertib:对抗原呈递(MHC-I)无影响
  • 单独使用低剂量干扰素:效果适度
  • 联合使用:产生显著的协同放大效应,抗原呈递增加约 50%

这种协同效应使肿瘤对免疫系统更可见。模型的计算机预测在体外实验中得到多次确认,成功识别出一种新型干扰素条件放大器,揭示了使"冷"肿瘤变"热"的潜在新途径。

值得注意的是,这种条件推理能力是模型规模扩展至 27B 时的智能涌现。就像语言模型在达到一定规模后突然有“思维能力”一样,生物模型也在规模扩大后获得了"创造性思考"的能力。

"生物技术变得像软件一样可编程"。生物医学与AI相结合,是目前认为最有想象力的场景之一。而这项研究正展示了 AI 辅助药物发现的新范式:通过大规模虚拟筛选生成可验证的生物学假设,而非仅仅重复已知事实。

论文:https://www.biorxiv.org/content/10.1101/2025.04.14.648850v2

github:https://github.com/vandijklab/cell2sentence

huggingface: https://huggingface.co/vandijklab/C2S-Scale-Gemma-2-27B

本文转载自​AI工程化​,作者:ully

已于2025-10-17 07:41:57修改
收藏
回复
举报
回复
相关推荐