1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿

发布于 2025-9-11 06:51
浏览
0收藏


1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

通用大语言模型(LLM)在科学场景科学大语言模型(Sci-LLMs) “水土不服”——数据异构、跨尺度、强不确定性。

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

上海AI Lab主导,25家研究机构共同参入,几十位研究人员首次系统梳理 270+ 训练集、190+ 评测集,提出“科学数据分层框架”与“智能体闭环科研”新范式。

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

按六大学科分类的著名科学大语言模型(Sci-LLMs)时间线概览,涵盖 2019 年至 2025 年初。

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

科学数据统一分类法

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

层级

示例

对 LLM 的挑战

事实层

光谱曲线、测序读长

高噪声、单位不统一

理论层

薛定谔方程、周期表

符号化推理,需保证数学一致性

方法层

实验协议、代码脚本

步骤可执行、可复现

仿真层

分子动力学轨迹

跨尺度时序建模

洞察层

诺奖级假设

需跨领域类比与创造性

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

Fig-3 六大学科数据模态词云:文本、符号、图像、时间序列、多组学、结构化表格


表 II 给出 9 种数据源、8 种数据类型的精确定义,可直接拿来写数据管理计划。

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

模型:演进四部曲

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

Fig-2 四代范式:Transfer Learning → Scaling → Instruction → Agentic

阶段

代表模型

关键突破

Transfer

SciBERT

领域继续预训练,GLUE-style 提升 3-5%

Scaling

Galactica-120B

科学文本+公式+代码混合,参数量破百亿

Instruction

SciGLM / HuatuoGPT-II

百万级指令+RLHF,首次在 USMLE 上超人类

Agentic

ChemCrow / Coscientist

闭环实验:LLM→API→机器人→结果→再训练

数据:270 数据集全景

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

Fig-19 预训练数据模态分布:学术文本 46% vs 实验原始信号 <3%

1 预训练“重灾区”

  • 物理:90% 为理想仿真(Illustris、Boltshoi),真实 LIGO 波形不足 1 TB。
  • 化学:SMILES 字符串高达 2.3 B,但 3D 坐标+光谱配对 < 0.1 B。
  • 地球科学:MODIS、ERA5 影像多,却缺少“像素级语义标注”。

2 后训练“新趋势”

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

  • Instruction-Tuning:从问答对→带 CoT 的推理链(Nemotron-Science 2.7 M)。
  • 多模态 VQA:医学影像报告生成、遥感变化检测,GPT-4V 自动标注占比 > 80%。

表 IV 汇总 150+ 数据集大小、来源、自动标注工具,一键筛选可用资源。

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

评估:从“答题”到“开实验室”

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

Fig-23 三大基准难度对比:MMLU-Pro 80%↑ vs HLE 5%↓

新基准

任务形式

通过率

核心难点

ScienceAgentBench

102 真实论文复现

33%

需调用 10+ 工具、写代码、调参数

HLE (Humanity’s Last Exam)

诺奖级问答

2–10%

谷歌-proof,需多步推理+计算

MultiAgentBench

多智能体协作

42%

角色分工、冲突仲裁、共享记忆

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

数据“暗面”:三大系统性缺陷

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

Fig-27 数据生产-审核流水线:缺乏可追溯、实时更新、AI-Ready 标准

  1. Traceability Crisis:70% 仓库无版本链,实验条件、校准参数丢失。
  2. Data Latency:PubMed 平均 8 个月滞后,预印本缺少结构化 API。
  3. AI-Readiness Gap:原始 LIGO 文件需 7 步脚本才能变成 token,重复劳动占研究 30% 时间。

未来:三步走向“科学家智能体”

1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿-AI.x社区

Fig-28 三阶段演化:数据基础设施→科学能力涌现→自主发现闭环

阶段

关键里程碑

技术抓手

I 数据 OS

统一 MCP (Model Context Protocol) 接口

工具即插即用、权限沙箱

II 智能体

Self-Evolving Agent

实验-反馈-更新 Prompt & Tool

III 闭环生态

机器生成数据反哺训练

区块链溯源+自动质量评分

https://arxiv.org/pdf/2508.21148v1
A Survey of Scientific Large Language Models: From Data Foun

本文转载自PaperAgent

已于2025-9-11 06:56:49修改
收藏
回复
举报
回复
相关推荐