
1052篇文献!上海AI Lab发布科学LLM综述:从数据基础到Agent前沿
通用大语言模型(LLM)在科学场景科学大语言模型(Sci-LLMs) “水土不服”——数据异构、跨尺度、强不确定性。
上海AI Lab主导,25家研究机构共同参入,几十位研究人员首次系统梳理 270+ 训练集、190+ 评测集,提出“科学数据分层框架”与“智能体闭环科研”新范式。
按六大学科分类的著名科学大语言模型(Sci-LLMs)时间线概览,涵盖 2019 年至 2025 年初。
科学数据统一分类法
层级 | 示例 | 对 LLM 的挑战 |
事实层 | 光谱曲线、测序读长 | 高噪声、单位不统一 |
理论层 | 薛定谔方程、周期表 | 符号化推理,需保证数学一致性 |
方法层 | 实验协议、代码脚本 | 步骤可执行、可复现 |
仿真层 | 分子动力学轨迹 | 跨尺度时序建模 |
洞察层 | 诺奖级假设 | 需跨领域类比与创造性 |
Fig-3 六大学科数据模态词云:文本、符号、图像、时间序列、多组学、结构化表格
表 II 给出 9 种数据源、8 种数据类型的精确定义,可直接拿来写数据管理计划。
模型:演进四部曲
Fig-2 四代范式:Transfer Learning → Scaling → Instruction → Agentic
阶段 | 代表模型 | 关键突破 |
Transfer | SciBERT | 领域继续预训练,GLUE-style 提升 3-5% |
Scaling | Galactica-120B | 科学文本+公式+代码混合,参数量破百亿 |
Instruction | SciGLM / HuatuoGPT-II | 百万级指令+RLHF,首次在 USMLE 上超人类 |
Agentic | ChemCrow / Coscientist | 闭环实验:LLM→API→机器人→结果→再训练 |
数据:270 数据集全景
Fig-19 预训练数据模态分布:学术文本 46% vs 实验原始信号 <3%
1 预训练“重灾区”
- 物理:90% 为理想仿真(Illustris、Boltshoi),真实 LIGO 波形不足 1 TB。
- 化学:SMILES 字符串高达 2.3 B,但 3D 坐标+光谱配对 < 0.1 B。
- 地球科学:MODIS、ERA5 影像多,却缺少“像素级语义标注”。
2 后训练“新趋势”
- Instruction-Tuning:从问答对→带 CoT 的推理链(Nemotron-Science 2.7 M)。
- 多模态 VQA:医学影像报告生成、遥感变化检测,GPT-4V 自动标注占比 > 80%。
表 IV 汇总 150+ 数据集大小、来源、自动标注工具,一键筛选可用资源。
评估:从“答题”到“开实验室”
Fig-23 三大基准难度对比:MMLU-Pro 80%↑ vs HLE 5%↓
新基准 | 任务形式 | 通过率 | 核心难点 |
ScienceAgentBench | 102 真实论文复现 | 33% | 需调用 10+ 工具、写代码、调参数 |
HLE (Humanity’s Last Exam) | 诺奖级问答 | 2–10% | 谷歌-proof,需多步推理+计算 |
MultiAgentBench | 多智能体协作 | 42% | 角色分工、冲突仲裁、共享记忆 |
数据“暗面”:三大系统性缺陷
Fig-27 数据生产-审核流水线:缺乏可追溯、实时更新、AI-Ready 标准
- Traceability Crisis:70% 仓库无版本链,实验条件、校准参数丢失。
- Data Latency:PubMed 平均 8 个月滞后,预印本缺少结构化 API。
- AI-Readiness Gap:原始 LIGO 文件需 7 步脚本才能变成 token,重复劳动占研究 30% 时间。
未来:三步走向“科学家智能体”
Fig-28 三阶段演化:数据基础设施→科学能力涌现→自主发现闭环
阶段 | 关键里程碑 | 技术抓手 |
I 数据 OS | 统一 MCP (Model Context Protocol) 接口 | 工具即插即用、权限沙箱 |
II 智能体 | Self-Evolving Agent | 实验-反馈-更新 Prompt & Tool |
III 闭环生态 | 机器生成数据反哺训练 | 区块链溯源+自动质量评分 |
https://arxiv.org/pdf/2508.21148v1
A Survey of Scientific Large Language Models: From Data Foun
本文转载自PaperAgent
