VLM进行上下文长度扩展和压缩;长文本多模型集成框架
DeepAnalyze: Agentic Large Language Models for Autonomous Data Science
2025-10-19|RUC, THU|🔺52
http://arxiv.org/abs/2510.16872v1
https://huggingface.co/papers/2510.16872
https://github.com/ruc-datalab/DeepAnalyze
研究背景与意义

- 背景简述
当前数据科学领域追求实现从数据源到分析报告的全流程自动化,即“自主数据科学”。这一目标旨在减少人工干预,提高数据处理和洞察的效率与质量。然而,传统方法多依赖预定义工作流,难以应对复杂、多阶段且多样化的结构化数据任务。
- 意义阐明
解决这一难题不仅能够显著提升数据科学的自动化水平,还能推动开放式数据研究的发展,满足更高层次的分析需求。通过赋予大语言模型(LLMs)具备自主编排和自适应优化能力,可实现跨任务、跨阶段的智能数据处理,推动数据科学进入新的智能化时代。
研究方法与创新




- 技术描述
本文提出了DeepAnalyze-8B,一种基于代理训练范式的端到端大语言模型,专门设计用于自主执行复杂数据科学任务。该模型通过模拟人类数据科学家的学习轨迹,采用课程化训练策略,逐步习得数据准备、分析、建模、可视化及报告生成等多项能力。
- 创新点突出
a.代理训练范式:引入agentic训练框架,使模型能够在真实环境中自主规划和执行多阶段任务,提升任务的整体协同性和执行效率。
b.数据驱动的轨迹合成:设计了基于高质量训练数据的轨迹合成方法,保证训练过程的连贯性和多样性,增强模型泛化能力。
c.自主编排与自适应优化能力:模型不仅能理解用户意图,还能动态调整执行策略,基于环境反馈迭代优化行动,突破传统LLM在结构化数据任务中的局限。
d.轻量级高效:仅用8B参数规模,即实现了较大模型的性能,降低了部署和应用门槛。
- 理论基础讨论
该方法融合了强化学习、模仿学习和大语言模型的预训练优势,构建了一个能够持续学习和适应复杂多变数据任务的智能系统,理论上支持从特定任务向通用数据科学能力的迁移。
实验设计与结果分析


- 实验设计
通过多场景数据科学任务测试,包括数据准备、分析问答、建模评估及开放式研究任务,全面验证DeepAnalyze-8B的能力。对比对象涵盖当前主流的基于工作流的自动化数据分析代理及部分大型专有LLMs。
- 结果分析
实验结果显示,DeepAnalyze-8B在准确性、任务完成度及多任务适应能力上均显著优于对比模型。其在开放式数据研究中的表现尤为突出,能够生成高质量、分析深刻的研究报告。
- 统计显著性
通过多次重复实验,结果具有统计学显著性,证明模型的稳定性和可靠性。
- 多场景表现
该模型在不同数据结构和任务复杂度下均表现出良好的泛化能力,显示出强大的实用价值和推广潜力。
结论与展望
- 总结贡献
本文成功提出并实现了首个面向自主数据科学的agentic大语言模型DeepAnalyze-8B,突破了传统LLM在结构化数据多阶段任务中的瓶颈,实现了从数据源到分析报告的全流程自动化。公开开源模型和数据,为后续研究提供了宝贵资源。
- 局限分析
尽管性能优异,但模型仍受限于训练数据覆盖范围和环境复杂度,部分极端或高度专业化任务尚需人工干预或进一步优化。
- 方法展望
未来工作将聚焦于增强模型的跨领域适应性、引入更丰富的反馈机制及多模态数据处理能力,进一步推动自主数据科学向更高智能化和泛化方向发展。
本文转载自AI研究前瞻,作者:胡耀淇

















