鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

面试题：大模型的FunctionCalling如何训练得到？

发布于 2025-5-8 06:32

浏览

0收藏

主要来说，Function Calling 的训练主要涉及数据构造、模型架构适配、多阶段微调等关键环节。

主要开源方案可以参考Llama3.1或者Qwen-Agent，基本上在Llama3的技术报告（ https://arxiv.org/pdf/2407.21783）中就可以知道FunctionCalling的实现路径。

以下是Llama3的技术报告里面如何用二阶段训练来提升Function Calling的准确性。

面试题：大模型的FunctionCalling如何训练得到？-AI.x社区

一、数据预处理

Llama3设计了一套多阶段数据筛选策略，通过质量评估与内容优化提升训练数据价值：

1. 主题分级体系

构建基于Llama 3 8B的层级分类系统，首先将数据划分为"数学推理"等宏观类别；
在顶层分类下建立细粒度子类别（如"几何与三角学"），形成树状知识结构。

2. 多维质量评估

混合评估模型：结合奖励模型(RM)与Llama质量判别器

通用文本：准确性、指令合规性、表达规范（三级评分）

编程数据：错误识别度、需求匹配度（二级评分）

RM筛选：保留评分前25%的高质量样本
智能质量检测：通过Llama 3进行多维度评估
采用联合筛选机制，保留至少一个评估体系认证的高质量样本

3. 难度量化建模

复杂性双因素评估：

意图密度分析(Instag)：通过Llama 3 70B标记对话意图数量

难度分级系统：基于三阶难度评分框架（简易/中等/复杂）

生成综合难度指标：意图数量 × 人工难度分级

4. 语义优化处理

特征聚类：采用RoBERTa构建对话语义向量空间
分级去重策略：

按质量×难度综合得分降序排列

动态相似度阈值过滤（余弦相似度<0.85）

贪婪选择算法保留最具代表性的样本

该方案通过质量-难度联合建模与语义空间优化，在保证数据多样性的前提下，显著提升训练数据的有效信息密度。

实证研究表明，该方法可使模型在复杂推理任务上的准确率提升17%，同时减少28%的训练收敛时间。

二、训练流程

构建数据集

主要是将函数名、参数类型、功能说明等以结构化文本输入模型（如JSON格式）。

[
  {"role": "user", "content": "查询北京明天天气"},
  {"role": "assistant", "tool_calls": [{"name": "get_weather", "arguments": {"location": "北京"}}]},
  {"role": "tool", "name": "get_weather", "content": "{\"temperature\": 22}"},
  {"role": "assistant", "content": "北京明天气温22℃"}
]

其中，tool这一层就是给大模型当做参数判断逻辑输入，模拟调度获取天气接口后返回最终结果。

二阶段训练

预训练阶段：模型在通用语料库上进行基础语言建模训练，未涉及工具调用能力；
后训练微调（Post-Training）：

合成数据生成：通过预训练模型生成包含函数调用的对话数据，例如模拟用户提问和对应的工具调用参数；

人工标注迭代：标注员逐步标注复杂场景，例如从单轮工具调用过渡到多轮交互，并加入异常参数处理样本（如无效参数、多工具选择等）。

三、训练方法

监督微调（SFT）

使用标注数据对模型进行指令微调，强化其对工具调用的格式理解和参数生成能力。（示例：模型输入包含工具定义的Prompt，输出需严格匹配函数名及参数格式。）

强化学习（RLHF/DPO）

对工具调用的准确性和结果整合能力进行偏好排序，例如标注员对模型的工具调用决策打分，优化模型生成质量。

多任务学习

同时训练模型完成常规对话和工具调用任务，避免单一任务过拟合。在报告中，Llama发现 PPO 没有 DPO 好，所以只用了 DPO，在preference data 中，有5.89%是和reasoning以及tool相关的。面试题：大模型的FunctionCalling如何训练得到？-AI.x社区

本文转载自沐白AI笔记，作者：杨沐白

标签

FunctionCalling

赞

收藏

回复

举报

回复

相关推荐

如何靠AI变身“六边形战士”｜得到快刀青衣&中国AIGC产业峰会

Crystalcxt • 5235浏览 • 0回复
大模型所谓的参数是什么？大模型为什么需要训练？大模型训练到底干了什么？

AI探索时代 • 8513浏览 • 0回复
大模型训练完成之后可以直接使用吗？该怎么使用训练好的大模型？

AI探索时代 • 6555浏览 • 0回复
如何优化PyTorch以加快模型训练速度？

51CTO内容精选 • 4036浏览 • 0回复
大模型的核心之一——大模型预训练之数据预处理

AI探索时代 • 6409浏览 • 0回复
GPU和CPU如何混合训练？大模型训练的GPU联手CPU显存优化分析方法

angel • 6117浏览 • 0回复
大模型训练集群的存储设计

夜行神鱼 • 4312浏览 • 0回复
关于大模型微调与训练的问题，大模型训练的难点在哪里？

AI探索时代 • 3533浏览 • 0回复
大模型训练的本质是什么？以及大模型训练的核心要点

AI探索时代 • 3989浏览 • 0回复
大模型面试实战！Prompt调优

ermulong • 4107浏览 • 0回复
云计算与大模型训练的结合

AI探索时代 • 3103浏览 • 0回复
阿里面试惊现难题：大模型服务吞吐率太小咋整？

丁师兄大模型 • 2880浏览 • 0回复
大模型训练之训练数据准备，即怎么准备高质量的训练数据集？

AI探索时代 • 5214浏览 • 0回复
DeepSeek 爆了，普通人如何3小时完全从0训练自己的大模型

玄姐聊AGI • 9514浏览 • 0回复
强化学习与大模型后训练：DeepSeek R1 如何获得推理能力？

lintoms • 6087浏览 • 0回复
4000+实验揭秘：如何在512个GPU上训练大语言模型？

sbf_2000 • 3489浏览 • 0回复
Python面试题大合集！数据分析师必看的60道经典题目

Halo咯咯 • 3117浏览 • 0回复
全球首个去中心化训练的32B参数大模型：INTELLECT-2如何重塑AI训练范式

顿数AI • 3137浏览 • 0回复
大模型推理的"慢思考"：训练数据如何决定模型的思维深度

sbf_2000 • 451浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

一文简单理解KNN最近邻算法 2025-07-21 07:11:30发布
一文讲透深入理解逻辑回归 2025-06-17 06:35:55发布

热门推荐

Qwen3-Omni-30B-A3B-Instruct 部署实战保姆及教程（图片、语音、视频全模态识别） 0回复

阿里通义重磅开源 DeepResearch：让 AI 具备 “人类级研究能力” 的技术架构全景解析 0回复

2025年五大本地大模型，程序员必看！ 0回复

Cursor 1.3 ~ 1.6 版本更新全梳理：终端不再挂、Agent 更聪明、上下文更可控 0回复

阿里新一代企业级多 AI 智能体开发框架 AgentScope 技术架构全解析 0回复

上一篇： ControlNet作者：视频生成论文Frameback，超低显存生成高质量视频，ComfyUI必备组件！

下一篇： AdaptiVocab：使用轻量级框架自适应降低LLM Token数！

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载