机器学习交叉验证：模型的“多场景考试”

FairyGirlhub

发布于 2025-6-11 07:00

浏览

0收藏

在机器学习中，交叉验证是一种非常重要的模型评估方法，它就像是给模型进行“多场景考试”，确保模型在不同的数据上都能表现良好。

今天，我们就用最通俗易懂的方式来讲解交叉验证，帮助你更好地理解这个概念。

No.1交叉验证是什么？

想象你是一个厨师，你开发了一道新菜，想让朋友尝尝好不好吃。如果你只让一个朋友试吃，可能他的口味太独特，评价不一定客观。

所以，你可能会：

多找几个朋友试吃（用不同数据测试模型）。
让朋友轮流试吃不同的菜（用不同组合的数据训练和测试模型）。

这就是交叉验证的核心逻辑——避免偶然性，得到更可靠的结果。

交叉验证的基本原理

交叉验证法的核心是将数据集分成训练集（用于训练模型）和测试集（用于评估模型）。

机器学习交叉验证：模型的“多场景考试”-AI.x社区图片

但与简单的一次性划分不同，交叉验证会多次划分数据，每次用不同的数据组合来训练和测试模型，最终综合多次结果来评估模型性能。

No.2常见的交叉验证方法

1. K折交叉验证（K-Fold Cross-Validation）

K折交叉验证是最常用的交叉验证方法之一。它将数据集分成K个部分，每次用一个部分作为测试集，其他K-1个部分作为训练集，重复K次，最后取平均效果。

机器学习交叉验证：模型的“多场景考试”-AI.x社区图片

假设你有10个苹果，要测试哪个苹果最甜。你把这10个苹果分成10组（K = 10），每次拿1个苹果出来尝（测试集），剩下的9个苹果用来比较（训练集），这样尝10次，就能更准确地知道哪个苹果最甜了。

优点是能充分利用数据，评估结果更稳定可靠；缺点是计算量相对较大，尤其是当K值较大或者数据集很大的时候。

2. 留一法交叉验证（Leave-One-Out Cross-Validation, LOOCV）

这是K折交叉验证的一个特例，当K等于数据集的大小时，就变成了留一交叉验证。

也就是说，每次只留下一个样本作为测试集，剩下的所有样本作为训练集，进行与数据集大小相同次数的训练和测试。

机器学习交叉验证：模型的“多场景考试”-AI.x社区图片

还是那10个苹果，这次你每次只尝1个苹果（测试集），剩下的9个苹果用来比较（训练集），要尝10次，虽然结果很准确，但太费时间了。

优点是能最大程度地利用数据，评估结果非常准确；缺点是计算量极大，当数据集很大的时候，几乎无法实现。

3. 自助法（Bootstrap）

自助法是一种通过随机抽样来评估模型性能的方法。它从数据集中随机抽取一部分数据（可以重复抽样），用这部分数据作为训练集，剩下的数据作为测试集。

机器学习交叉验证：模型的“多场景考试”-AI.x社区图片

就像从装有10个小球的袋子里，每次随机抽一个小球并放回，重复10次。没被抽到的小球作为测试集。多次重复后，虽能大致了解小球颜色分布，但可能有偏差，因为有些小球可能被多次抽到，有些则未抽到。

优点是适用于小数据集，能生成多个训练集，有助于评估模型稳定性。缺点是改变了原始数据分布，可能引入偏差，因为部分样本可能重复使用，部分样本未被使用。

No.3如何选择归一化或标准化？

💻 准备数据：收集并整理好用于模型训练和评估的数据集。

📑 划分数据：将数据集平均分成 K 份，确保每份数据的大小和分布大致相同。

机器学习交叉验证：模型的“多场景考试”-AI.x社区图片

训练和测试循环：

第一次：选择第 1 份作为测试集，其余 K - 1 份作为训练集，训练模型并在测试集上进行评估，记录评估指标（如准确率、均方误差等）。
第二次：选择第 2 份作为测试集，其余作为训练集，重复训练和评估过程，记录指标。
……
第 K 次：选择第 K 份作为测试集，其余作为训练集，完成训练和评估，记录指标。

综合评估：将 K 次测试得到的评估指标取平均值，作为模型的最终评估结果。

本文转载自Fairy Girl，作者：Fairy Girl

标签

机器学习

模型

多场景

已于2025-6-11 07:28:46修改

相关推荐

拥挤场景中基于深度学习的目标检测

mb61e52f0ac174a • 3809浏览 • 0回复
Python轴承故障诊断 | 多尺度特征交叉注意力融合模型

Tang_Lan • 7555浏览 • 0回复
排序模型一定要尝试的特征交叉技巧，多场景验证有效

海因斯DK • 7334浏览 • 0回复
ClutterGen：用于机器人学习的杂乱场景生成器

AIGC最前线 • 3641浏览 • 0回复
排序模型一定要尝试的特征交叉技巧，多场景验证有效

海因斯DK • 3518浏览 • 0回复
【机器学习】图解线性回归

鱼虫子 • 3367浏览 • 0回复
【机器学习】图解多重线性回归

鱼虫子 • 2842浏览 • 0回复
基于关系型深度学习的自助机器学习

51CTO内容精选 • 3015浏览 • 0回复
一文了解11种最常见的机器学习算法应用场景

石映飞云 • 7392浏览 • 0回复
如何在组织中启用机器学习

51CTO内容精选 • 2640浏览 • 0回复
一文带你了解机器学习

宝宝数模AI • 2813浏览 • 0回复
机器学习|从0开始大模型之位置编码

周末程序猿 • 2794浏览 • 0回复
机器学习|从0开始大模型之模型DPO训练

周末程序猿 • 3104浏览 • 0回复
新的训练范式可以防止机器学习模型学习虚假相关性

51CTO内容精选 • 2326浏览 • 0回复
机器学习 | 从0开发大模型之DeepSeek的GRPO

周末程序猿 • 3307浏览 • 0回复
原来机器学习这么简单—线性回归

宝宝数模AI • 2759浏览 • 0回复
机器学习|从0开发大模型之复现DeepSeek的aha moment

周末程序猿 • 3138浏览 • 0回复
机器学习｜MCP（Model Context Protocol）实战

周末程序猿 • 3691浏览 • 0回复
大模型时代下数据挖掘/数据的机器学习还有场景吗？

风云2002_1 • 1675浏览 • 0回复

FairyGirlhub

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

51CTO

51CTO博客

51CTO学堂

机器学习交叉验证：模型的“多场景考试”

No.1交叉验证是什么？

交叉验证的基本原理

No.2常见的交叉验证方法

1. K折交叉验证（K-Fold Cross-Validation）

2. 留一法交叉验证（Leave-One-Out Cross-Validation, LOOCV）

3. 自助法（Bootstrap）

No.3如何选择归一化或标准化？

目录