鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

开局一把牌，怎么都能打 | 神经网络从“白痴”训练到“专家”水平，其参数并没有太大的变化

发布于 2025-6-23 07:28

浏览

0收藏

这两天重读了一篇很有趣的论文，《Effect of the initial configuration of weights on the training and function of artificial neural networks》（ https://arxiv.org/pdf/2012.02550 ）。它非常直白的展示了人工神经网络训练过程中的初始权重配置对网络功能和性能的影响。

通俗来讲，神经网络就像是一台复杂的机器，它内部有很多“开关”（也就是权重），这些开关从一开始就有随机的初始设置。在训练过程中，这些开关的设置会一点一点调整，目标是让网络最终能够给出尽量准确的输出。

作者通过分析发现，在使用常见的训练方法（SGD/AdamW等）时，网络的最终状态通常不会离初始设置太远。这就好比网络的学习是在“微调”初始状态，而不是完全重置或重新安排所有开关。

训练算法通常不需要走到离初始设置太远的地方，在初始设置的周围就能找到理想的解。

受论文思路的启发，我做了一个实验，来观察上述现象。( 详细完整的代码在 https://github.com/zhangfaen/effect-of-the-initial-configuration-of-weights )。

我们定义一个简单的多层神经网络。

开局一把牌，怎么都能打 | 神经网络从“白痴”训练到“专家”水平，其参数并没有太大的变化-AI.x社区

其中nn.Linear(128, 128)这个参数矩阵，是随机初始化的。我们制作一个分辨率图片是128*128的图片，图片中我们故意放了一个水印（“中”）字。

开局一把牌，怎么都能打 | 神经网络从“白痴”训练到“专家”水平，其参数并没有太大的变化-AI.x社区

图1

然后，我们把这个图片叠加到nn.Linear(128, 128)这个参数矩阵中。

开局一把牌，怎么都能打 | 神经网络从“白痴”训练到“专家”水平，其参数并没有太大的变化-AI.x社区

我们把这个参数矩阵当一个图片看的话，会是这个样子：

开局一把牌，怎么都能打 | 神经网络从“白痴”训练到“专家”水平，其参数并没有太大的变化-AI.x社区

图2

然后，我们用著名的手写字符识别数据集来训练这个模型。

开局一把牌，怎么都能打 | 神经网络从“白痴”训练到“专家”水平，其参数并没有太大的变化-AI.x社区

训练完成后，我们再用图片的方式看一下nn.Linear(128, 128)这个参数矩阵，如图3。

开局一把牌，怎么都能打 | 神经网络从“白痴”训练到“专家”水平，其参数并没有太大的变化-AI.x社区

图3

可以看到，模型从最初的8.92%准确率（就是随机猜的准确率），到95.77%的准确率，nn.Linear(128, 128)这个参数矩阵居然没有什么大的变化（看图2 和图3）。

下面的图中第1行，10个“中”字，表示训练过程10个epoch中，这个nn.Linear(128, 128)这个参数矩阵的整体数值如何在变（其实没怎么变）

开局一把牌，怎么都能打 | 神经网络从“白痴”训练到“专家”水平，其参数并没有太大的变化-AI.x社区

所以，一个深度神经网络模型，初始参数配置不管怎样，从“白痴”训练到“专家”水平，其实其内部参数并没有太大的变化。是不是有点 “朽木皆可雕也” 或者 “开局一把牌，怎么都能打”的意思？

再感受一下论文中的图和一个论述，启发且有趣

开局一把牌，怎么都能打 | 神经网络从“白痴”训练到“专家”水平，其参数并没有太大的变化-AI.x社区

本文转载自后向传播，作者：张发恩

标签

已于2025-6-23 10:35:52修改

赞

收藏

回复

举报

回复

相关推荐

ICLR 2024 Oral｜用巧妙的「传送」技巧，让神经网络的训练更加高效

轻薄滴假象 • 3340浏览 • 0回复
神经网络的通用训练流程

AI探索时代 • 4240浏览 • 0回复
你知道神经网络是怎么运作的吗？神经网络内部原理解析

AI探索时代 • 3896浏览 • 0回复
手把手从零构建神经网络

Syrupup • 3303浏览 • 0回复
什么是神经网络—终于把梯度下降搞明白了！

人工智能训练营 • 3409浏览 • 0回复
什么是神经网络-终于把神经网络参数更新搞明白了！

人工智能训练营 • 2896浏览 • 0回复
什么是神经网络？神经网络开发框架——PyTorch和架构Transformer的区别和联系

AI探索时代 • 4214浏览 • 0回复
神经网络是怎么学习的？

AI探索时代 • 2884浏览 • 0回复
怎么学习设计和训练一个大模型——也就是神经网络？

AI探索时代 • 2888浏览 • 0回复
关于神经网络的输入格式——数据集的处理，关于神经网络模型的结构说明

AI探索时代 • 3593浏览 • 0回复
关于神经网络的一些思考与感受

AI探索时代 • 2722浏览 • 0回复
什么是神经网络-终于把神经网络参数更新搞明白了反向传播详解

人工智能训练营 • 3349浏览 • 0回复
从一个简单的神经网络模型开始

AI探索时代 • 2818浏览 • 0回复
怎么实现一个神经网络？神经网络的组成结构

AI探索时代 • 3259浏览 • 0回复
不同神经网络之间的区别，仅仅只是网络结构的不同，明白了这个你才能知道应该怎么学习神经网络

AI探索时代 • 3112浏览 • 0回复
神经网络的每一层都是干嘛的？这才是神经网络结构的核心

AI探索时代 • 2994浏览 • 0回复
什么是神经网络-循环神经网络RNN各层详解及实例展示

人工智能训练营 • 4306浏览 • 0回复
什么是神经网络：反向传播如何更新网络参数

人工智能训练营 • 2259浏览 • 0回复
神经网络模型各个网络层的参数设计原则

每天五分钟玩转人工智能 • 63浏览 • 0回复

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

特定条件下，LoRA可以媲美全量微调 | 十个要点 2025-10-15 00:24:40发布
如何理解DeepSeek-V3.2-Exp的稀疏注意力机制 | 官方报告里没提的一些技术细节 2025-10-15 00:16:38发布

热门推荐

阿里新一代企业级多 AI 智能体开发框架 AgentScope 技术架构全解析 0回复

代码41%由AI生成！2025七大编程工具深度对比，你的选择是？ 0回复

DeepSeek 成长史：从量化投资到 AI 革命的一个 “非主流” 量化大佬的 AI 梦 0回复

Qwen3-Omni-30B-A3B-Instruct 部署实战保姆及教程（图片、语音、视频全模态识别） 0回复

DeepSeek团队开源新模型DeepSeek-OCR，用3B参数量实现10倍文本压缩的多模态突破 0回复

上一篇：聊聊背后的技术 | AI+生物 | 突破进展，世界上首次开发出“为一人定制”的CRISPR基因编辑体内治疗药物

下一篇：好马配好鞍，好模配指南 | Claude 4发布了，业界反响很好，其行为指南“系统提示词”也被全文公开

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载