鸿蒙开发者社区

公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

技术总结 | 十分钟了解机器如何识别一只猫？

周末程序猿

发布于 2025-9-10 00:21

浏览

0收藏

尽管多模态大模型已广泛应用于各个领域，但计算机到底是如何识别一只猫的？最近阅读了一篇文章（https://www.quantamagazine.org/how-can-ai-id-a-cat-an-illustrated-guide-20250430/），内容容易理解，总结如下。

一个简单的分类器

假设在同一个坐标系中存在三角形和方形，如下图：

技术总结 | 十分钟了解机器如何识别一只猫？-AI.x社区

如果要将这两个类型分开，就需要一条分界线，但是如何知道这条分界线？传统的机器学习可以通过 SVM，计算一条与刚好两个分类的各个点上距离和最小的一条边界线即可。另一种方法就是通过神经网络，根据已知的数据找到边界。

神经元

神经网络的基本单元是神经元，在计算机中就是一个数学函数，类似：y = f(x1，x2，...)，存在多个输入的数据，然后输出一个值。现在让我们来看看输入和输出之间的关系，下面的三幅图展示了具有三组不同参数的神经元，在每种情况下，随着输入的变化，它们会跨越一个边界，神经元的输出会在这个边界上迅速从 0 上升到 1，在这些图中，边界始终是一条直线，参数决定了这条线的位置和角度。

技术总结 | 十分钟了解机器如何识别一只猫？-AI.x社区

训练

为了创建一个分类器，告诉我们一个新点应该位于正方形状态还是三角形区域，我们需要优化这条边界线，使其准确地表示两个区域之间的边界。在这里，如果输出接近于 0，我们就说一个点位于正方形状态；如果输出接近于 1，我们就说一个点位于三角形区域。为了优化这条边界线，我们需要通过一个叫做“训练”的过程来调整神经元的参数，第一步是将参数设置为随机值，这意味着神经元的初始边界线看起来与实际边界完全不同。

技术总结 | 十分钟了解机器如何识别一只猫？-AI.x社区

在训练过程中，我们将每个已知数据点的经度和纬度输入到神经元的输入中，神经元会根据其当前参数输出一个输出，然后将该输出与真实值进行比较，有时，它会得到正确的答案。每当神经元得到错误答案时，自动算法就会稍微调整神经元的参数，使边界更接近错误点。

技术总结 | 十分钟了解机器如何识别一只猫？-AI.x社区

神经网络

单个神经元效果很好，但这仅仅是因为三角领地和方形之间的真实边界接近直线，对于更复杂的任务，我们需要使用由许多相互连接的神经元组成的集合——神经网络。

技术总结 | 十分钟了解机器如何识别一只猫？-AI.x社区

如图所示，神经网络是多个神经元组成，与单个神经元相比，神经网络拥有更多的参数，一个神经元可能是2个参数，但是多层神经网络一一组合就可能超过 100 万个参数，这些参数不断拟合你需要分类的边界。

从三角形和正方形分类问题到识别猫

三角形和正方形分类问题和猫有什么不同呢？三角形正方形坐标是可以看成两个维度（例如：(1,2),(3,10)），但是猫是照片，那么猫的照片的每个像素格就是一个维度（50x50），将二维输入转换为2500维输入：

技术总结 | 十分钟了解机器如何识别一只猫？-AI.x社区

然后将猫的归一化的像素格作为 input 输入神经网络，让权重参数用大量的输入数据做拟合，只要有足够的数据点，我们就可以训练一个大型网络来区分猫和非猫。

技术总结 | 十分钟了解机器如何识别一只猫？-AI.x社区

所有猫照片都位于 2500 维空间中某个复杂的区域。训练算法会反复调整网络参数，直到找到这个无法可视化的区域的边界，经过训练的网络就能正确分类训练数据中没有的新图像。

技术总结 | 十分钟了解机器如何识别一只猫？-AI.x社区

参考

（1）https://www.quantamagazine.org/how-can-ai-id-a-cat-an-illustrated-guide-20250430/

本文转载自周末程序猿，作者：周末程序猿

标签

已于2025-9-10 09:42:14修改

赞

收藏

回复

举报

回复

相关推荐

硬控设计人一分钟，加持大模型的Adobe，PS起来更香了

轻薄滴假象 • 3567浏览 • 0回复
4分钟MV震惊网友，圆梦十年前idea

duhorse • 3475浏览 • 0回复
谷歌发布Veo：文生超1分钟、1080P视频，媲美Sora

Aceryt • 5735浏览 • 0回复
支持合成一分钟高清视频，华科等提出人类跳舞视频生成新框架UniAnimate

轻薄滴假象 • 3928浏览 • 0回复
视频续写可达3分钟让全球网友炸锅

duhorse • 5816浏览 • 0回复
3分钟零代码打造自己的量化选股机器人

开发者阿橙 • 9793浏览 • 0回复
一分钟教你学会ai文生图

行走的小非 • 5652浏览 • 0回复
手把手教你十分钟制作一个海报生成图像流，从此远离海报设计烦恼。

wsp_ping • 5788浏览 • 0回复
一文带你了解机器学习

宝宝数模AI • 3182浏览 • 0回复
COZE应用：3分钟用字节“扣子”打造股票AI分析工作流

风云2002_1 • 7283浏览 • 0回复
人脸识别，你真的了解吗?

zhcs333 • 5078浏览 • 0回复
DeepSeek简明解析，10分钟速通DeepSeekV1~V3核心技术点！

海因斯DK • 1.2w浏览 • 0回复
10分钟让WPS接入DeepSeek，实现AI赋能

AI取经路 • 6940浏览 • 0回复
Trae + Dify 10分钟构建 Data McpServer 与 Agent ，和 Excel 说再见！

九歌AI大模型 • 7216浏览 • 0回复
Markdown + AI = 效率神器：10分钟就能学会的大模型文本格式！

九歌AI大模型 • 7177浏览 • 0回复
五分钟读懂Manus平替：深度解析OpenManus 如何重新定义Multi Agent?

AI博物院 • 7671浏览 • 0回复
只需5分钟，教你用Python搭建MCP Server

小虎哦哦 • 1.4w浏览 • 0回复
使用测试时间训练（TTT）生成一分钟视频

51CTO内容精选 • 2293浏览 • 0回复
Python+FAISS：五分钟打造一个RAG系统

PyTorch研习社 • 977浏览 • 0回复

周末程序猿

这个用户很懒，还没有个人简介

帖子

声望

粉丝

关注

最近发布

机器学习 | 大模型为什么会出现"幻觉"？ 2025-09-22 07:03:48发布
谈谈Vibe编程（氛围编程） 2025-09-10 00:22:38发布

热门推荐

阿里新一代企业级多 AI 智能体开发框架 AgentScope 技术架构全解析 0回复

代码41%由AI生成！2025七大编程工具深度对比，你的选择是？ 0回复

DeepSeek 成长史：从量化投资到 AI 革命的一个 “非主流” 量化大佬的 AI 梦 0回复

Qwen3-Omni-30B-A3B-Instruct 部署实战保姆及教程（图片、语音、视频全模态识别） 0回复

告别Claude代码降智！OpenAI Codex深度配置与避坑指南（附完整AGENTS.md） 0回复

上一篇：《Google Prompt Engineering》白皮书

下一篇：谈谈Vibe编程（氛围编程）

社区精华内容

目录

Copyright © 2005-2025 51CTO.COM 京ICP证060544版权所有未经许可请勿转载