智驻未来
LV.3
每天分享有趣的科技论文、消息,看未来如何?
声望 242
关注 0
粉丝 2
私信
主帖 24
回帖
今天,看到了一些名词——具身智能、VLM和VLA,来跟大家唠唠。放心,我保证用大白话,把这事儿说透。具身智能是啥?首先,说下具身智能。说具身智能大家可能有点懵,但要说到人形机器人,大家可能就熟悉了。今年春晚的人形机器人跳舞,可谓是让人形机器人火爆出圈。回到正题,简单说,具身智能就是机器有了身体,能像咱们人一样,在环境里感知、思考、行动。想象一下,一个机器人不仅能用眼睛(摄像头)看东西,还能用手(机械...
9天前 1233浏览 0点赞 0回复 0收藏
世界模型的定义世界模型是一种能够对现实世界环境进行仿真,并基于文本、图像、视频和运动等输入数据来生成视频、预测未来状态的生成式AI模型。它整合了多种语义信息,如视觉、听觉、语言等,通过机器学习、深度学习和其他数学模型来理解和预测现实世界中的现象、行为和因果关系。简单来说,世界模型就像是AI系统对现实世界的“内在理解”和“心理模拟”。它不仅能够处理输入的数据,还能估计未直接感知的状态,并预测未来状态...
9天前 903浏览 0点赞 0回复 0收藏
在大语言模型(LLMs)的发展历程中,「规模效应」始终是性能提升的核心驱动力。从GPT3的1750亿参数到GPT4的万亿级架构,模型通过海量文本的「下一个token预测」任务(NTP)学习语言规律,但这种纯粹的自监督训练逐渐暴露出局限性:模型更擅长「记忆」而非「推理」,面对复杂问题时容易陷入「模式匹配」而非逻辑推导。与此同时,强化学习(RL)在对齐人类偏好(如RLHF)和提升推理能力上展现潜力,但传统RL依赖昂贵的人工标注或...
2025-06-18 07:04:10 1007浏览 0点赞 0回复 0收藏
1.数据并行1.1数据并行的定义与原理数据并行是一种常见的并行计算策略,它通过将数据集分割成多个子集,然后在多个处理器或计算节点上并行处理这些子集来加速计算过程。每个处理器或节点处理的数据子集是整个数据集的一部分,它们独立地执行相同的计算任务,最终将结果汇总以得到全局结果。在深度学习中,数据并行通常用于训练大规模神经网络。例如,在训练一个图像分类模型时,可以将训练数据集分割成多个小批量(minibatch)...
2025-06-06 06:54:13 1347浏览 0点赞 0回复 0收藏
在深度学习的分布式训练中,如何高效地同步梯度并更新模型参数,一直是困扰研究人员的关键问题。AllReduce操作以其高效、去中心化的特性,成为了分布式训练中的“同步神器”。本文将深入剖析AllReduce的工作原理、实现步骤以及其在深度学习中的应用场景,带你一探究竟,解锁分布式训练的高效秘诀!一、AllReduce的定义AllReduce是一种集体通信操作,用于在多个进程(或设备)之间高效地聚合数据,并将聚合后的结果广播给所有进...
2025-06-06 06:36:54 806浏览 0点赞 0回复 0收藏
图片近年来,人工智能领域在多模态学习方面取得了显著进展,相关模型能够理解和关联图像与文本等不同数据类型的信息。OpenAI的CLIP(对比语言图像预训练)和Google的SigLIP(语言图像预训练的Sigmoid损失函数)是其中最具影响力的成果。这些模型革新了机器对视觉和文本信息的解读与关联方式,使得从图像分类到零样本学习等各类应用成为可能。本文将对CLIP和SigLIP的架构、训练范式及关键差异进行剖析。1.CLIP:对比语言图像预训...
2025-05-23 06:57:27 3208浏览 0点赞 0回复 0收藏
目前,Transformer模型展现出了强大的性能。而了解Transformer模型的参数量对于评估模型的规模、复杂度以及计算资源需求等具有重要意义。下面将详细阐述如何计算Transformer模型的参数量。一、Transformer模型的基本结构回顾Transformer模型主要由编码器(Encoder)和解码器(Decoder)组成。其中,编码器包含多个相同的层级,每个层级包括多头自注意力机制(MultiHeadSelfAttention)和前馈神经网络(FeedForwardNeuralNetwork...
2025-05-12 00:24:16 1256浏览 0点赞 0回复 0收藏
从智能对话到图像生成,从文本创作到数据分析,大模型的应用场景无处不在。然而,对于初入大模型领域的小白来说,面对众多的专业术语和复杂的概念,可能会感到无从下手。别担心,本文为你整理了大模型基础知识点近100个名词解释,助你轻松开启大模型的学习之旅!一、模型架构与基础概念1.LLM(大语言模型,LargeLanguageModel)基于海量文本数据训练的深度学习模型,如GPT系列、BERT等,能够理解和生成自然语言文本,完成复杂对...
2025-05-12 00:09:58 1836浏览 0点赞 0回复 0收藏
如果有人问目前最火的基础模型是啥?那我一定回答是Transformer模型。Transformer模型自2017年提出以来,一直深受大家喜欢,其架构主要分为三种变体:DecoderOnly、EncoderOnly和EncoderDecoder,每种变体都有其独特的特点和应用场景。一、仅编码器架构(Encoderonly)1.1工作流程仅编码器架构的工作流程如下:嵌入层处理:对输入文本的每个单词或标记进行处理。将每个单词或标记映射到一个固定维度的向量空间中,形成初始的词...
2025-05-09 06:37:43 2714浏览 0点赞 0回复 0收藏
当下,大模型微调成为了备受关注的焦点之一。然而,对于大模型微调是否具有技术含量以及技术含量的大小,业内存在着不同的声音。本文将从多个维度,结合具体数据,深入探讨大模型微调的技术含量。一、数据质量:技术含量的第一道分水岭微调的核心逻辑是‌用特定数据雕刻模型能力‌,但数据质量直接决定成败:低技术含量做法‌:直接套用现成开源数据(如Alpaca格式),仅能生成“正确但平庸”的回答;高技术含量实践‌:1.通过...
2025-04-25 06:11:14 1220浏览 0点赞 0回复 0收藏
从图像识别到自然语言处理,这些模型正逐渐打破模态之间的壁垒,展现出前所未有的潜力。今天,我们将深入探讨CLIP、BLIP系列、LLaVA、miniGPT4和InstructBLIP这些热门多模态大模型,通过对比它们的架构、性能、应用场景和优缺点,为你揭示它们各自的特点和未来的发展方向。究竟是哪一款模型能够在多模态领域脱颖而出?让我们一探究竟!1.CLIP模型1.1核心架构与训练方法CLIP(ContrastiveLanguage–ImagePretraining)是由OpenAI...
2025-04-25 06:08:10 2287浏览 0点赞 0回复 0收藏
图片今天咱们来唠唠那些听起来高大上、实则超实用的注意力机制:MHA、MQA、GQA和MLA。是不是光看这些缩写就头大了?别怕,我这就带你一文看懂它们的原理和计算公式,让你轻松掌握这些前沿技术1.MHA(MultiHeadAttention)1.1原理与公式多头注意力机制(MHA)是Transformer架构的核心组成部分,其原理是将输入数据通过不同的“头”进行多次注意力计算,然后将这些计算结果拼接起来,再通过一个线性变换得到最终的输出。这种机制...
2025-04-14 01:26:56 2783浏览 0点赞 0回复 0收藏
BertViz的核心功能注意力矩阵可视化BertViz通过交互式的注意力矩阵视图,展示了模型在处理文本时各个层和注意力头的权重分布。用户可以直观地看到模型如何捕捉单词之间的上下文关系。多视图模式HeadView:可视化同一层中一个或多个注意力头的注意力模式,帮助分析单个注意力头的行为。ModelView:提供跨所有层和注意力头的全局视图,展示注意力分布的整体情况。NeuronView:可视化单个神经元的查询和键向量,揭示其在计算注意力...
2025-04-14 01:20:15 1641浏览 0点赞 0回复 0收藏
随着GPT4O生图的横空出世,图像生成领域再次掀起了巨浪。许多人猜测其背后运用了自回归模型,那么自回归模型究竟是什么?它与扩散模型生图又有何不同?今天,就让我们深入探讨这两种模型的奥秘,一窥它们在图像生成领域的优势与局限,看看谁才是未来图像生成的真正王者!1.自回归模型概述1.1定义与原理自回归模型(AutoregressiveModel,简称AR模型)是一种用于时间序列分析和预测的统计模型。它假设当前值与之前若干个值存在线...
2025-04-01 01:14:43 2432浏览 0点赞 0回复 0收藏
在人工智能领域,尤其是深度学习中,注意力机制已经成为一种不可或缺的技术,它赋予了模型类似人类的“聚焦”能力,让模型能够从海量信息中筛选出关键部分进行处理。今天,我们就来深入探讨一下15种常见的注意力机制,帮助大家更好地理解它们的特点和应用场景。1.软注意力(确定性注意力)软注意力机制是一种确定性的注意力分配方式。它会给输入数据的每个部分都分配一个权重,这些权重通过某种可学习的函数计算得出,通常是基...
2025-03-20 07:51:46 3769浏览 0点赞 0回复 0收藏
Transformer的关键组件之一是位置嵌入。你可能会问:为什么呢?因为Transformer中的自注意力机制是排列不变的;这意味着它计算输入中每个标记从序列中其他标记接收的注意力程度,但它没有考虑标记的顺序。实际上,注意力机制将序列视为一个标记集合。因此,我们需要另一个称为位置嵌入的组件,它可以考虑标记的顺序,并对标记嵌入产生影响。但是,位置嵌入有哪些不同类型,它们又是如何实现的呢?在本文中,我们将研究三种主要...
2025-03-10 00:00:12 3703浏览 0点赞 0回复 0收藏
‌家人们谁懂啊‌!DeepSeek连续两天向AI圈扔出炸弹后,今天又甩出一个王炸——‌DeepGEMM‌!这玩意儿简直可以称作一键榨干显卡性能,让算法速度原地芜湖起飞🛫。本摸鱼小编带你们盘一盘这个让码农狂喜、资本沉默的「算力永动机」!一、啥是DeepGEMM?先来给大家介绍一下,DeepGEMM是一款专注于FP8高效通用矩阵乘法(GEMM)的库。咱都知道,矩阵乘法在深度学习里那可是家常便饭,就像是盖房子时的砖头,少了它啥都干不成。而De...
2025-02-26 14:45:28 2355浏览 0点赞 0回复 0收藏
当前AI在推理能力提升上遇到了诸多瓶颈,这在一定程度上限制了其进一步发展和广泛应用。在传统的AI训练中,模型对大量监督数据的依赖是一个显著问题。监督学习需要大量带有标注的数据来训练模型,使其能够对新的数据进行准确的分类或预测。然而,获取高质量的标注数据往往需要耗费大量的人力、物力和时间。以图像识别为例,为了训练一个能够准确识别各种动物的AI模型,需要人工对大量的动物图像进行标注,标记出图像中动物的种...
2025-02-10 15:34:58 3034浏览 0点赞 0回复 0收藏
最近,国内大模型界可谓是“风起云涌”,kimik1.5和DeepSeekV3这两位“大侠”横空出世,一路“杀疯了”,不断向OpenAI和其他海外大模型的霸主地位发起挑战。这不禁让人想起了那句网络梗:“一山更比一山高,一模更比一模强!”今天,咱们就来好好对比一下这两位国内大模型界的“当红炸子鸡”,看看它们到底有何不同,顺便再和海外顶尖的OpenAIo1对比一下,看看咱们离国际顶尖水平还有多远。接下来,咱们就来详细对比一下这三位...
2025-01-26 14:58:01 6200浏览 0点赞 0回复 0收藏
什么是混合专家模型MoE呢?混合专家模型MoE是一种能让大型语言模型(LLM)质量变好的技术。它主要由两部分组成:专家——现在每个前馈神经网络(FFNN)层都有好多个“专家”,每次可以用其中一部分。“专家”一般也是前馈神经网络。门控网络——它能决定把哪些tokens送到哪些专家那儿。在带混合专家模型MoE的大型语言模型的每一层,都能看到这些有点专门作用的专家:要知道,这里的‘专家’可不是像‘心理学’‘生物学’这种特定...
2025-01-17 11:48:08 3416浏览 0点赞 0回复 0收藏
获得成就
已积累 1.6w 人气
获得 0 个点赞
获得 0 次收藏