从OpenAI的o1模型到DeepSeek的R1系列,这些模型展现了接近人类系统2推理能力的惊人表现。然而,正如诺贝尔经济学奖得主丹尼尔·卡尼曼在其著作《思考,快与慢》中所揭示的那样,"最费力的慢思考形式是那些需要你快速思考的形式"。这一看似矛盾的观点,正是当前大语言推理模型面临的核心挑战。当前的大语言推理模型虽然能够通过强化学习训练来实现慢思考,但在推理过程的调节上仍存在明显不足。它们要么过度思考(overthinking)...
近日MetaAI发布了VJEPA2(VideoJointEmbeddingPredictiveArchitecture2),这一开源世界模型的推出标志着AI从数字世界向物理世界迈出了重要一步。这个系统能够从互联网规模的视频数据中学习,实现强大的视觉理解、未来状态预测和零样本规划能力,为智能物理代理的发展奠定了重要基础。1.基于JEPA的创新突破VJEPA2建立在联合嵌入预测架构(JEPA)的基础上,这是一种革命性的自监督学习方法。与传统的生成式预训练方法不同,JEPA...
2025-06-15 23:41:42 588浏览 0点赞 0回复 0收藏
视觉语言动作模型(VisionLanguageAction,VLA)已成为机器人智能控制的重要突破口。然而,传统的VLA模型往往依赖于拥有数十亿参数的大型变换器架构,这不仅带来了巨大的内存和计算成本,还将实验和部署局限在资源充足的实验室和云端环境中。HuggingFace于2025年6月3日正式发布了SmolVLA——一个专为经济和高效部署而设计的紧凑型VLA模型。SmolVLA的推出标志着机器人控制技术的一个重要转折点。它不仅打破了传统VLA模型的资源壁...
2025-06-15 23:41:04 665浏览 0点赞 0回复 0收藏
GRIT从本质上而言是一种改良过的强化学习,它针对输出进行了魔改,用一个生活例子来理解。想象一下,你在和朋友看一张照片,朋友问你:"这张照片里有几只猫?"普通人会怎么回答?"我看看,这里有一只白猫(用手指着左上角),那里还有一只黑猫(指着右下角),所以一共有2只猫。"传统AI是怎么回答的?"我需要仔细观察这张图片,分析其中的动物特征,通过形状、颜色等特征识别,最终得出结论:图片中有2只猫。"看出区别了吗?人...
2025-06-03 07:01:32 731浏览 0点赞 0回复 0收藏
当我们看到一张照片时,大脑会自动分析其中的空间关系——哪个物体在前,哪个在后,左边是什么,右边是什么。但对于当今最先进的AI系统来说,这种看似简单的空间理解却是一个巨大的挑战。MetaFAIR和香港中文大学的研究团队最近发布的MultiSpatialMLLM项目,正在试图解决这个根本性问题。现有的多模态大语言模型虽然在图像识别和文本理解方面表现出色,但在空间推理上却存在严重缺陷。这些模型往往连最基本的左右区分都会出错,...
2025-06-03 06:51:02 648浏览 0点赞 0回复 0收藏
通过内存缓冲+轮次压缩解决上下文记忆和效率矛盾,通过外部激活模型实现主动性,是StreamBridge的关键创新点传统的视频大语言模型(VideoLLM)通常一次性处理整个视频,对实时输入支持不足。然而在机器人、无人驾驶等应用中,需要模型具有因果感知和动态反应能力,即能够在视频流不断到来时及时理解新内容并主动输出。StreamBridge提出了一个简单有效的框架,将现有的离线VideoLLM缝升级为可处理流式视频的系统。它针对流式场景中...
2025-05-20 06:46:37 873浏览 0点赞 0回复 0收藏
2025年5月,NVIDIA重磅发布其全新一代自动语音识别(ASR)模型——ParakeetTDT0.6Bv2。该模型具备0.6B参数,采用CCBY4.0商用开源许可协议,并以实时因子(RTF)达3386的惊人速度刷新行业纪录,标志着语音AI进入一个全新的高性能、低延迟时代。1.核心优势强大模型规模:600M参数的编码解码结构,结合FastConformer与TransducerDecoderTransformer(TDT)架构。极速处理能力:在NVIDIA硬件上,能在1秒内转录60分钟音频,速度超过多...
2025-05-07 06:57:10 2358浏览 0点赞 0回复 0收藏
日常工作中面对各类的作业,如何通过工程化的设计,充分利用LLM的逻辑推理能力,是AI思维的最直接体现。今天开始小编将带着大家,遵循AI思维来解决日常作业中的各种问题。今天探讨的实际场景是语料质量评估。在垂类应用或者RAG应用,将企业知识或者领域知识转化为语料是最为关键的一环,但是如何来确定语料的质量作为关键。LLM的训练过程中因为其预训练能力与困惑度(PPL)相关,因此可以从不同的数据来源中分别提取困惑度排名...
2025-04-22 07:24:37 847浏览 0点赞 0回复 0收藏
MCP正在成为一种标准,可帮助开发人员构建AI系统,使这些系统能够与其他外部应用程序进行有效通信。Microsoft最近宣布将MCP集成到其CopilotStudio中,以简化AI应用程序和代理访问工具的方式。此外,OpenAI还宣布在其产品中支持MCP,例如AgentsSDK和ChatGPT的桌面应用程序。封面的图片很直观的阐述了MCP,它是一种开放协议,MCP是一个开放协议,用于标准化应用程序向大语言模型提供上下文的方式。MCP由Anthropic公司在2024年底推...
2025-04-10 06:28:30 2195浏览 0点赞 0回复 0收藏
Picovoice首席执行官AlirezaKenarsari指出,“picoLLM是Picovoice深度学习研究人员和量产工程师共同努力的成果。前者研究出X位量化算法,而后者构建了跨平台的LLM推理引擎。目的还是在于将LLM遍及到任何设备且将控制权交还给企业”。picoLLMInference可以免费使用,没有任何使用限制。无论是在概念验证上工作,还是为数百万用户提供服务。只需几行代码即可部署。注:其余的产品线有非商用免费版,也有收费版1.认识量化(Quantiz...
2025-03-27 09:30:38 1452浏览 0点赞 0回复 0收藏
GPT4o收取170个Token来处理在高分辨率模式512x512的图块。在0.75个tokensword的比例下,说明一张图片价值约为227个Token单词。170是一个奇怪的具体数字,OpenAI在其定价中使用“20美元”或“0.50美元”等整数,或使用2和3的幂作为其内部尺寸。为什么在这种情况下选择像170?OpenAI选择170,若不是作为某种神秘定价策略的一部分,而图像图块实际上真的被表示为170个连续嵌入向量??Transformer模型对向量进行操作,而不是离散To...
2025-03-17 01:29:33 2109浏览 0点赞 0回复 0收藏
泛AI架构设计这个专栏主要关注围绕着AI运用于实际的业务场景所需的系统架构设计,包括业务数据治理、模型训练与管理、模型部署与调度。整体基于云原生技术,旨在通过开源领域的LLMOps或者MLOps技术,充分运用低代码平台构建高性能、高效率和敏捷响应的AI中台。1.AI架构挑战上面几节从GPU的知识点入手,清晰的介绍了GPU原理、构造以及运算模型。有了初步的认知之后,回到最原始的AI需求,来看看其对于基础架构的要求。AI最早于19...
2025-03-05 11:04:54 2541浏览 0点赞 0回复 0收藏
1.KAN这种新型的网络架构的核心思想基于由柯尔莫哥洛夫阿诺德表示定理,它被寄予期望能够替代多层感知器。MLP在节点(“神经单元”)上具有固定的激活函数,而KAN在边上(“权重”)具有可学习的激活函数。KAN根本没有线性权重—每个权重参数都被参数化为一元的splinefunction。大白话的意思就是:KAN中的每个激活函数不是在每个节点,而是在每条边上。由一个一元函数(univariatefunction)组成,这些函数本身也是参数。意味着...
2025-02-25 12:58:45 2059浏览 0点赞 0回复 0收藏
大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在阅读过程中有些知识点存在盲区,可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计。记得在《重新审视神经网络》这篇文章中提及,任何人都可以构建自己心目中的神经网络。在Transformers、Mamba、KAN之后,长短期记忆(LSTM)...
2025-02-17 07:53:00 2424浏览 0点赞 0回复 0收藏
大型语言模型(LLM)正在极大地影响AI研究,引发了关于迄今为止发生了什么变化以及如何塑造该领域未来的讨论。为了澄清这些问题,有研究人员分析新的数据集,其中包含16,979篇与LLM相关的arXiv论文,重点关注2023年与20182022年相比的最新趋势。首先研究人员观察到LLM研究越来越多地影响着社会,这从计算机和社会arXiv中LLM论文提交量增长20倍可以看出。大量新作者来自非计算机的NLP领域,推动了各个学科扩展。其次,令人惊讶的是...
2025-02-06 15:41:13 2199浏览 0点赞 0回复 0收藏
1.快速总览研究人员提出了一种新颖的位置编码方法,称为上下文位置编码(下文称之为CoPE),它有别于基于标记的传统位置编码范式。它以上下文依赖的方式测量位置,在按位置寻址时会更加自由它在如下的任务中获得不错的收益:FlipFlop,SelectiveCopy,Counting,LanguageModeling,andCodeModelingtasks它优于现有方法,尤其是在域外泛化场景它有可能改善其他领域的编码,例如视频和语音。在这些领域,基于Token位置的编码不太合适...
2025-01-23 09:08:27 2078浏览 0点赞 0回复 0收藏
EmbeddingsEmbeddings会分为两个章节,前部分主要还是放在常规方法总结,后者主要放在神经网络技术。其实这个英文单词不难理解,就是将对象用数字标识描述。其实一直纠结是否要讲述这个话题,因为可深可浅。若要用一句话概括,就是给输入分配一个数字标识,可以是一个整数数值也可以是一个向量。不过最重要的目的是在模型训练的过程中能够高效且有效的学习参数。这里需要解释下向量,例如apple可以使用三维的向量[0.95,0.23,0.2...
2025-01-14 12:44:10 2328浏览 0点赞 0回复 0收藏
1.快速总览研究人员提出了一种新颖的位置编码方法,称为上下文位置编码(下文称之为CoPE),它有别于基于标记的传统位置编码范式。它以上下文依赖的方式测量位置,在按位置寻址时会更加自由它在如下的任务中获得不错的收益:FlipFlop,SelectiveCopy,Counting,LanguageModeling,andCodeModelingtasks它优于现有方法,尤其是在域外泛化场景它有可能改善其他领域的编码,例如视频和语音。在这些领域,基于Token位置的编码不太合适...
2025-01-03 14:10:21 2791浏览 0点赞 0回复 0收藏
1.Token在继续前行之前,需要先停下来澄清下Token这个词,以及如何将原始的语料转化为Token,在细究背后的原理之后会更加优雅的理解大模型。任何的资讯都可以生成语料,而这些语料需要被机器理解以及供后续的模型训练,那么最常见的做法是将一段文字先切片,然后一一对应的转化为数字或者向量输入模型。通常而言有三种类型的分词法:基于单词、字符以及子词的分词法。单词和字符这里就不解释,字词法运用得最为广泛,也是最为主...
2024-12-25 12:22:59 3089浏览 0点赞 0回复 0收藏
大模型技术论文不断,每个月总会新增上千篇。本专栏精选论文重点解读,主题还是围绕着行业实践和工程量产。若在某个环节出现卡点,可以回到大模型必备腔调或者LLM背后的基础模型新阅读。而最新科技(Mamba,xLSTM,KAN)则提供了大模型领域最新技术跟踪。若对于具身智能感兴趣的请移步具身智能专栏。技术宅麻烦死磕AI架构设计。当然最重要的是订阅“鲁班模锤”。1.RAG检索增强生成(RAG)是一种通过集成文档检索系统来...
2024-12-17 13:10:00 2136浏览 0点赞 0回复 0收藏