公众号矩阵

移动端

视频课免费课排行榜短视频直播课软考学堂

全部课程软考信创认证华为认证厂商认证 IT技术 PMP项目管理免费题库

在线学习

文章资源问答课堂专栏直播

51CTO

鸿蒙开发者社区

51CTO技术栈

51CTO官微

51CTO学堂

51CTO博客

CTO训练营

鸿蒙开发者社区订阅号

51CTO软考

51CTO学堂APP

51CTO学堂企业版APP

鸿蒙开发者社区视频号

51CTO软考题库

AI.x社区

登录/注册
51CTO

中国优质的IT技术网站

51CTO博客

专业IT技术创作平台

51CTO学堂

IT职业在线教育平台

鲁班模锤1

LV.4

基于开源技术生态，跟踪与普及人工智能、隐私计算、区块链等技术

帖子 60

声望 468

关注 0

粉丝 2

社区头条作者热门内容榜上榜作者

私信

关注

主帖 60

回帖

Gemma-3n深度解析

在大模型领域快速发展的今天，经常面临一个艰难选择：要么选择小而快的模型，牺牲质量；要么选择大而准确的模型，但需要强大的GPU支持。谷歌最新推出的Gemma3n模型，试图彻底改变这一规则。Gemma3n不仅仅是紧凑型模型——它代表了AI架构设计的全新思路。这个仅需23GB显存就能运行的模型，却包含了多项革命性的技术创新，为边缘设备上的AI应用开辟了全新的可能性。1.核心突破：Matformer架构的创新设计要理解Gemma3n的创新之处，...

2025-08-04 07:50:58 722浏览 0点赞 0回复 0收藏

GenBI：生成式商业智能

原创

传统的商业智能（BI）工具虽然功能强大，但往往需要专业的技术专长、大量的培训投入以及可观的时间成本才能产生有意义的结果。生成式商业智能（GenBI）应运而生——这是一种革命性的方法，从根本上改变企业与其信息资产交互的方式。小编记得在很早之前推荐了一款基于LLM的分析工具，它也算是生成式的分支。虽然本次推荐的GenBI标榜开源，但是在一些功能方面在社区版还是受限。但是社区版的理念给未来的生成式的商业智能提供了...

2025-08-04 07:48:42 1947浏览 0点赞 0回复 0收藏

Gemini CLI：Google开源的AI智能体

原创精华

想象一下，你正在黑乎乎的终端里敲代码，突然遇到了一个bug怎么都找不到原因。这时候你只需要在命令行里输入一句话："帮我找找这段代码哪里有问题"，AI就能立刻给你答案。这就是谷歌刚刚发布的GeminiCLI。1.GeminiCLI谷歌推出的GeminiCLI（命令行界面），这是一个新的开源AI代理工具，将Gemini直接带到你的终端中。简单来说，GeminiCLI就是一个可以在命令行里"聊天"的AI助手。你知道ChatGPT吧？想象一下把ChatGPT直接搬到你的终...

2025-07-14 07:19:12 2501浏览 0点赞 0回复 0收藏

Google Gemma 3n：创新的AI边缘计算

Gemma3n不是传统意义上的"模型优化"，而是对Transformer架构进行了系统性重构。它解决了一个根本性问题：如何在极度受限的边缘设备上实现云端级别的AI能力。1.MatFormerMatFormer基于Matryoshka表示学习理论，每个Transformer块都设计了嵌套子块结构，小型子模型（如套娃中的层）包含在大型模型中。MatFormer通过在标准Transformer模型中加入嵌套的前馈网络(FFN)块结构来实现弹性推理。利用联合训练策略，在训练E4B（4B有效参数...

2025-07-14 07:15:37 1378浏览 0点赞 0回复 0收藏

ALPHAONE：从快到慢，还是从慢到快

从OpenAI的o1模型到DeepSeek的R1系列，这些模型展现了接近人类系统2推理能力的惊人表现。然而，正如诺贝尔经济学奖得主丹尼尔·卡尼曼在其著作《思考，快与慢》中所揭示的那样，"最费力的慢思考形式是那些需要你快速思考的形式"。这一看似矛盾的观点，正是当前大语言推理模型面临的核心挑战。当前的大语言推理模型虽然能够通过强化学习训练来实现慢思考，但在推理过程的调节上仍存在明显不足。它们要么过度思考（overthinking）...

2025-06-27 01:00:44 962浏览 0点赞 0回复 0收藏

Meta AI发布革命性V-JEPA 2

近日MetaAI发布了VJEPA2（VideoJointEmbeddingPredictiveArchitecture2），这一开源世界模型的推出标志着AI从数字世界向物理世界迈出了重要一步。这个系统能够从互联网规模的视频数据中学习，实现强大的视觉理解、未来状态预测和零样本规划能力，为智能物理代理的发展奠定了重要基础。1.基于JEPA的创新突破VJEPA2建立在联合嵌入预测架构（JEPA）的基础上，这是一种革命性的自监督学习方法。与传统的生成式预训练方法不同，JEPA...

2025-06-15 23:41:42 1045浏览 0点赞 0回复 0收藏

开启轻量化机器人控制新时代

视觉语言动作模型（VisionLanguageAction，VLA）已成为机器人智能控制的重要突破口。然而，传统的VLA模型往往依赖于拥有数十亿参数的大型变换器架构，这不仅带来了巨大的内存和计算成本，还将实验和部署局限在资源充足的实验室和云端环境中。HuggingFace于2025年6月3日正式发布了SmolVLA——一个专为经济和高效部署而设计的紧凑型VLA模型。SmolVLA的推出标志着机器人控制技术的一个重要转折点。它不仅打破了传统VLA模型的资源壁...

2025-06-15 23:41:04 1573浏览 0点赞 0回复 0收藏

GRIT：让AI"指着图说话"的新思路

GRIT从本质上而言是一种改良过的强化学习，它针对输出进行了魔改，用一个生活例子来理解。想象一下，你在和朋友看一张照片，朋友问你："这张照片里有几只猫？"普通人会怎么回答？"我看看，这里有一只白猫（用手指着左上角），那里还有一只黑猫（指着右下角），所以一共有2只猫。"传统AI是怎么回答的？"我需要仔细观察这张图片，分析其中的动物特征，通过形状、颜色等特征识别，最终得出结论：图片中有2只猫。"看出区别了吗？人...

2025-06-03 07:01:32 1205浏览 0点赞 0回复 0收藏

AI的"空间盲症"

原创

当我们看到一张照片时，大脑会自动分析其中的空间关系——哪个物体在前，哪个在后，左边是什么，右边是什么。但对于当今最先进的AI系统来说，这种看似简单的空间理解却是一个巨大的挑战。MetaFAIR和香港中文大学的研究团队最近发布的MultiSpatialMLLM项目，正在试图解决这个根本性问题。现有的多模态大语言模型虽然在图像识别和文本理解方面表现出色，但在空间推理上却存在严重缺陷。这些模型往往连最基本的左右区分都会出错，...

2025-06-03 06:51:02 1097浏览 0点赞 0回复 0收藏

离线VLLM魔改流式

通过内存缓冲+轮次压缩解决上下文记忆和效率矛盾，通过外部激活模型实现主动性，是StreamBridge的关键创新点传统的视频大语言模型(VideoLLM)通常一次性处理整个视频，对实时输入支持不足。然而在机器人、无人驾驶等应用中，需要模型具有因果感知和动态反应能力，即能够在视频流不断到来时及时理解新内容并主动输出。StreamBridge提出了一个简单有效的框架，将现有的离线VideoLLM缝升级为可处理流式视频的系统。它针对流式场景中...

2025-05-20 06:46:37 1494浏览 0点赞 0回复 0收藏

NVIDIA发布Parakeet TDT 0.6B-v2：ASR新标杆

原创

2025年5月，NVIDIA重磅发布其全新一代自动语音识别（ASR）模型——ParakeetTDT0.6Bv2。该模型具备0.6B参数，采用CCBY4.0商用开源许可协议，并以实时因子（RTF）达3386的惊人速度刷新行业纪录，标志着语音AI进入一个全新的高性能、低延迟时代。1.核心优势强大模型规模：600M参数的编码解码结构，结合FastConformer与TransducerDecoderTransformer(TDT)架构。极速处理能力：在NVIDIA硬件上，能在1秒内转录60分钟音频，速度超过多...

2025-05-07 06:57:10 3572浏览 0点赞 0回复 0收藏

学会LLM思维：语料质量的自评估

原创

日常工作中面对各类的作业，如何通过工程化的设计，充分利用LLM的逻辑推理能力，是AI思维的最直接体现。今天开始小编将带着大家，遵循AI思维来解决日常作业中的各种问题。今天探讨的实际场景是语料质量评估。在垂类应用或者RAG应用，将企业知识或者领域知识转化为语料是最为关键的一环，但是如何来确定语料的质量作为关键。LLM的训练过程中因为其预训练能力与困惑度（PPL）相关，因此可以从不同的数据来源中分别提取困惑度排名...

2025-04-22 07:24:37 1367浏览 0点赞 0回复 0收藏

扒一扒最近较火的MCP

原创

MCP正在成为一种标准，可帮助开发人员构建AI系统，使这些系统能够与其他外部应用程序进行有效通信。Microsoft最近宣布将MCP集成到其CopilotStudio中，以简化AI应用程序和代理访问工具的方式。此外，OpenAI还宣布在其产品中支持MCP，例如AgentsSDK和ChatGPT的桌面应用程序。封面的图片很直观的阐述了MCP，它是一种开放协议，MCP是一个开放协议，用于标准化应用程序向大语言模型提供上下文的方式。MCP由Anthropic公司在2024年底推...

2025-04-10 06:28:30 2679浏览 0点赞 0回复 0收藏

AI架构系列：picoLLM 大模型的量化魔术师

原创

Picovoice首席执行官AlirezaKenarsari指出，“picoLLM是Picovoice深度学习研究人员和量产工程师共同努力的成果。前者研究出X位量化算法，而后者构建了跨平台的LLM推理引擎。目的还是在于将LLM遍及到任何设备且将控制权交还给企业”。picoLLMInference可以免费使用，没有任何使用限制。无论是在概念验证上工作，还是为数百万用户提供服务。只需几行代码即可部署。注：其余的产品线有非商用免费版，也有收费版1.认识量化（Quantiz...

2025-03-27 09:30:38 1977浏览 0点赞 0回复 0收藏

闲得没事，猜猜GPT-4o如何对图像编码

原创

GPT4o收取170个Token来处理在高分辨率模式512x512的图块。在0.75个tokensword的比例下，说明一张图片价值约为227个Token单词。170是一个奇怪的具体数字，OpenAI在其定价中使用“20美元”或“0.50美元”等整数，或使用2和3的幂作为其内部尺寸。为什么在这种情况下选择像170？OpenAI选择170，若不是作为某种神秘定价策略的一部分，而图像图块实际上真的被表示为170个连续嵌入向量？？Transformer模型对向量进行操作，而不是离散To...

2025-03-17 01:29:33 2624浏览 0点赞 0回复 0收藏

泛AI架构设计：理解AI云原生

原创

泛AI架构设计这个专栏主要关注围绕着AI运用于实际的业务场景所需的系统架构设计，包括业务数据治理、模型训练与管理、模型部署与调度。整体基于云原生技术，旨在通过开源领域的LLMOps或者MLOps技术，充分运用低代码平台构建高性能、高效率和敏捷响应的AI中台。1.AI架构挑战上面几节从GPU的知识点入手，清晰的介绍了GPU原理、构造以及运算模型。有了初步的认知之后，回到最原始的AI需求，来看看其对于基础架构的要求。AI最早于19...

2025-03-05 11:04:54 3154浏览 0点赞 0回复 0收藏

下一个AI前沿与革命：KAN 上

1.KAN这种新型的网络架构的核心思想基于由柯尔莫哥洛夫阿诺德表示定理，它被寄予期望能够替代多层感知器。MLP在节点（“神经单元”）上具有固定的激活函数，而KAN在边上（“权重”）具有可学习的激活函数。KAN根本没有线性权重—每个权重参数都被参数化为一元的splinefunction。大白话的意思就是：KAN中的每个激活函数不是在每个节点，而是在每条边上。由一个一元函数（univariatefunction）组成，这些函数本身也是参数。意味着...

2025-02-25 12:58:45 2515浏览 0点赞 0回复 0收藏

xLSTM：拳打Transformer，脚踢Mamba？！

原创

大模型技术论文不断，每个月总会新增上千篇。本专栏精选论文重点解读，主题还是围绕着行业实践和工程量产。若在阅读过程中有些知识点存在盲区，可以回到如何优雅的谈论大模型重新阅读。另外斯坦福2024人工智能报告解读为通识性读物。若对于如果构建生成级别的AI架构则可以关注AI架构设计。记得在《重新审视神经网络》这篇文章中提及，任何人都可以构建自己心目中的神经网络。在Transformers、Mamba、KAN之后，长短期记忆(LSTM)...

2025-02-17 07:53:00 3037浏览 0点赞 0回复 0收藏

洞悉arXiv的LLM论文趋势

原创

大型语言模型(LLM)正在极大地影响AI研究，引发了关于迄今为止发生了什么变化以及如何塑造该领域未来的讨论。为了澄清这些问题，有研究人员分析新的数据集，其中包含16,979篇与LLM相关的arXiv论文，重点关注2023年与20182022年相比的最新趋势。首先研究人员观察到LLM研究越来越多地影响着社会，这从计算机和社会arXiv中LLM论文提交量增长20倍可以看出。大量新作者来自非计算机的NLP领域，推动了各个学科扩展。其次，令人惊讶的是...

2025-02-06 15:41:13 2724浏览 0点赞 0回复 0收藏

图解新颖LLM的CoPE位置编码

1.快速总览研究人员提出了一种新颖的位置编码方法，称为上下文位置编码（下文称之为CoPE），它有别于基于标记的传统位置编码范式。它以上下文依赖的方式测量位置，在按位置寻址时会更加自由它在如下的任务中获得不错的收益：FlipFlop,SelectiveCopy,Counting,LanguageModeling,andCodeModelingtasks它优于现有方法，尤其是在域外泛化场景它有可能改善其他领域的编码，例如视频和语音。在这些领域，基于Token位置的编码不太合适...

2025-01-23 09:08:27 2480浏览 0点赞 0回复 0收藏

获得成就

已积累 3.8w 人气

获得 0 个点赞

获得 0 次收藏