鲁班模锤1
LV.4
基于开源技术生态,跟踪与普及人工智能、隐私计算、区块链等技术
声望 503
关注 0
粉丝 2
私信
主帖 67
回帖
视觉语言模型(VisionLanguageModels,VLMs)正成为连接视觉与文本理解的关键桥梁。HuggingFace刚刚发布了开源的多模态数据集FineVision,旨在为视觉语言模型设定新标准,这一发布标志着开源AI社区在多模态学习领域迈出了重要一步。FineVision是一个包含1730万张图像、2430万个样本、8890万轮对话和95亿个答案令牌的大规模数据集合,专门用于训练最先进的开源视觉语言模型。这规模更重要的是其在质量控制、数据清洗和基准测试防...
6天前 1286浏览 0点赞 0回复 0收藏
AI智能体(AIAgent)正在从实验室走向生产环境,成为企业数字化转型的重要驱动力。然而,与传统软件系统不同,AI智能体具有非确定性、多步骤执行和外部依赖性强的特点,这使得其可观测性成为一项重大挑战。本文将深入探讨AI智能体可观测性,AI智能体可观测性是一门综合学科,涵盖了对AI智能体全生命周期的监控、追踪、评估和管理——从规划阶段和工具调用,到内存写入和最终输出的每一个环节。其目标是帮助开发调试失败案例、量...
6天前 699浏览 0点赞 0回复 0收藏
随着人工智能技术的飞速发展,多模态大语言模型(MLLMs)已成为AI领域的重要研究方向。这类模型能够同时处理文本、图像、视频等多种模态的信息,为实现通用人工智能奠定了重要基础。近日,阿里巴巴集团的Ovis团队发布了最新的Ovis2.5技术报告,展示了在多模态理解和推理方面的显著进步。本文将深入解析Ovis2.5的技术创新、架构设计以及性能表现,探讨其在多模态AI领域的重要意义。1.Ovis发展之路Ovis系列模型的发展体现了多模态...
2025-08-29 07:29:11 1167浏览 0点赞 0回复 0收藏
现有的大多数视觉语言模型都面临着一个共同的挑战:如何在保持高性能的同时,实现更高的计算效率和更快的推理速度。近日,LiquidAI公司发布了其首个视觉语言基础模型系列——LFM2VL,这一创新产品专为低延迟和设备感知部署而设计。LFM2VL扩展了LFM2系列开源基础模型到视觉语言空间,支持可变分辨率的文本和图像输入。当前市场上的主流视觉语言模型虽然在精度上表现出色,但往往需要大量的计算资源,难以在移动设备、边缘计算设...
2025-08-29 07:20:29 1211浏览 0点赞 0回复 0收藏
标注一直是制约计算机视觉模型性能的瓶颈。传统的监督学习方法需要大量人工标注的数据集,这不仅成本高昂,而且在特定领域(如卫星图像、医学影像)中往往难以获得足够的标注数据。Meta最新发布的DINOv3模型通过将自监督学习扩展到70亿参数规模和17亿图像数据集,实现了计算机视觉领域的重大突破,为这一困境提供了革命性的解决方案。。DINOv3的发展历程体现了自监督学习技术的成熟轨迹。从最初的DINO概念验证(8000万参数,100...
2025-08-18 07:49:52 4118浏览 0点赞 0回复 0收藏
在人工智能的多模态学习领域,CLIP(ContrastiveLanguageImagePretraining)模型自2021年发布以来,已经成为连接视觉和语言理解的重要基础模型。从零样本图像分类到多模态大语言模型的视觉编码器,CLIP的应用范围不断扩大,深刻影响了整个AI生态系统。然而,现有的CLIP模型及其变体主要专注于英语数据,这意味着全球互联网上超过50%的非英语内容被忽视了。Meta公司最新发布的MetaCLIP2论文,首次提出了从全球网络数据从头训练CL...
2025-08-18 07:31:51 977浏览 0点赞 0回复 0收藏
在人工智能和自然语言处理领域,从非结构化文本中准确提取结构化信息一直是一个重大挑战。无论是处理医疗记录、法律文件、研究报告还是其他复杂文档,传统的信息提取方法往往难以兼顾准确性和灵活性。为了解决这一难题,Google近日正式发布了LangExtract——开源Python库,专门用于从非结构化文本中精确提取结构化信息。这一创新工具的发布标志着信息提取技术进入了一个新的发展阶段,为开发者和研究人员提供了一个功能强大、易...
2025-08-18 07:20:32 2208浏览 0点赞 0回复 0收藏
在大模型领域快速发展的今天,经常面临一个艰难选择:要么选择小而快的模型,牺牲质量;要么选择大而准确的模型,但需要强大的GPU支持。谷歌最新推出的Gemma3n模型,试图彻底改变这一规则。Gemma3n不仅仅是紧凑型模型——它代表了AI架构设计的全新思路。这个仅需23GB显存就能运行的模型,却包含了多项革命性的技术创新,为边缘设备上的AI应用开辟了全新的可能性。1.核心突破:Matformer架构的创新设计要理解Gemma3n的创新之处,...
2025-08-04 07:50:58 1087浏览 0点赞 0回复 0收藏
传统的商业智能(BI)工具虽然功能强大,但往往需要专业的技术专长、大量的培训投入以及可观的时间成本才能产生有意义的结果。生成式商业智能(GenBI)应运而生——这是一种革命性的方法,从根本上改变企业与其信息资产交互的方式。小编记得在很早之前推荐了一款​基于LLM的分析工具,它也算是生成式的分支。虽然本次推荐的GenBI标榜开源,但是在一些功能方面在社区版还是受限。但是社区版的理念给未来的生成式的商业智能提供了...
2025-08-04 07:48:42 2265浏览 0点赞 0回复 0收藏
想象一下,你正在黑乎乎的终端里敲代码,突然遇到了一个bug怎么都找不到原因。这时候你只需要在命令行里输入一句话:"帮我找找这段代码哪里有问题",AI就能立刻给你答案。这就是谷歌刚刚发布的GeminiCLI。1.GeminiCLI谷歌推出的GeminiCLI(命令行界面),这是一个新的开源AI代理工具,将Gemini直接带到你的终端中。简单来说,GeminiCLI就是一个可以在命令行里"聊天"的AI助手。你知道ChatGPT吧?想象一下把ChatGPT直接搬到你的终...
2025-07-14 07:19:12 3313浏览 0点赞 0回复 0收藏
Gemma3n不是传统意义上的"模型优化",而是对Transformer架构进行了系统性重构。它解决了一个根本性问题:如何在极度受限的边缘设备上实现云端级别的AI能力。1.MatFormerMatFormer基于Matryoshka表示学习理论,每个Transformer块都设计了嵌套子块结构,小型子模型(如套娃中的层)包含在大型模型中。MatFormer通过在标准Transformer模型中加入嵌套的前馈网络(FFN)块结构来实现弹性推理。利用联合训练策略,在训练E4B(4B有效参数...
2025-07-14 07:15:37 1808浏览 0点赞 0回复 0收藏
从OpenAI的o1模型到DeepSeek的R1系列,这些模型展现了接近人类系统2推理能力的惊人表现。然而,正如诺贝尔经济学奖得主丹尼尔·卡尼曼在其著作《思考,快与慢》中所揭示的那样,"最费力的慢思考形式是那些需要你快速思考的形式"。这一看似矛盾的观点,正是当前大语言推理模型面临的核心挑战。当前的大语言推理模型虽然能够通过强化学习训练来实现慢思考,但在推理过程的调节上仍存在明显不足。它们要么过度思考(overthinking)...
2025-06-27 01:00:44 1380浏览 0点赞 0回复 0收藏
近日MetaAI发布了VJEPA2(VideoJointEmbeddingPredictiveArchitecture2),这一开源世界模型的推出标志着AI从数字世界向物理世界迈出了重要一步。这个系统能够从互联网规模的视频数据中学习,实现强大的视觉理解、未来状态预测和零样本规划能力,为智能物理代理的发展奠定了重要基础。1.基于JEPA的创新突破VJEPA2建立在联合嵌入预测架构(JEPA)的基础上,这是一种革命性的自监督学习方法。与传统的生成式预训练方法不同,JEPA...
2025-06-15 23:41:42 1271浏览 0点赞 0回复 0收藏
视觉语言动作模型(VisionLanguageAction,VLA)已成为机器人智能控制的重要突破口。然而,传统的VLA模型往往依赖于拥有数十亿参数的大型变换器架构,这不仅带来了巨大的内存和计算成本,还将实验和部署局限在资源充足的实验室和云端环境中。HuggingFace于2025年6月3日正式发布了SmolVLA——一个专为经济和高效部署而设计的紧凑型VLA模型。SmolVLA的推出标志着机器人控制技术的一个重要转折点。它不仅打破了传统VLA模型的资源壁...
2025-06-15 23:41:04 2426浏览 0点赞 0回复 0收藏
GRIT从本质上而言是一种改良过的强化学习,它针对输出进行了魔改,用一个生活例子来理解。想象一下,你在和朋友看一张照片,朋友问你:"这张照片里有几只猫?"普通人会怎么回答?"我看看,这里有一只白猫(用手指着左上角),那里还有一只黑猫(指着右下角),所以一共有2只猫。"传统AI是怎么回答的?"我需要仔细观察这张图片,分析其中的动物特征,通过形状、颜色等特征识别,最终得出结论:图片中有2只猫。"看出区别了吗?人...
2025-06-03 07:01:32 1457浏览 0点赞 0回复 0收藏
当我们看到一张照片时,大脑会自动分析其中的空间关系——哪个物体在前,哪个在后,左边是什么,右边是什么。但对于当今最先进的AI系统来说,这种看似简单的空间理解却是一个巨大的挑战。MetaFAIR和香港中文大学的研究团队最近发布的MultiSpatialMLLM项目,正在试图解决这个根本性问题。现有的多模态大语言模型虽然在图像识别和文本理解方面表现出色,但在空间推理上却存在严重缺陷。这些模型往往连最基本的左右区分都会出错,...
2025-06-03 06:51:02 1385浏览 0点赞 0回复 0收藏
通过内存缓冲+轮次压缩解决上下文记忆和效率矛盾,通过外部激活模型实现主动性,是StreamBridge的关键创新点传统的视频大语言模型(VideoLLM)通常一次性处理整个视频,对实时输入支持不足。然而在机器人、无人驾驶等应用中,需要模型具有因果感知和动态反应能力,即能够在视频流不断到来时及时理解新内容并主动输出。StreamBridge提出了一个简单有效的框架,将现有的离线VideoLLM缝升级为可处理流式视频的系统。它针对流式场景中...
2025-05-20 06:46:37 2037浏览 0点赞 0回复 0收藏
2025年5月,NVIDIA重磅发布其全新一代自动语音识别(ASR)模型——ParakeetTDT0.6Bv2。该模型具备0.6B参数,采用CCBY4.0商用开源许可协议,并以实时因子(RTF)达3386的惊人速度刷新行业纪录,标志着语音AI进入一个全新的高性能、低延迟时代。1.核心优势强大模型规模:600M参数的编码解码结构,结合FastConformer与TransducerDecoderTransformer(TDT)架构。极速处理能力:在NVIDIA硬件上,能在1秒内转录60分钟音频,速度超过多...
2025-05-07 06:57:10 4674浏览 0点赞 0回复 0收藏
日常工作中面对各类的作业,如何通过工程化的设计,充分利用LLM的逻辑推理能力,是AI思维的最直接体现。今天开始小编将带着大家,遵循AI思维来解决日常作业中的各种问题。今天探讨的实际场景是语料质量评估。在垂类应用或者RAG应用,将企业知识或者领域知识转化为语料是最为关键的一环,但是如何来确定语料的质量作为关键。LLM的训练过程中因为其预训练能力与困惑度(PPL)相关,因此可以从不同的数据来源中分别提取困惑度排名...
2025-04-22 07:24:37 1754浏览 0点赞 0回复 0收藏
MCP正在成为一种标准,可帮助开发人员构建AI系统,使这些系统能够与其他外部应用程序进行有效通信。Microsoft最近宣布将MCP集成到其CopilotStudio中,以简化AI应用程序和代理访问工具的方式。此外,OpenAI还宣布在其产品中支持MCP,例如AgentsSDK和ChatGPT的桌面应用程序。封面的图片很直观的阐述了MCP,它是一种开放协议,MCP是一个开放协议,用于标准化应用程序向大语言模型提供上下文的方式。MCP由Anthropic公司在2024年底推...
2025-04-10 06:28:30 2961浏览 0点赞 0回复 0收藏
获得成就
已积累 4.5w 人气
获得 0 个点赞
获得 0 次收藏