微调是将预先在海量通用数据上训练好的大型语言模型,在更小、更具体的领域或任务数据集上进一步训练的过程。其核心在于利用预训练模型获得的通用语言理解能力,通过特定数据进行针对性调整,使模型能深刻理解专业术语、领域规则和任务要求,从而生成更准确、更符合特定需求的输出。引言想象你拥有一个像GPT3或Llama3这样强大的LLM,它已在互联网规模的文本上进行了预训练,能回答一般问题、创作文本、总结文章、翻译语言。微调...
本文聚焦LLM(大型语言模型)的推理逻辑,从技术底层剖析人工智能语言能力的计算本质——其核心是统计规律的应用,而非人类意义上的思维理解。大型语言模型具有令人印象深刻的能力,可以生成文本、诗歌、代码,甚至进行复杂的对话。但核心问题始终存在:这类系统是否真正理解语义,抑或仅是思维形式的模仿?这一争议构成当前AI辩论的焦点。一方面,LLM的成就是不可否认的:它们可以翻译语言,总结文章,起草电子邮件,甚至以惊...
AI智能体架构为设计可以感知环境、处理信息和执行操作的智能系统提供了结构蓝图。我对架构非常感兴趣。在探索AI智能体的过程中,我对智能体架构非常好奇。这促使我找到了IBM在其Think页面上发布的《2025年AI智能体指南》这份很棒的资料。该指南的其中一节就与架构有关。架构部分解释,智能体架构指使AI智能体能够自动执行工作流程、推理任务并利用工具实现其目标的设计和结构。该架构旨在支持自主的、目标驱动的行为...
开篇大型语言模型(LLMs)随处可见,从日常应用到高级工具都可以看到他们的身影。虽说使用起来很容易,但如果要运行自己的模型就是另外一回事了。比如对模型进行微调并处理了一些隐私敏感数据,复杂性就会增加。在这篇文章中,我们将分享在构建我们自己的LLM推理系统时所学到的知识。我们将涵盖存储和部署模型、设计服务架构以及解决路由、流式传输和管理微服务等现实问题。这个过程涉及挑战,但最终,我们建立了一个可靠的系统...
人工智能(AI)正在改变软件的开发方式。AI驱动的代码生成器已成为重要的工具,帮助开发者更高效地编写、调试和完成代码。在这些新型智能助手中,DeepCoder14B不仅因其强大的技术能力,也因其开源性质而受到关注。与许多流行但封闭且专有的AI模型不同,DeepCoder14B公开分享其设计、训练数据和源代码。这种开放性有助于世界各地的开发者自由探索、改进和使用该模型。通过这样做,DeepCoder14B正在为软件开发开辟新的可能性,并鼓...
本文旨在全面介绍开源框架Titans。Titans是一种为LLM配备受人类启发的记忆的新架构,它能够在测试期间进行自我学习和更新。本文要讨论什么内容?Meta公司努力开发出的CoCoMix(ContinuousConceptMixing:连续概念混合,出自Jihoon等人2025年发表的论文,见【引文1】)框架实现了概念学习,即学习单词背后的概念而不是仅仅预测下一个标记,从而使其具有极强的可操控性和可解释性。但是,依然存在一个核心问题:即使是...
本文对OpenAI的o3pro与谷歌的Gemini2.5Pro在图像分析、逻辑推理和数字推理上的表现进行了比较。o3pro在推理和工具使用上有所增强,但Gemini2.5Pro在逻辑和数学推理上更准确可靠。Gemini2.5Pro在复杂任务中表现更佳,提供经过验证的准确响应,适合对准确性要求高的任务,而o3pro虽然快速但存在关键错误。在人工智能推理模型领域的激烈竞争中,OpenAI的o3pro与谷歌的Gemini2.5Pro正在争夺高级推理和多模态能力的最佳头衔。o3pro建...
本文介绍了使用Ollama和WebUI在本地运行量化版的DeepSeekR10528模型。DeepSeekR10528是DeepSeekR1推理模型的最新版本,需要715GB的磁盘空间,使其成为市面上最大的开源模型之一。然而由于来自Unsloth的先进的量化技术,该模型的大小可以缩减至162GB,整整缩减了80%。这使得用户能够以显著降低的硬件要求体验模型的全部功能,尽管性能略有下降。在本教程中,我们将:设置Ollama和OpenWebUI,以便在本地运行DeepSeekR10528模型。...
引言人工智能展现出的“自信表达”,实则暗藏风险。随着生成式人工智能解决方案在医疗、金融、法律、零售、教育等诸多领域广泛应用,自动化的强大吸引力令企业纷纷加速将大型语言模型整合至客户支持、医疗保健、法律及金融等应用场景之中。然而,在此过程中,一个潜在的隐患——人工智能幻觉问题,正悄然潜伏于每一次指令交互背后。当人工智能模型生成看似合理,实则错误、虚构或具有误导性的信息时,人工智能幻觉便随之产生。...
2025-06-13 08:03:33 753浏览 0点赞 0回复 0收藏
如今AI虽已全面普及,但多数职场人士仍难以统一运用各类互不相关的工具:一会需要使用聊天机器人、一会需要将文本复制到摘要器内,再加上会议转录和翻译,将本应顺畅的工作流程拆分得零散琐碎。所以问题来了:为什么不能把各项AI功能集中起来?为此我决定构建单一Web门户,供用户随时上传文档、提问、获取摘要、转录会议内容、翻译文件,甚至从PDF中提取表格等。其功能不求花哨、只讲实用,旨在解决我们每天面临的实际问题。下...
2025-06-12 08:21:39 819浏览 0点赞 0回复 0收藏
传统云计算依赖集中式数据训练模型,但边缘计算的普及催生了新范式——去中心化机器学习。其核心代表——联邦学习正在颠覆传统流程。本文将对联邦学习概念及其三个关键技术展开讨论。简介——打破云障碍多年来,云计算一直是机器学习的主导范式。海量数据图表被上传到中心化服务器,经过超强GPU的处理,最终转化为能够提供建议、预测和推理的模型。但是,如果不是“只有一条路”呢?我们生活在一个数十亿设备(智能手机、智能传...
2025-06-11 08:31:11 920浏览 0点赞 0回复 0收藏
企业在积极引入AI的同时,也希望雇用更多工程师,期望开发者能够借AI之力将产出“提升10倍”。但要真正高效运用AI编码助手,其中也有不少门道。首先是AI编码助手的固有局限,其存在大量不确定性,因此容易引发种种难以避免的意外行为,例如随机删除代码或引入逻辑错误。此外,驱动编码助手的大模型本身也有问题。一旦使用不当,大模型也可能成为代码删除或者安全漏洞的来源。此外,AI智能体还经常陷入递归循环乃至无休止的测试...
2025-06-10 08:28:37 709浏览 0点赞 0回复 0收藏
通过整合文本、图像、音频等数据,多模态大型语言模型(MLLM)开始突破传统RAG的文本局限,赋予AI感知能力。其核心架构采用CLIP、Whisper等编码器实现跨模态语义统一,通过投影层对齐多模态信息。不过,多模态大型语言模型的评估需要综合检索质量、生成忠实度及跨模态一致性等一系列指标实现。简介基于我以前关于LLM、检索增强生成(RAG)和高级RAG技术的文章中的基础概念,本文将着手探讨下一个领域——多模态LLM。我们将首先...
2025-06-09 08:41:47 882浏览 0点赞 0回复 0收藏
译者布加迪审校重楼Anthropic的最新AI模型Claude4在开发社区大行其道。许多程序员称赞它是目前最好的编程模型,能够在短短几分钟内解决困扰一整年的编程难题,这是了不起的成就。我们在本文中将探讨将Claude4集成到工作流程中以提升生产力的五种有效方法。从将GitHub代码库集成到ClaudeAIWebApp中,到利用其PythonSDK,我们将介绍如何充分利用这一突破性AI模型的步骤。1.ClaudeAIWebAppClaudeAIWebApp提供了一种直观的方式,将C...
2025-06-05 10:13:04 1038浏览 0点赞 0回复 0收藏
不到十年前,能与计算机进行有意义的对话的想法还只是科幻小说。但今天,数以百万计的人与AI助手聊天,根据文本描述创作令人惊叹的艺术作品,并每天使用这些AI工具系统来理解图像和执行高级任务。这一进步由许多专业AI模型驱动,每个模型都有其独特的功能和应用。本文将介绍八种正在重塑数字格局并可能塑造我们未来的专业AI模型。1.LLMs:大型语言模型(LargeLanguageModels)还记得科幻电影里人类过去常常与计算机正常交谈的情景...
2025-06-04 08:28:41 482浏览 0点赞 0回复 0收藏
本文将深入研究修剪、量化、蒸馏等轻量化机器学习的五种核心技术,从而使你的神经网络更高效、更易于部署。简介无论你是在准备面试,还是在工作中构建机器学习系统,模型压缩都已成为一项必备技能。在大语言模型(LLM)时代,模型规模越来越大,如何压缩这些模型以使其更高效、更小巧、更易于在轻量级机器上使用,这一挑战从未如此严峻。在本文中,我将介绍每位机器学习从业者都应该理解和掌握的四种基本压缩技术。我将探讨剪枝...
2025-06-03 08:40:33 695浏览 0点赞 0回复 0收藏
针对提升LLM推理能力面临的挑战,斯坦福大学研究人员提出了“思考、修剪、训练”(TPT)框架,让LLM利用自生成且验证正确的数据迭代优化。研究表明,无需强化学习、大型数据集或外部教师模型,TPT可以使较小模型推理性能媲美甚至超越大模型,凸显了TPT框架在提升模型推理能力和准确性的潜力。目前,缺乏高质量的训练数据仍然是提高大型语言模型(LLM)推理能力的主要障碍之一。斯坦福大学研究人员最近进行的一项研究探索了一个...
2025-05-30 10:47:37 964浏览 0点赞 0回复 0收藏
谷歌DeepMind推出的AlphaEvolve旨在自主发现算法和科学解决方案。它基于进化计算原理,通过LLM驱动的独立进化流程,不断优化代码。AlphaEvolve不仅超越人类专家设计的算法,还在数学和谷歌基础设施优化上取得突破。其自主创造力和持续自我改进能力,为迈向通用人工智能(AGI)和超级人工智能(ASI)提供了新方向。谷歌DeepMind最近发布了AlphaEvolve,这是一种进化式编码代理,旨在自主发现新算法和科学解决方案。在...
2025-05-29 08:17:20 532浏览 0点赞 0回复 0收藏
中国与西班牙的联合研究质疑当前AI通过数据扩容实现类人泛化能力的可行性,强调需突破架构限制以构建抽象推理机制,并呼吁重新审视“智能”的本质定义。引言中国和西班牙研究人员发表的一篇新论文发现,即使是像GPT4.1这样的先进多模态人工智能模型,也难以从模拟时钟图像中识别时间。时钟中细微的视觉变化都可能导致严重的解读错误,而微调也只对熟悉的示例有效。这一结果引发了人们对这些模型在现实世界任务中处理不熟悉图像...
2025-05-28 10:27:34 936浏览 0点赞 1回复 0收藏
LiteLLM允许开发者像调用OpenAIAPI那样集成各种大语言模型(LLM),并支持故障转移、预算控制、速率限制以及对API调用的实时监控。不同提供商发布的大语言模型(LLM)层出不穷——包括Anthropic、谷歌、Meta、微软、英伟达、OpenAI等等——这为开发者提供了丰富的选择,但也令复杂性一路攀升。每家提供商都有其独特的API特性和响应格式,使得在同一个应用中切换模型或支持多个后端变得愈发困难。作为一个开源项目,LiteLLM提供...
2025-05-27 08:17:21 842浏览 0点赞 0回复 0收藏