CourseAI
LV.3
专注发布AI技术实战和案例教程,包括NLP、CV、LLM、RAG、Agent等
声望 266
关注 0
粉丝 1
私信
主帖 28
回帖
一、项目定位与核心价值HybridSchemaGuidedReasoning(SGR)是一个革命性的AI研究智能体框架,它通过独创的「两阶段推理执行架构」和「持久化上下文记忆系统」,解决了当前AI助手在复杂研究任务中的三大核心痛点:推理黑箱化、上下文遗忘症、工具调用僵化。该项目不仅仅是一个简单的问答机器人,而是一个完整的「AI研究操作系统」,它具备:认知透明性:每个决策都有完整的思维链可追溯记忆持续性:跨会话保存用户交互历史与研...
2025-09-03 00:12:23 1129浏览 1点赞 0回复 1收藏
大型语言模型(LLM)目前在聊天机器人、编码助手、问题解答、创意写作等等应用方面取得了巨大的成功。但是,每个查询到达LLM之前没有记忆的,固定上下文窗口(contextwindows),意味着他们无法在长时间的对话或多会话任务中积累持久的知识,并且很难推理复杂的历史。最近的解决方案,如检索增强生成(RAG),将过去的信息附加到提示中,但这通常会导致嘈杂的,未经过滤的上下文,用太多无关的细节或缺失的关键事实淹没模型MemoryR1框架...
2025-09-03 00:11:15 1160浏览 0点赞 0回复 0收藏
检索增强生成系统(RAG)正从早期“检索+生成”的简单拼接,走向融合自适应知识组织、多轮推理、动态检索的复杂知识系统(典型代表如DeepResearch、Searcho1)。但这种复杂度的提升,使开发者在方法复现、快速迭代新想法时,面临着高昂的工程实现成本。基于ModelContextProtocol(MCP)架构设计的RAG框架。这一设计让科研人员只需编写YAML文件,就可以直接声明串行、循环、条件分支等复杂逻辑,从而以极低的代码量快速实现多阶段...
2025-09-03 00:10:00 1251浏览 0点赞 0回复 0收藏
今天看到了一个特别有意思的产品,基于大语言模型(LargeLanguageModel,LLM)和RAG(RetrievalAugmentedGeneration,检索增强生成)的结构化数据问答系统。其实就是根据prompt给定的schema数据结构,将查询转化成SQL语句,再去数据库里执行查询,然后生成数据图表及分析。比较新颖的是后面的看板用法:在获得基础图表结果后,支持进一步分析、解释、验证以及预测,把多个问答对话构建成一个数据看板.从产品体验上,感觉非常惊艳...
2025-08-21 09:26:13 1467浏览 0点赞 0回复 0收藏
复杂科学文献中数学公式识别的问题,对于科学文献的智能化分析至关重要,但现有的特定任务模型和通用视觉语言模型在处理公式结构多样性、复杂性和现实变化时仍存在不足。一、当前方案的局限性依赖特定任务模型:大多数现有公式识别方法依赖于为特定任务设计的模型架构,这些模型在新任务中需要重新设计架构,缺乏通用性。复杂性和多样性不足:现有数据集和方法主要关注结构简单、符号种类有限的公式,而忽略了多学科、高度复杂...
2025-08-12 06:27:59 706浏览 0点赞 0回复 0收藏
1.为什么传统RAG不够用了?图1传统RAG只能返回静态网页,而TURA可以实时调用携程API查询机票痛点:现有检索增强生成(RAG)系统只能读取已索引的静态网页,无法回答“下周从北京到上海的最低票价是多少”这类需要实时数据的问题。需求:用户希望一次对话就能完成查票、订酒店、看天气、规划路线等多件事。2.TURA登场:三阶段“工具人”架构图2TURA三阶段框架总览:检索→规划→执行TURA(ToolAugmentedUnifiedRetrievalAgent)...
2025-08-12 06:23:32 2412浏览 0点赞 0回复 0收藏
Anthropic发布的全新PromptEngineering指南,包含:元提示、模板、系统角色、XML标签等关键技术。prompt通常包含以下两种类型的内容:固定内容:在多次交互中保持不变的静态指令或上下文变量内容:随每个请求或对话而变化的动态元素,例如:用户输入用于检索增强生成(RAG)的检索内容对话上下文,如用户账户历史系统生成的数据,如来自其他调用的工具使用结果prompt模板:将这些固定和变量部分结合在一起,为动态内容使用占位...
2025-08-12 06:18:52 1873浏览 0点赞 0回复 0收藏
自从GPT2(2019)开启Decoderonly模型以来,到今天DeepSeekV3和Llama4(20242025),大家会觉得这些模型在结构上仍然相似。当然,位置嵌入已经从绝对到旋转(RoPE)发展,多头注意力在很大程度上让位于GroupedQueryAttention,更高效的SwiGLU已经取代了像GELU这样的激活函数。接下来,将重点介绍一下,模型的变迁。1.DeepSeekV3R1DeepSeekR1在2025年1月发布时产生了巨大影响。DeepSeekR1是一个基于DeepSeekV3架构构建的推理模型,该模型于2...
2025-07-23 07:43:44 2752浏览 0点赞 0回复 0收藏
VLM实际生产应用过程慢的原因VLMs通过结合视觉信息和文本信息,能够实现对图像内容的深入理解和生成。然而,随着图像分辨率的提高,现有的视觉编码器(如VisionTransformers,ViTs)在处理高分辨率图像时面临效率瓶颈。高分辨率图像虽然能够提供更丰富的细节,但会显著增加视觉编码器的延迟和计算成本,尤其是在生成视觉令牌(visualtokens)时。此外,高分辨率图像产生的大量视觉令牌还会增加大型语言模型(LLM)的预填充时间...
2025-07-23 07:29:27 2224浏览 0点赞 0回复 0收藏
一、模型架构jinaembeddingsv4的架构基于Qwen2.5VL模型,并进行了扩展以支持单向量和多向量输出。对于文本输入,模型采用标准的基于Transformer的处理方式,将文本分词后转换为向量序列,然后输入到大型语言模型(LLM)中。对于图像输入,首先通过一个离散的图像模型将图像转换为多向量结果,类似于文本中的“图像标记”,然后将这些“图像标记”传递给LLM,使其能够像处理文本标记一样处理图像信息。一共Lora微调了三个任务,...
2025-07-02 07:11:26 1718浏览 0点赞 0回复 0收藏
在PDF文档解析领域,布局检测、阅读顺序预测、手写体文字识别等领域都已经有了很多非常成熟,且可靠的方案。但是,复杂表格的解析,依然是眼前非常难啃的骨头。例如:表格中单元格跨列、跨行的合并;跨页表格的融合;表头重复、冗余等问题今天分享的OCRFlux是基于qwen2.5vl3B模型微调的,一个复杂表格的解决方案。一、OCRFlux创新点1.1单页解析技术复杂表格解析OCRFlux在训练数据中使用HTML格式表示表格,使其能够自然地支持复...
2025-07-02 07:07:51 4711浏览 0点赞 0回复 0收藏
一、多智能体系统的优点应对研究工作的不可预测性:研究工作通常面临开放性问题,难以提前预知所需步骤。多智能体系统能够根据调查过程中出现的新线索动态调整研究方向,与人类研究者类似,自主决策探索路径,适应复杂多变的研究主题,避免了线性、一次性流程的局限性。促进信息压缩与专注:子智能体通过并行处理不同问题方面,利用各自独立的上下文窗口,同时探索问题的多个维度,之后提炼出重要信息传递给主研究智能体,实现...
2025-06-19 06:43:50 1699浏览 0点赞 0回复 0收藏
一、多模态训练的诸多难点多模态模型在处理不同模态数据时(如文本、图像、音频和视频)需要面临许多挑战:模态间的表示差异:不同模态的数据在特征表示上存在显著差异。例如,图像数据通常是像素级的二维信息,而文本数据是离散的符号序列,音频数据则是连续的时间序列。这种差异使得在单一模型中融合多种模态变得困难。训练过程中的收敛速度不一致:不同模态的数据量和复杂度不同,导致模型在训练过程中,各模态的收敛速度不...
2025-06-19 06:34:54 1682浏览 0点赞 0回复 0收藏
2025年是Agent之年。AI能力现在已经在多个领域达到了人类水平,我们都将拥有触手可及的代理团队,在我们的个人生活、工作及其他方面帮助我们。随着代理群的到来,通过MCP、A2A和其他协议连接起来,我们认为这些协议的核心必须具有坚实、开放、透明和可审计的基础。对于真正重要的事情尤其如此——管理我们的健康、教育我们的孩子、协调我们的财务系统等等。这些可以集成专有和专家系统,以两全其美。今天分享的IIAgent,不仅在...
2025-06-06 07:54:12 2109浏览 0点赞 0回复 0收藏
需要解决的问题统一图像理解和生成:以前的方案没有融合图像理解和生成量大任务,例如:在生成复杂场景、特定对象或高质量图像时表现不足,同时在图像理解和生成任务之间缺乏有效的协同训练机制。提升生成质量和效率:传统的基于VAE(变分自编码器)的图像表示方法在生成图像时存在分辨率限制和训练效率低下的问题在统一框架中高效地生成高质量图像并保持图像理解能力,是需要解决的关键问题之一。核心思想融合自回归模型和扩散...
2025-05-26 00:50:58 1752浏览 0点赞 0回复 0收藏
一、现有方案的局限性现有的文档图像解析解决方案主要分为两大类:基于集成的方法和端到端的方法。基于集成的方法通过将多个专家模型组装到一个多阶段的流水线中来实现文档解析,这些方法虽然在特定任务上表现出色,但需要对每个模型进行独立优化,并且在组件间协调方面面临挑战。端到端的方法则利用通用或专家视觉语言模型(VLMs)直接自回归地生成页面级内容,虽然能够捕捉页面级语义,但在解析长文档和复杂布局时,常常会遇...
2025-05-26 00:43:11 1478浏览 0点赞 0回复 0收藏
OpenAIo1和DeepSeekR1,通过奖励驱动的学习,而无需依赖于明确的逐步监督,在逻辑推理和迭代推理方面取得了显著的成果。使用RL训练能够更有效地搜索相关信息的策略模型。例如,SearchR1、R1Searcher和ReSearch等模型都尝试通过强化学习来提升模型的搜索能力。这些方法通常使用静态的本地文本语料库,如维基百科,无法捕捉到现实世界交互的复杂性。DeepResearcher引入了与商业搜索引擎(如谷歌)的实时交互,使得模型能够在接近...
2025-05-12 01:17:01 1656浏览 0点赞 0回复 0收藏
训练一个好的向量模型的重点在于最大限度地利用了更多、更高质量的负样本,来训练模型。腾讯提出的Conanembedding,采用了动态硬负样本挖掘方法,以便在整个训练过程中向模型展示更多具有挑战性的负样本。最近发布ConanembeddingV2版本,在MTEB榜单上已经超越了BGE等一众传统豪强。支持中、英双语一、ConanembeddingV2V1版本主要基于通用预训练的双向Bert模型进行Embedding任务的训练。V2版本从头训练了原创词表和模型结构的大...
2025-04-25 06:47:48 3246浏览 0点赞 0回复 0收藏
文档问答太难了含有丰富文本和视觉元素(如图表、图像等)的长文档,在进行文档问答时,现有的方案有其局限性:传统的大型语言模型(LLMs)仅能处理文本信息大型视觉语言模型(LVLMs)虽然能够处理视觉内容,但在处理长文档时往往效率低下,并且难以对文本和视觉信息进行有效的融合与推理。现有的检索增强生成(RAG)方法虽然能够从长文档中提取关键信息,但它们通常仅依赖于单一模态(文本或图像)进行检索,缺乏跨模态的信息...
2025-04-14 23:56:55 1967浏览 0点赞 0回复 0收藏
AutoAgent是将智能体开发过程从传统的编程模式转变为一种自然语言驱动的自动化过程。通过模拟现代计算机操作系统的工作方式,将复杂的智能体开发任务分解为多个模块化的组件通过自然语言接口实现这些组件之间的交互和协调。这种方法不仅降低了智能体开发的门槛,还提高了开发效率和系统的灵活性。AutoAgent架构AutoAgent框架基于其四个关键组件:智能体系统工具(AgenticSystemUtilities)提供了基础的多智能体架构,其中包含专...
2025-04-02 00:11:16 2866浏览 0点赞 0回复 0收藏
获得成就
已积累 1.8w 人气
获得 1 个点赞
获得 1 次收藏