熵减AI
LV.1
科技类博客
声望 90
关注 0
粉丝 0
私信
主帖 10
回帖
我觉得LLaMA4最值得看的技术就是iRoPE,他们自己没出说说明,所以我试着解读了一下:简单来说,iRoPE技术是对标准RoPE位置编码方式的升级,主要解决了在处理超长文本时出现的问题。交错式应用(InterleavedApplication):标准RoPE在模型的每一层Q和K都用旋转操作来编码PI页就是位置编码。iRoPE的做法是“交替进行”——有些层用带RoPE的注意力机制,有些层不用(或者用其他方法)。这样做的目的是为了防止在处理很长的文本时,位...
8天前 407浏览 0点赞 0回复 0收藏
最近看了一张画Agent记忆分类的图我觉得分类分的还可以,但是太浅了,于是就着它的逻辑,仔细得写了一下在不同的记忆层,该如何设计和选型先从流程,作用,实力和持续时间的这4个维度来解释一下这几种记忆:1.短期记忆(ShortTermMemory,STM)流程:Input(输入)→Encode(编码)→Store(存储)→Erase(清除)作用:在进行活动时保持临时细节,类似于我们在对话中临时记住的信息。示例:保存最近的交互信息,比如刚刚发送的...
2025-05-27 07:11:12 563浏览 0点赞 0回复 0收藏
那什么是粗暴的控制LLM的幻觉的方法呢?正常你们大家学到的应该是temperature0topk1topp0.1类似这种的但是这种是不是能解决幻觉呢?很显然在做的各位试过,应该是没什么效果的。为什么呢正常来讲,我们不是把生成nexttoken的概率放到最大的那个token上了吗?今天先回忆个概念LLM是靠什么来决定nexttoken生成的,就是Logit,就是softmax你的前向计算的最后一层(这么表达不精确,但是你可以认为就算最后一层了)过了output之后呢...
2025-05-14 00:30:26 626浏览 0点赞 0回复 0收藏
如果你玩过开源的Text2video,也就是文生视频,也会感慨AI越来越能整活儿了,但是如果你好奇去各大平台看一圈,基本上视频最大就是在810秒左右,甚至有35秒的。(sora能到20秒)当然有兄弟说是算力的问题,这个确实是一个问题,生成视频diffusion的算力确实要比纯text多,但是这个如果有钱也不是问题(后文我们发现其实就算有钱也是问题),但是现在我们谈论的是钱解决不了的问题,一致性。这个一致性指的是多帧一致性比如这个...
2025-04-28 00:07:45 1040浏览 0点赞 0回复 0收藏
我见过的最省的GPT4o,Claude,Gemini2级别的模型,而且是国内唯一有机会上桌的,其实海外目前和这三家有资格掰手腕的也只有它自己,可以负责任的说其他的模型不配上桌吃菜(Gemini上个月都没资格)。其实性能好就不说了,DeepseekR1就还不错,国内讲道理是第一家做inferencetimingscalinglaw的模型,阿里是第二家,其他的就不太值得谈论了,其实国外也只有GPT和Google有资格,没想到年底还能出个DeepseekV3,在传统scalinglaw...
2025-04-16 07:55:06 1684浏览 0点赞 0回复 0收藏
论文名称KBLAM:KNOWLEDGEBASEAUGMENTEDLANGUAGEMODELICLR2025的论文,MS系的这篇论文介绍了一种名为KBLAM(KnowledgeBaseaugmentedLanguageModel,知识库增强语言模型)的新方法,用于将外部知识库(KB)高效地集成到预训练的大型语言模型(LLM)中,以提升其在特定任务中的表现,同时避免传统方法的局限性。核心问题与背景LLM虽然在知识和推理方面表现优异,但当需要处理超出其参数存储知识的外部信息时,往往需要额外的增强手...
2025-04-03 07:30:02 1587浏览 0点赞 0回复 0收藏
我之前演示过几个OpenManus的demo,其实也就是demo,包括manus,现在也就是demo阶段,复杂的plan和flow,现在的代码支撑和LLM的能力都有待改善,但是我们这期不是吐槽文章,是来把OpenManus给打开看看它的实现是怎么样的,其实Manus也都差不多,甚至OWL也都差不多,我们看一个就够了。其他的几个目录也没啥特别需要看的,就看app。app里面有这么几个结构:1agent没啥好解释的2flow就是来做multiagent的planning和管理任务框架的...
2025-03-25 00:31:21 1941浏览 0点赞 0回复 0收藏
总结,模型门户留给GPT5去做了,4.5还是像Altman之前说的就是最后一代纯预训练。1一个超巨大的模型,grok3级别(10万卡),AK说每个0.5要提升10倍预训练算力,那对比GPT4的1.8T,也就说4.5是一个18T(18000B)级别的模型,所以必须跨多campus,异步梯度下降的训练方式(要求太高,这个目前只有grok,oai,gemini,3家真正严格实践过,anthropic都不行)。2拥有更多的知识(o3和人类比如博士生做题的合成数据),比4o能力提升百分之50(其实...
2025-03-12 00:22:42 1760浏览 0点赞 0回复 0收藏
其实我这个问题不算瞎问。在你的项目里,你是真觉得GraphRAG有用,还是就图个新鲜劲,这个是非常重要的思考。RAG能干啥,其实不用复杂的解释了。传统的方式就是基于向量余弦近似度的查找,当然BM25其实也是传统RAG(别把它当新东西),常见一点的基本都有向量查找,或者向量+BM25关键字集成查找,为了方便我就画向量的了。如下图:通用LLM里不太存在专用领域的知识,RAG可以作为外挂知识库的补充,补充新的知识,另外有些问题,...
2025-02-27 13:11:25 1882浏览 0点赞 0回复 0收藏
有点意思的论文2410.13639ACOMPARATIVESTUDYONREASONINGPATTERNSOFOPENAI’SO1MODEL简而言之就是曼彻斯特大学,浙大和中科大还有一些开源的项目组一些一起研究OpenAIO1的人,来发O1为什么牛B的论文。正常,研究红楼梦毕竟也有红学(我是一集红楼梦也没看过,书和电视都没看过)。。。文章主要讲分析猜测和评估OpenAI的推理模式在不同任务上的效果。同时也利用不同的模型比如GPT4o,Gemma,LLama,Qwen等尝试利用分析出来的O1的推...
2025-02-19 09:11:43 1736浏览 0点赞 0回复 0收藏
获得成就
已积累 3118 人气
获得 0 个点赞
获得 0 次收藏