熵减AI
LV.2
科技类博客
声望 107
关注 0
粉丝 0
私信
主帖 13
回帖
图片一般你们下AR模型的时候,都有这个,也就是tokenzier,tokenizer是干啥的,其实就是你的分词字典不光有specal的token对应的还有实际的对应的分词对应的代码,比如:图片也有tokenzier没显示的,比如,为什么呢?因为它不是文本模型,人家输入是声音,因为它是ASR扯远了,回归主题tokenizer之所以总是个独立的model,因为它和transformer不是一个网络,它也不参与transformer训练时候的反向传播(和embedding层两回事,embed...
6天前 425浏览 0点赞 0回复 0收藏
图片清华,交大,普林斯顿和德州奥斯丁,港大等一堆学生联合完成的一篇论文(全华班)文章虽然被冠以Distill,但是严格说和我们理解的Distill没啥关系,最早的Distill要求有训练任务和损失的交互,后来Deepseek把抽COT数据来FT也叫Distill直到这个文章,连LLM的参数都被冻结了,也算是老词新用吧!AgentDistill实现知识蒸馏的机制与传统的大语言模型(LLM)蒸馏方法不同。它通过以下关键方式实现知识转移:训练无关的代理蒸馏:...
2025-07-07 06:58:39 536浏览 0点赞 0回复 0收藏
排名是真的挺好,开源闭源现在都是第一了,这个事embeddiing的,rerank应该也是第一,甚至4B的基本也除了8B以外就是它第一。它和普通的比如原来的我们常用的BGE之类的有啥区别?传统的embedding都是基于bert来弄模型,一般也就encoderonly,bert原来也就是干分类器的,给一句话到它,它给你进行embedding了,这里考虑到有些同学可以不理解整套流程,我就稍微说细点一般来讲用3层法就很好理解:第一层:词元嵌入(TokenEmbedding...
2025-06-23 06:46:29 1166浏览 0点赞 0回复 0收藏
我觉得LLaMA4最值得看的技术就是iRoPE,他们自己没出说说明,所以我试着解读了一下:简单来说,iRoPE技术是对标准RoPE位置编码方式的升级,主要解决了在处理超长文本时出现的问题。交错式应用(InterleavedApplication):标准RoPE在模型的每一层Q和K都用旋转操作来编码PI页就是位置编码。iRoPE的做法是“交替进行”——有些层用带RoPE的注意力机制,有些层不用(或者用其他方法)。这样做的目的是为了防止在处理很长的文本时,位...
2025-06-10 06:42:53 770浏览 0点赞 0回复 0收藏
最近看了一张画Agent记忆分类的图我觉得分类分的还可以,但是太浅了,于是就着它的逻辑,仔细得写了一下在不同的记忆层,该如何设计和选型先从流程,作用,实力和持续时间的这4个维度来解释一下这几种记忆:1.短期记忆(ShortTermMemory,STM)流程:Input(输入)→Encode(编码)→Store(存储)→Erase(清除)作用:在进行活动时保持临时细节,类似于我们在对话中临时记住的信息。示例:保存最近的交互信息,比如刚刚发送的...
2025-05-27 07:11:12 1142浏览 0点赞 0回复 0收藏
那什么是粗暴的控制LLM的幻觉的方法呢?正常你们大家学到的应该是temperature0topk1topp0.1类似这种的但是这种是不是能解决幻觉呢?很显然在做的各位试过,应该是没什么效果的。为什么呢正常来讲,我们不是把生成nexttoken的概率放到最大的那个token上了吗?今天先回忆个概念LLM是靠什么来决定nexttoken生成的,就是Logit,就是softmax你的前向计算的最后一层(这么表达不精确,但是你可以认为就算最后一层了)过了output之后呢...
2025-05-14 00:30:26 1037浏览 0点赞 0回复 0收藏
如果你玩过开源的Text2video,也就是文生视频,也会感慨AI越来越能整活儿了,但是如果你好奇去各大平台看一圈,基本上视频最大就是在810秒左右,甚至有35秒的。(sora能到20秒)当然有兄弟说是算力的问题,这个确实是一个问题,生成视频diffusion的算力确实要比纯text多,但是这个如果有钱也不是问题(后文我们发现其实就算有钱也是问题),但是现在我们谈论的是钱解决不了的问题,一致性。这个一致性指的是多帧一致性比如这个...
2025-04-28 00:07:45 1656浏览 0点赞 0回复 0收藏
我见过的最省的GPT4o,Claude,Gemini2级别的模型,而且是国内唯一有机会上桌的,其实海外目前和这三家有资格掰手腕的也只有它自己,可以负责任的说其他的模型不配上桌吃菜(Gemini上个月都没资格)。其实性能好就不说了,DeepseekR1就还不错,国内讲道理是第一家做inferencetimingscalinglaw的模型,阿里是第二家,其他的就不太值得谈论了,其实国外也只有GPT和Google有资格,没想到年底还能出个DeepseekV3,在传统scalinglaw...
2025-04-16 07:55:06 2185浏览 0点赞 0回复 0收藏
论文名称KBLAM:KNOWLEDGEBASEAUGMENTEDLANGUAGEMODELICLR2025的论文,MS系的这篇论文介绍了一种名为KBLAM(KnowledgeBaseaugmentedLanguageModel,知识库增强语言模型)的新方法,用于将外部知识库(KB)高效地集成到预训练的大型语言模型(LLM)中,以提升其在特定任务中的表现,同时避免传统方法的局限性。核心问题与背景LLM虽然在知识和推理方面表现优异,但当需要处理超出其参数存储知识的外部信息时,往往需要额外的增强手...
2025-04-03 07:30:02 2095浏览 0点赞 0回复 0收藏
我之前演示过几个OpenManus的demo,其实也就是demo,包括manus,现在也就是demo阶段,复杂的plan和flow,现在的代码支撑和LLM的能力都有待改善,但是我们这期不是吐槽文章,是来把OpenManus给打开看看它的实现是怎么样的,其实Manus也都差不多,甚至OWL也都差不多,我们看一个就够了。其他的几个目录也没啥特别需要看的,就看app。app里面有这么几个结构:1agent没啥好解释的2flow就是来做multiagent的planning和管理任务框架的...
2025-03-25 00:31:21 2560浏览 0点赞 0回复 0收藏
总结,模型门户留给GPT5去做了,4.5还是像Altman之前说的就是最后一代纯预训练。1一个超巨大的模型,grok3级别(10万卡),AK说每个0.5要提升10倍预训练算力,那对比GPT4的1.8T,也就说4.5是一个18T(18000B)级别的模型,所以必须跨多campus,异步梯度下降的训练方式(要求太高,这个目前只有grok,oai,gemini,3家真正严格实践过,anthropic都不行)。2拥有更多的知识(o3和人类比如博士生做题的合成数据),比4o能力提升百分之50(其实...
2025-03-12 00:22:42 2259浏览 0点赞 0回复 0收藏
其实我这个问题不算瞎问。在你的项目里,你是真觉得GraphRAG有用,还是就图个新鲜劲,这个是非常重要的思考。RAG能干啥,其实不用复杂的解释了。传统的方式就是基于向量余弦近似度的查找,当然BM25其实也是传统RAG(别把它当新东西),常见一点的基本都有向量查找,或者向量+BM25关键字集成查找,为了方便我就画向量的了。如下图:通用LLM里不太存在专用领域的知识,RAG可以作为外挂知识库的补充,补充新的知识,另外有些问题,...
2025-02-27 13:11:25 2331浏览 0点赞 0回复 0收藏
有点意思的论文2410.13639ACOMPARATIVESTUDYONREASONINGPATTERNSOFOPENAI’SO1MODEL简而言之就是曼彻斯特大学,浙大和中科大还有一些开源的项目组一些一起研究OpenAIO1的人,来发O1为什么牛B的论文。正常,研究红楼梦毕竟也有红学(我是一集红楼梦也没看过,书和电视都没看过)。。。文章主要讲分析猜测和评估OpenAI的推理模式在不同任务上的效果。同时也利用不同的模型比如GPT4o,Gemma,LLama,Qwen等尝试利用分析出来的O1的推...
2025-02-19 09:11:43 2147浏览 0点赞 0回复 0收藏
获得成就
已积累 4625 人气
获得 0 个点赞
获得 0 次收藏