MLLM中”模态懒惰“和”模态偏差“问题常见解决方案总结。本篇继续说明MLLM中多模态对齐的难点以及现有的解决方法,本系列要说明的主要难点有:多模态数据构建跨模态差异影响融合效果模态对齐评估效率比较低上一篇中讲到了多模态数据构建的难点和解决方法,大模型面经——MLLM中模态对齐有哪些难点?有什么解决方法?本篇开始总结跨模态差异影响融合效果部分。具体来说就是不同模态特征分布差异显著(如图像与文本的...
2025-06-24 06:03:37 645浏览 0点赞 0回复 0收藏
多模态大模型中模态对齐数据构建的难点及解决方案。多模态大模型相对于LLM的训练难度更高一些,其中很关键的部分在于模态的对齐。多模态对齐需要把各种模态映射或对齐到token空间中,让图像、语音等多模态信息抽象为token表征,从而利用现有的LLM的技术实现多模态领域的思维链和涌现。那么本系列开始总结MLLM中多模态对齐的难点以及现有的解决方法,下面是本系列想要包含的内容。1.模态对齐的难点总结模态对齐数据构建跨模态差...
2025-06-10 10:42:03 843浏览 0点赞 0回复 0收藏
一种可以“自适应切换SFT与RL”的训练框架分享。大家应该都还记得,DeepSeekR1的“SFT>RL>增强SFT>增强RL”这种左脚踩右脚直接起飞的操作,这说明监督微调(SFT)与强化学习(RL)交替训练的训练范式确实可以提高模型性能。很多大佬也有自己做小规模实验,在进行新的训练范式探索:预训练后做两次SFT接一次RL预训练后先RL再SFT....那么如何设计训练框架能实现效果最优呢?本篇分享一种可以“自适应切换SFT与RL”的训练框架;这...
2025-05-27 06:48:51 1296浏览 0点赞 0回复 0收藏
LLMtraining转inference需要加强的知识总结。这篇附带一些职业规划的讨论,其实Training和Inference在不同公司不同岗位业务中的定位不同,但总得来说还是存在下面的区别:LLMTraining:包括但不限于优化模型架构(MoE),调节超参数优化loss,训练微调(SFT,pretrain,RL,蒸馏)等等,这个是把模型训得更聪明的过程。LLMInference:包括PD分离(KVcache优化,Pageattention,Radixattention),并行(各种parallelism,shardin...
2025-05-13 06:42:35 857浏览 0点赞 0回复 0收藏
智驾中的VLA方案总结。相对于VLM,最近智驾中开始流行VLA,VLM关注的重点在于环境建模,VLA除了考虑环境建模,还需要关注规划和控制问题。总得来说,这些VLA方案中都包含两个核心组件:PretrainedVLM,侧重思考和慢推理ActionModel,侧重动作预测那么本篇整合具身智能中主要的四种VLA方案,并联合智驾领域进行总结。下面是一个快捷目录。1.PretrainedVLMLLM+actionprediction2.Visionstateencoderdecodertransformer(fromscratc...
2025-05-13 06:41:08 771浏览 0点赞 0回复 0收藏
本篇分享RAG与longcontext结合的实践方案。本篇始于一个老生常谈的话题,“一旦大模型的ContextLength变大,RAG还有没有存活的必要?”RAG主要通过问题从知识库中找相关答案,然后把检索到的内容再用大模型总结;Longcontext相当于把全部文本内容输入给大模型,利用大模型查找或总结。这两者评估的维度包括成本、是否使模型变得更智能、是否可以混合检索和推理、是否可以缓存、推理时间等等。其实两者之争也相当于左右手之争,...
2025-04-09 12:17:30 1680浏览 0点赞 0回复 0收藏
本文介绍一种人类场景交互合成方法人类场景交互(HSI)生成对于具身人工智能、虚拟现实和机器人技术等领域的应用至关重要。虽然现有的方法能够在三维场景中合成逼真的人类动作,并生成看似合理的人与物体之间的交互,但这些方法严重依赖于包含配对的三维场景和动作捕捉数据的数据集。而在各种不同的环境和交互情况下收集这些数据既昂贵又耗时。本文介绍一种ZeroHSI,通过整合视频生成技术和神经人体技术,实现了零样本的四维人...
2025-03-24 13:12:04 1459浏览 0点赞 0回复 0收藏
本篇介绍超参数(学习率)跨模型尺度的迁移规律。众所周知,完整训练一次大型LLM的成本是昂贵的,这就决定了我们不可能像以前一样直接在大型LLM上反复测试超参数。一个很自然的想法是希望可以在同结构的小模型上仔细搜索超参数,找到最优组合后直接迁移到大模型上。尽管这个想法很朴素,但要实现它并不简单,它需要我们了解常见的超参数与模型尺度之间的缩放规律,本次介绍的文MaximalUpdateParametrization,简称“muP”,正是...
2025-03-17 13:07:44 1882浏览 0点赞 0回复 0收藏
本文介绍一种图像编码的方法。图像标记化推动了自回归图像生成发展,但传统2D网格标记和现有1D标记方法存在不足,如无法适应图像内在复杂性。FlexTok创新之处在于可将2D图像投影为可变长度、有序的1D标记序列,图像标记化通过提供一种比原始像素更高效、更易处理的压缩离散表示,极大地推动了自回归图像生成的发展。传统方法多采用二维网格标记化,但像TiTok这样的最新研究表明,一维标记化能够通过消除网格冗余来实现高质量的...
2025-03-03 09:37:53 1925浏览 0点赞 0回复 0收藏
本篇主要总结目前三种scalinglaw:Pretrain、RL、TestTime相关的内容。现在关于scalinglaw是否“撞墙”的讨论越来越多,ChinchillaScalingLaw推断,"即使没有新数据,也并不意味着模型效果提不上去了,很简单,只要增加基座模型尺寸,效果仍然会提高,只是从付出的算力和获得的效果提升来说很不合算,性价比过低"。这也是为什么大家由PretrainScalingLaw转到RLScalingLaw和TestTimeScalingLaw的原因。本篇就来以面经的形式整理...
2025-02-27 12:50:47 2983浏览 0点赞 0回复 0收藏
本篇分享SFT和RL在大模型训练中起到的作用。监督微调(SFT)和强化学习(RL)都是目前大模型的基础模型后训练技术,像DeepSeekR1、kimi等的训练方法都将两种技术应用到了极致。如何去设计训练步骤(先SFT再RL,还是直接RL)都需要对SFT和RL的能力有较深刻的了解。本篇就以面经的形式,探讨SFT、RL两种不同的后训练范式在基于文本规则和视觉变体的情况下对模型记忆与泛化能力的作用。下面是一个快捷目录。一、SFT和RL分别对基座大...
2025-02-21 16:17:38 2708浏览 0点赞 0回复 0收藏
本文介绍一种视觉tokenizer的生成。AIGC生成模型在人工智能领域发展迅速,视觉生成主要有基于语言模型和扩散模型两种范式,而tokenizer是其核心组件。现有tokenizer分别针对图像或视频输入设计,存在应用灵活性和数据可扩展性的局限。因此需要一种联合图像视频标记器,以实现从两种数据中联合学习,缓解单模态数据稀缺问题,并提高模型的通用性和可扩展性。今天介绍一种OmniTokenizer方法,感兴趣的小伙伴可以看看原文:https:a...
2025-01-09 10:15:07 2055浏览 0点赞 0回复 0收藏
本篇总结了多模态大模型的评测任务和指标。目前多模态大型语言模型(MLLMs)的研究主要集中在模型架构和训练方法上,但用于评估这些模型的基准测试的分析还比较少。另外目前评测可能还存在三大问题:目标不一致:每个模态、基准测试都有不同的目标,导致研究领域碎片化。任务饱和:多样化目标驱动的任务激增,这种饱和使得很难辨别真正创新或有影响力的基准测试,导致宝贵的资源被忽视或利用不足。指标演变与差异:曾经推出发一...
2024-12-20 14:47:59 7988浏览 0点赞 0回复 0收藏
本文将以LLaVA和MiniGPT4为例介绍多模态大模型数据构造的方式。数据质量是决定多模态模型性能的关键因素。高质量的数据能够减少噪声干扰,提高模型的学习和预测准确性。同时多模态数据的多样性直接影响模型的泛化能力。一个包含丰富多样数据的集合能够训练出更加健壮的模型,使其能够在不同的应用场景中表现良好。本文以LLaVA和MiniGPT4为例,介绍相关多模态数据的构造过程,给大家在训练或者微调自己的多模态模型提供思路。L...
2024-11-19 12:54:36 3217浏览 0点赞 0回复 0收藏
本篇总结了显卡利用率评估方法及显卡运用优化方法。本篇来总结一些显卡优化的经验,还是按照面经的形式给出,希望能给到大家一些实际训练效率优化的帮助下面是一个快捷目录。一、如何评估显卡利用率?二、如何优化显存利用率?一、如何评估显卡利用率使用deepseed时,zero3如果没有nvlink,多卡训练下会变慢很多,下面有三种方法来评估训练时发挥了多少GPU性能。1.flops比值法采用Nvidia可参考的显卡峰值计算速度进行计算gpu...
2024-11-19 12:51:31 3119浏览 0点赞 0回复 0收藏
本文介绍经典模型之SwinTransformer。SwinTransformer是一种经典的视觉Transformer架构,专为计算机视觉任务设计,通过层次化的特征表达和创新的移位窗口自注意力机制,有效地处理高分辨率图像,具有通用性和灵活性,适用于图像分类、目标检测和语义分割等多种视觉任务。感兴趣的小伙伴可以看看论文:https:arxiv.orgabs2103.14030模型介绍上图为SwinTransformer模型图。整个模型采取层次化的设计,一共包含4个Stage,...
2024-11-08 12:36:25 4167浏览 0点赞 0回复 0收藏
分布式训练指南理论篇。本篇来总结一些分布式训练的知识,还是按照面经的形式给出,希望能给到大家一些帮助。题目1训练一个LLM,需要的显存规模跟参数的关系是什么?2.如果有N张显存足够大的显卡,怎么加速训练?3.如果有N张显卡,但每个显卡显存都不足以装下一个完整的模型,应该怎么办?4.PP推理时是串行的,1个GPU计算但其他空闲,有什么其他的优化方式?5.DP、TP、PP这3种并行方式可以叠加吗?6.3D并行或者直接上多机多卡...
2024-11-04 13:56:14 2649浏览 0点赞 0回复 0收藏
本文介绍LLM大模型中其中一种思维链DoT。尽管传统的思维链方法使大型语言模型能够进行“思考”,例如思维树和思维图方法通过引入分叉结构来探索多种推理路径。然而,这些方法通常需要额外的控制机制或依赖多个模型的协同工作,这无疑增加了实现和部署的难度。清华大学的研究团队最近提出了一个新的思维链框架思维图(DiagramofThought,DoT),号称是能够超越线性思维的突破。感兴趣的小伙伴可以看看原文:https:arxiv.orgp...
2024-10-29 14:06:42 2470浏览 0点赞 0回复 0收藏
RAG工程经验面经总结。虽然RAG工程整体有很多论文、算法和方法论,但在实际使用过程中,当数据量大了RAG很容易出现不可控的问题,本篇就针对实践过程中遇到的问题总结面经进行分享,看看能不能给大家提供一些帮助。下面是一个快捷目录。一.RAG如何去优化索引结构?二.当混合检索以及基于不同大小的chunk去检索效果都不太好的时候,如何优化?三.如何通过rerank去提升RAG效果的,有哪些方案?下面是答案。一.RAG如何去优化索引...
2024-10-24 13:29:30 2843浏览 0点赞 0回复 0收藏
本文介绍视觉目标检测模型YOLOv11。2024年9月30日,在YOLOVision活动上,Ultralytics团队正式宣布发布YOLOv11。短短2年,YOLO就从YOLOv8一下子迭代到YOLOv11,可见目前AI的发展速度。感兴趣的小伙伴可以看看官方的仓库:https:github.comultralyticsultralytics模型介绍对比YOLOv8(Ultralytics前一代出品),主要有三个模型结构的变化:C3k2机制。上图为C3k的网络结构图,2是指调用时C3k其中的参数N固定设置为2。不过从结构...
2024-10-18 15:26:52 7654浏览 0点赞 0回复 0收藏