#码力全开·技术π对#Google Gemini 大模型在多模态任务中,文本与图像特征融合的底层注意力机制是如何优化

Google Gemini 大模型在多模态任务中,文本与图像特征融合的底层注意力机制是如何优化的,相比 Transformer 原生结构有哪些效率提升?

Google Gemini
卫斯理
1天前
浏览
收藏 0
回答 1
待解决
回答 1
按赞同
/
按时间
key_3_feng
key_3_feng

其底层采用局部/块状注意力动态选择交互范围,减少冗余计算;跨模态融合时,通过共享键值投影矩阵(如图像与文本的交叉注意力),降低内存占用。相比Transformer全注意力的O(n²)复杂度,Gemini通过稀疏模式将计算量降至接近线性,并借助分层注意力优先处理高信息密度区域,显著提升长序列和多模态任务的处理效率。

分享
微博
QQ
微信https://www.51cto.com/aigc/
回复
1天前
发布
相关问题
提问