论文地址:SpikedrivenTransformerV2:MetaSpikingNeuralNetworkArchitectureInspiringtheDesignofNextgenerationNeuromorphicChips代码地址:https:github.comBICLabSpikeDrivenTransformerV2背景在神经形态芯片上运行脉冲神经网络(SpikingNeuralNetwork,SNN)的神经形态计算,是类脑计算领域的主流发展方向。CNNbasedSNN是神经形态计算领域内的主流架构,几乎所有的神经形态芯片都支持这一架构。最近,Transformerba...
2024-03-27 21:07:42 857浏览 0点赞 0回复 0收藏
论文标题:MMLLMs:RecentAdvancesinMultiModalLargeLanguageModels论文链接:https:arxiv.orgabs2401.13601实时网站:https:mmllms.github.io引言多模态(MM)预训练研究在最近几年取得了显著进展,持续推动了各种下游任务的性能边界。然而,随着模型规模和数据集的不断扩大,传统的多模态模型在从头开始训练时会产生大量的计算成本。考虑到多模态研究处于各种模态的交集,一个合理的方法是利用现成的预训练单模...
2024-03-27 20:58:09 1766浏览 0点赞 0回复 0收藏
这篇论文提出了一种新的联邦推荐算法FedRAP。FedRAP在联邦学习框架中同时针对用户信息和项目信息实施双边个性化策略,以此来增强推荐系统在隐私保护和个性化推荐方面的表现。它通过逐步提高正则化权重,平滑地从全面个性化过渡到加性个性化。同时,FedRAP还引入了对全局项目嵌入进行稀疏化处理的策略,有效降低了通信开销。论文标题:FederatedRecommendationwithAdditivePersonalization论文链接:https:arxiv.orgabs2301....
2024-03-27 20:50:32 1566浏览 0点赞 0回复 0收藏
LoRA(LowRankAdaptation)是当前LLM的参数高效微调手段之一,此前我们在《梯度视角下的LoRA:简介、分析、猜测及推广》也有过简单讨论。这篇文章我们来学习LoRA的一个新结论:给LoRA的两个矩阵分配不同的学习率,LoRA的效果还能进一步提升。该结论出自最近的论文《LoRA+:EfficientLowRankAdaptationofLargeModels》[1](下称“LoRA+”)。咋看之下,该结论似乎没有什么特别的,因为配置不同的学习率相当于引入了新的超参数,通常来...
2024-03-27 20:37:08 1965浏览 0点赞 0回复 0收藏
来自腾讯的研究者们做了一个关于agent的scalingproperty(可拓展性)的工作。发现:通过简单的采样投票,大语言模型(LLM)的性能,会随着实例化agent数量的增加而增强。其第一次在广泛的场景下验证了该现象的普遍性,与其他复杂方法的正交性,以及研究了其背后的原因,并提出进一步促成scaling发挥威力的办法。论文标题:MoreAgentsIsAllYouNeed论文地址:https:arxiv.orgabs2402.05120代码地址:https:github.c...
2024-03-27 16:57:48 729浏览 0点赞 0回复 0收藏