NLP工作站
LV.1
AIGC前沿知识分享&落地经验总结
声望 51
关注 0
粉丝 0
私信
主帖 5
回帖
写在前面大家好,我是刘聪NLP。大模型时代,数据至上,如何利用大模型合成更多高质量数据也备受关注。今天给大家分享一个有意思的大模型合成数据方法MAGPIE,在不需要种子数据和额外人工干预的情况下,挖掘出对齐过的模型自身的指令数据。《MAGPIE:AlignmentDataSynthesisfromScratchbyPromptingAlignedLLMswithNothing》paper:https:arxiv.orgabs2406.08464github:https:github.commagpiealignmagpie核心思想:对齐过的大模型...
2天前 108浏览 0点赞 0回复 0收藏
写在前面大型语言模型在预训练过程中,如何选取数据的混合比例(利用较少的Tokens来实现较小的Loss从而加速预训练过程)是一个复杂和关键的问题。手动确认数据集中各个组成的比例是不可扩展的,并且很可能不是最优选择。今天给大家介绍一个用回归任务解决大模型数据混合问题的方法RegMix。其核心思想是,利用不同的数据混合比例先训练多个小模型并获取其结果,在利用这些样本训练一个回归模型,再遍历所有比例利用回归模型找到...
4天前 133浏览 0点赞 0回复 0收藏
写在前面大家好,我是刘聪NLP。Llama3模型已经开源,可以就在这短短的两天之内,就出现了很多ChineseLlama3repo,开源社区也是相当的卷。再看到Llama3相关报告的时候,就预料到会有很多ChineseLlama3,因为Llama3对中文十分不友好,15TTokens的训练数据,仅有5%(750BTokens)是其他语言,那么中文就更少了。当时还抖激灵,说先开个repo占个坑(其实是想做但没卡)很多网友们测试,也发现Llama3能力很强,可以理解中文问题的意...
8天前 224浏览 0点赞 0回复 0收藏
写在前面大家好,我是刘聪NLP。大模型时代,数据至上,如何利用大模型合成更多高质量数据也备受关注。今天给大家分享一个有意思的大模型合成数据方法MAGPIE,在不需要种子数据和额外人工干预的情况下,挖掘出对齐过的模型自身的指令数据。《MAGPIE:AlignmentDataSynthesisfromScratchbyPromptingAlignedLLMswithNothing》paper:https:arxiv.orgabs2406.08464github:https:github.commagpiealignmagpie核心思想:对齐过的大模型...
2024-07-01 10:40:44 260浏览 0点赞 0回复 0收藏
写在前面以chatgpt为起始节点的大模型技术经过了两年左右的发展,大致沉淀了一些较为确定的研究领域。首先是基座大模型的研究,主要是国内外大厂集中大量财力、人力、算力进行大模型军备竞赛,企图将大模型的基础能力(包括推理能力)上限逐步提升到更高的层次。当然也有一些研究机构致力于改进transformer的架构或者提出其他更先进的基础模型结构,在性能或者效率上做文章,例如MOE,Mamba等;多模态模型,让大模型同时能够理...
2024-06-27 15:14:05 261浏览 0点赞 0回复 0收藏
获得成就
已积累 238 人气
获得 0 个点赞
获得 0 次收藏