NLP工作站
LV.2
AIGC前沿知识分享&落地经验总结
声望 167
关注 0
粉丝 0
私信
主帖 22
回帖
以chatgpt为起始节点的大模型技术经过了两年左右的发展,大致沉淀了一些较为确定的研究领域。首先是基座大模型的研究,主要是国内外大厂集中大量财力、人力、算力进行大模型军备竞赛,企图将大模型的基础能力(包括推理能力)上限逐步提升到更高的层次。当然也有一些研究机构致力于改进transformer的架构或者提出其他更先进的基础模型结构,在性能或者效率上做文章,例如MOE,Mamba等;多模态模型,让大模型同时能够理解并生成...
3天前 174浏览 0点赞 0回复 0收藏
经过了数据收集、筛选、去重,马上就可以开始训练实验了。但是在实验之前,我们还需要先获取一个语言模型的基石:分词器(Tokenizer)。Tokenizer的作用是对一条文本数据进行切分、词表映射,得到这条文本的token序列。用开源Tokenizer还是自己训练Tokenizer可以自己训练,也可以从目前开源的模型中扒一个来用,用开源Tokenizer有几个点需要着重关注:压缩率:压缩率决定了文本向量化后的长度,压缩率越高,向量后数据越短,训...
2024-10-15 13:42:10 209浏览 0点赞 0回复 0收藏
今天智谱开了GLM49B的模型,不是6B,是9B。一共开源了四个模型,Base版本模型(GLM49B)、Chat版本模型(GLM49BChat和GLM49BChat1M)和多模态模型(GLM4V9BChat)。其中,模型为多语言模型除了支持中文、英文之外,还支持日语,韩语,德语在内的26种语言;Chat系列模型支持网页浏览、代码执行、自定义工具调用(FunctionCall)的能力;GLM4V9B模型支持中英双语多轮对话能力。Github:https:github.comTHUDMGLM4HF:https:huggingf...
2024-09-30 16:01:43 332浏览 0点赞 0回复 0收藏
早上起来发现,MetaAI又开源模型,文本模型开源了端侧小模型1B和3B模型,也是首次开源了多模态大模型11B和90B两个版本;同时还开源了一个LlamaStack项目。Blog:https:ai.meta.comblogllama32connect2024visionedgemobiledevicesHF:https:huggingface.cocollectionsmetallamallama3266f448ffc8c32f949b04c8cf其中Llama3.2多模态模型在图像识别和一系列视觉理解任务方面效果优于Claude3Haiku和GPT4omini。文本模型Llama3.23B模型...
2024-09-27 13:22:42 750浏览 0点赞 0回复 0收藏
Ta来了,Ta来了,Ta带着7个Size的开源模型迎面走来了。是的,期待已久的Qwen2.5开源了,共有7个尺寸规模,包括:0.5B、1.5B、3B、7B、14B、32B和72B,分别有Base模型和Instruct模型。本次全是Dense模型,没有MoE模型。同时还开源了Qwen2.5Coder模型和Qwen2.5Math模型。还开了GGUF、GPTQ和AWQ3种量化模型,别问,就是服务到位,主打一个“全”。你有Llama3.1,我有Qwen2.5,请问阁下如何应对。下面从模型说明、效果说明、Qwen2.5...
2024-09-20 10:37:22 1244浏览 0点赞 0回复 0收藏
这篇主要会回答下面的问题(toolong,don'tread):什么是OpenAIo1?——一个擅长数学物理化学生物编程等问题的理科学霸大模型OpenAIo1最大的技术特征是什么?——RL训练和推理,在传统COT之外隐藏了一个很长的内在COT,满足scalinglawOpenAIo1到底有多强?——断崖碾压GPT4o,达到人类竞赛选手,以及博士生水平。人们更喜欢GPT4o还是OpenAIo1——文科方面o1没有优势,理工科方面碾压GPT4oOpenAIo1的安全性怎么样?——相比4o优...
2024-09-13 11:39:13 435浏览 0点赞 0回复 0收藏
之前很多研究都是生成、发现、过滤高质量的通用指令微调数据,而大家对代码任务的越发关注,如何构建更好的代码指令调整数据也越发重要。下面给大家带来一篇筛选高质量代码指令微调数据的文章,主要基于指令的复杂性、回复质量和指令的多样性三个维度来进行样本的筛选,同时也指出了当前部分代码指令数据在HumanEval上存在严重的数据泄露。Paper:https:arxiv.orgabs2409.03810Github:https:github.combanksy23XCoderDataHF:http...
2024-09-10 11:56:24 390浏览 0点赞 0回复 0收藏
面壁一直都在做端侧大模型,之前有文本系列MiniCPM2B模型,还有多模态系列的MiniCPMV系列模型,今天又开源了MiniCPM34B模型,真是端侧一路走到低。这次MiniCPM34B也是在效果上有了巨大的提升,超过Phi3.5miniInstruct模型,肩比Llama3.18BInstruct、GLM49BChat、Qwen27BInstruct等一众模型,堪称小模型之王。之前的MiniCPM2B模型报告也是干活满满,详见:https:shengdinghu.notion.siteMiniCPMc805a17c5c8046398914e47f0542095a...
2024-09-09 01:07:35 448浏览 0点赞 0回复 0收藏
大家好,我是刘聪NLP。今天给大家带来一篇大模型微调相关的最新综述,主要大模型微调归纳为7个阶段分别为数据准备、模型初始化、训练环境配置、模型微调、模型评估与验证、模型部署以及模型监控与维护。Paper:https:arxiv.orgabs2408.13296模型微调(FineTuning)就是以预训练模型为基础,通过相对较少的特定数据集进行的进一步训练,主要是在模型预先存在的知识之上用过减少数据和计算成本来提高特定任务的效果。模型预训练与...
2024-08-29 15:16:43 627浏览 0点赞 0回复 0收藏
大家好,我是刘聪NLP。大模型已经展现出了较强的文本生成能力,但随着使用场景变得越加复杂和严格,除了避免生成误导或不当言论内容外,往往还希望可以满足用户的特殊需求。而可控文本生成就是为了在保持文本生成有用性、流畅性和多样性的同时,保证文本符合预定的控制条件,例如安全性、主题一致性、语言风格等。今天给大家带来一篇综述,介绍大模型可控文本生成(ControllableTextGeneration,CTG)的相关技术。Paper:https:ar...
2024-08-27 12:05:18 594浏览 0点赞 0回复 0收藏
我个人对llm是一种很复杂的态度。毕竟,它真的击碎了我2023年之前所有的技术积累,以前在nlp苦心钻研的训练经验、模型结构、不同任务类型的不同处理技巧,好像在ChatGPT面前显得一文不值。不过,事情都有两面性。与我的技术一起被击碎的,还有我那一潭死水的工作内容。我不再是特征工程师——“花了几个月的时间,就只为了构造某个能力的数据特征,然后想办法加入到模型网络中”。当领导又想让模型有一个新的能力怎么办,重复这...
2024-08-22 14:14:48 362浏览 0点赞 0回复 0收藏
首先,我们思考一个问题,为什么qwen2基本上是当下最受欢迎的开源模型?说实话,相比于deepseek、llama、minicpm这些诚意满满的技术报告,qwen2的技术报告稍显一些“小家子气”,并没有提及到关键的技术细节。然而,qwen2提供给开源社区的“全家桶”套餐,又是多长的技术报告也比不上的。对llm的研究者来说,用相同tokenizer,相同的7Tpretraindata得到的“一簇小llm”,其研究价值远远超过Qwen272B本身!知乎:https:zhuanlan.z...
2024-08-20 10:40:35 415浏览 0点赞 0回复 0收藏
Qwen2又出新作Math大模型,你值得拥有。我没有等来Qwen2.5,但等来了Qwen2Math,在数学推理能力上大幅度提高,先来一张图阵阵场子,72B模型超过GPT4o、Claude3.5Sonnet和Gemini1.5Pro。Blog:https:qwenlm.github.ioblogqwen2mathHF:https:huggingface.cocollectionsQwenqwen26659360b33528ced941e557f本次开源共涉及3个尺寸2个版本,分别为Qwen2Math1.5B、Qwen2Math1.5BInstruct、Qwen2Math7B、Qwen2Math7BInstruct、Qwen2Math...
2024-08-09 16:45:38 601浏览 0点赞 0回复 0收藏
今天给大家带来知乎好友ybq一篇关于如何进行领域模型训练的文章,主要内容是对postpretrain阶段进行分析,后续的Alignment阶段就先不提了,注意好老生常谈的“数据质量”和“数据多样性”即可。原文:https:zhuanlan.zhihu.comp711537210Qwen2:https:arxiv.orgabs2407.10671MiniCPM:https:shengdinghu.notion.siteMiniCPMc805a17c5c8046398914e47f0542095aLlama3.1:https:arxiv.orgabs2407.21783什么是领域模型?领域模型为...
2024-08-07 15:10:23 437浏览 0点赞 0回复 0收藏
写在前面Llama3.1模型已经开源,在这短短几天之内,也是出现了一些Llama3.1汉化的repo,开源社区也是相当的卷。主要是Llama3.1没有关注中文,虽然是多语言,但主要针对英语、法语、德语、印地语、意大利语、葡萄牙语、西班牙语和泰语。虽然让Llama3.1系列模型用中文回答时,也可以正常回答,但仍然有中英文混合现象,并且词表是真没中文呀,中文场景下解码效率会比较低。咋说呢?反正也给中文大模型更多机会吧,开源社区也有更...
2024-08-01 14:19:08 596浏览 0点赞 0回复 0收藏
Meta开源了Llama3.1系列模型,最大参数规模为405B,开源也是好起来了,榜单指标直逼GPT4o。开源追上闭源模型不再是梦!Llama系列模型确实是开源界的头部,真金白银砸出来的就是不一样。不过现在大家也都知道,榜单效果和真实使用效果也不是完全正比的,后面看看对lmsys战榜单,还有大家的实测效果吧!HF:https:huggingface.cocollectionsmetallamallama31669fc079a0c406a149a5738fLlama3.1系列模型细节15TTokens预训练;占比知...
2024-07-30 00:37:28 453浏览 0点赞 0回复 0收藏
写在前面大家好,我是刘聪NLP。大模型时代,指令微调已经成了算法工程师们必不可少的技能。而在指令微调过程中,我们往往会从数据数量和数据质量两个维度来对模型进行调优。今天给大家带来一个新的方法MoDS,一种面向模型的指令数据选择方法《MoDS:ModelorientedDataSelectionforInstructionTuning》,核心是从数据质量、覆盖范围、必要性三个角度来对原始数据集进行数据过滤,最终获取对于不同模型的高质量数据集。并且相较于...
2024-07-16 09:11:09 841浏览 0点赞 0回复 0收藏
写在前面大家好,我是刘聪NLP。大模型时代,数据至上,如何利用大模型合成更多高质量数据也备受关注。今天给大家分享一个有意思的大模型合成数据方法MAGPIE,在不需要种子数据和额外人工干预的情况下,挖掘出对齐过的模型自身的指令数据。《MAGPIE:AlignmentDataSynthesisfromScratchbyPromptingAlignedLLMswithNothing》paper:https:arxiv.orgabs2406.08464github:https:github.commagpiealignmagpie核心思想:对齐过的大模型...
2024-07-10 09:24:02 725浏览 0点赞 0回复 0收藏
写在前面大型语言模型在预训练过程中,如何选取数据的混合比例(利用较少的Tokens来实现较小的Loss从而加速预训练过程)是一个复杂和关键的问题。手动确认数据集中各个组成的比例是不可扩展的,并且很可能不是最优选择。今天给大家介绍一个用回归任务解决大模型数据混合问题的方法RegMix。其核心思想是,利用不同的数据混合比例先训练多个小模型并获取其结果,在利用这些样本训练一个回归模型,再遍历所有比例利用回归模型找到...
2024-07-08 07:38:25 934浏览 0点赞 0回复 0收藏
写在前面大家好,我是刘聪NLP。Llama3模型已经开源,可以就在这短短的两天之内,就出现了很多ChineseLlama3repo,开源社区也是相当的卷。再看到Llama3相关报告的时候,就预料到会有很多ChineseLlama3,因为Llama3对中文十分不友好,15TTokens的训练数据,仅有5%(750BTokens)是其他语言,那么中文就更少了。当时还抖激灵,说先开个repo占个坑(其实是想做但没卡)很多网友们测试,也发现Llama3能力很强,可以理解中文问题的意...
2024-07-04 09:02:05 869浏览 0点赞 0回复 0收藏
获得成就
已积累 3074 人气
获得 0 个点赞
获得 0 次收藏